Automated identification of text in images with Amazon Rekognition
DOI:
https://doi.org/10.33448/rsd-v12i3.40655Keywords:
Amazon Rekognition; Deep learning; Text recognition; Data analysis.Abstract
The recognition of text in images is a challenge in the field of computer vision due to the variety of sources, image quality, size, and colors present in images. In this context, this work aims to develop an application for recognizing text in images using the Amazon Rekognition API and evaluate its accuracy. To achieve this, an algorithm based on deep learning techniques is proposed, capable of achieving an accuracy above 90% in the location and extraction of text in images, using data extraction methods from the text detection function of the Amazon Rekognition API. This article also has the potential to contribute to the advancement of future work in the field of computer vision, with a focus on text detection in images. Finally, the study concludes that the text detection API of Amazon Rekognition is relevant in data analysis, considering that it is trained with large amounts of image data to learn relevant characteristics, achieving an accuracy above 90%. However, it is necessary to consider that image quality and the type of font used can influence the accuracy of the results.
References
Antonio, D. V. (2021). Implementação de protótipo baseado na tecnologia OCR aplicada ao reconhecimento de rótulos para busca em banco de dados. (Dissertação de mestrado, Universidade Federal do Rio de Janeiro).
Aguiar, B., & Santos, G. (2022). Comparativo de desempenho entre metodologias de modelos de inteligência artificial supervisionada. [Comparative performance between supervised artificial intelligence model methodologies]. Revista Brasileira de Tecnologia Aplicada, 10(2), 45-58.
AWS. (2020). Developer guide: Detecting text. Amazon Web Services. Retrieved from https://docs.aws.amazon.com/rekognition/latest/dg/text-detection.html.
AWS. (2020). Amazon Rekognition. Retrieved from https://aws.amazon.com/pt/rekognition/
Basso, D. P., Colnago, M., & Casaca, W. (2020). Um método não-supervisionado de detecção de oclusões textuais para imagens de sensoriamento remoto. Proceeding Series of the Brazilian Society of Computational and Applied Mathematics, 7(1).
Cozman, F. G., & Kaufman, D. (2022). Viés no aprendizado de máquina em sistemas de inteligência artificial: a diversidade de origens e os caminhos de mitigação. Revista USP, 1(135), 195-210.
Indla, R. K. (2021). An overview on Amazon Rekognition technology.
Inteligência Artificial. (2013). (3ª ed.). Rua Sete de Setembro, 111 – 16 o andar: 1350.
Kaufman, D. (2020). Inteligencia artificial: repensando a mediação. Brazilian Journal of Development, 6(9), 67621-67639.
Oliveira, W. (Data não especificada). Identificar autoridades por meio de reconhecimento facial. Uso de tecnologia de visão computacional como alternativa para antigo processo de fotogramas (Carômetro).
Opara, C. M. (2019). Cloud computing in Amazon Web Services, Microsoft Windows Azure, Google App Engine and IBM cloud platforms: A comparative study. (Doctoral dissertation). Near East University.
Pina, D. B., Cruz, S., Ferreira, R. C., Silva, M. L., & Matos, D. M. (2019). Análise de hiperparâmetros em aplicações de aprendizado profundo por meio de dados de proveniência. In Anais do XXXIV Simpósio Brasileiro de Banco de Dados (pp. 223-228). SBC.
Prodanov, C. C., & Freitas, E. C. de. (2013). Metodologia do trabalho científico: métodos e técnicas da pesquisa e do trabalho acadêmico (2ª ed.). Novo Hamburgo: Universidade FEEVALE.
Romero, R. V. (Data não especificada). Processo automático de reconhecimento de texto em imagens de documentos de identificação genéricos. Tese de Doutorado. Universidade de São Paulo.
Rosa, A. L., Martins, V. S., Pires, A. M. A., Oliveira, A. R. A., & Araujo, R. B. (2019). Classificação de imagens de frutas utilizando aprendizado de máquina. Anais do Congresso Brasileiro de Informática na Educação, 30(1), 1-10.
Silva, R. O. (2019). Análise de desempenho da Google Cloud Vision API em leitura de textos provenientes de imagens naturais.
Santos, M. (2010). Protótipo para Mineração de Opinião em Redes Sociais: Estudo de Casos Selecionados Usando o Twitter. Monografia. Departamento de Ciência da Computação, Universidade Federal de Lavras.
Wainer, J., Borenstein, J., & Cukierman, H. L. (2007). Métodos de pesquisa quantitativa e qualitativa para a Ciência da Computação. Atualização em Informática, 1(221-262), 32-33.
Wazlawick, R. S. (2010). Uma reflexão sobre a pesquisa em ciência da computação à luz da classificação das ciências e do método científico. Revista de Sistemas de Informação da FSMA, 6, 3-10.
Zhao, M., Li, S., & Kwok, J. (2010). Text detection in images using sparse representation with discriminative dictionaries. Image and Vision Computing, 28(12), 1590-1599. doi: 10.1016/j.imavis.2010.03.015.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2023 Jardel Silas da Silva Barata; Lucas Ravele de Sousa Teixeira; Bruno Campos da Silva; Thiago Nicolau Magalhães de Souza Conte; Wilker José Caminha dos Santos
This work is licensed under a Creative Commons Attribution 4.0 International License.
Authors who publish with this journal agree to the following terms:
1) Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
2) Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
3) Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work.