Ampliando modelos de Image Captioning em português através das informações linguísticas.

Gondim, João Medrado

Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/38707

Tipo:	Dissertação
Título:	Ampliando modelos de Image Captioning em português através das informações linguísticas.
Título(s) alternativo(s):	Expanding Image Captioning models in portuguese through linguistic information.
Autor(es):	Gondim, João Medrado
Primeiro Orientador:	Claro, Daniela Barreiro
metadata.dc.contributor.advisor-co1:	Souza, Marlo Vieira dos Santos e
metadata.dc.contributor.referee1:	Claro, Daniela Barreiro
metadata.dc.contributor.referee2:	Rios, Tatiane Nogueira
metadata.dc.contributor.referee3:	Avila, Sandra Eliza Fontes de
Resumo:	O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.
Abstract:	The increase in the number of applications that require accessibility, information retrieval and human-computer interaction has culminated in a growing need for automated generation of the description of an image. This automated description requires an identification of the scenario, characters and objects present and how these elements relate to each other. From these elements it becomes possible to generate a sentence in natural language describing the content of the image. The development of methods capable of automatically generating a sentence that describes an image permeates a research area called Image Captioning. Most research and datasets in the Image Captioning area focus on the English language, developing models and building efficient state-of-the-art resources. Languages with few resources for development, such as Portuguese, require more research to achieve a descriptive and understandable sentence. However, only the agglomeration of several objects contained in the image does not generate a descriptive sentence of a scene. In this context, this work proposes the analysis and incorporation of linguistic resources that can guide the language model in generating a description that is more informative of the image in Portuguese. Experiments were performed with the translation of datasets for the generation of the description in Portuguese. The results give evidence that there is morphological learning in the training of an Image Captioning model and that the incorporation of grammatical classes during training can contribute to the generation of sentences with greater length and more informative.
Palavras-chave:	Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma:	por
País:	Brasil
Editora / Evento / Instituição:	Universidade Federal da Bahia
Sigla da Instituição:	UFBA
metadata.dc.publisher.department:	Instituto de Computação - IC
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
Citação:	GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.
Tipo de Acesso:	CC0 1.0 Universal
metadata.dc.rights.uri:	http://creativecommons.org/publicdomain/zero/1.0/
URI:	https://repositorio.ufba.br/handle/ri/38707
Data do documento:	23-Ago-2023
Aparece nas coleções:	Dissertação (PGCOMP)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Dissertação___Versão_Final___Capa.pdf	Dissertação mestrado de João Medrado Gondim	7,68 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons

DSpace JSPUI

O DSpace preserva e provê acesso fácil e aberto a todos os tipos de objetos digitais, incluindo: textos, imagens, vídeos e conjuntos de dados