Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/33750
Tipo: Dissertação
Título: Anotações semânticas em repositórios acadêmicos: um estudo de caso com o RI UFBA
Autor(es): Rocha, Aline Meira
Autor(es): Rocha, Aline Meira
Abstract: Anotações Semânticas permitem enriquecer os metadados de um documento, o que facilita a recuperação do mesmo pelos mecanismos de busca. Por sua vez, Repositórios Institucionais (RI) são repositórios acadêmicos que possibilitam o armazenamento e a divulgação das produções científicas de universidades e centros de pesquisa. As informações sobre cada item depositado são armazenadas em seus metadados, mas como usualmente isso é feito de maneira manual pelo próprio pesquisador nem sempre os termos escolhidos ajudam nessa descrição, o que leva à intervenção dos bibliotecários no processo. A anotação semântica de metadados referentes à comunidade, subcomunidade e palavras-chave permite o enriquecimento das descrições de itens do RI, além de facilitar o processo de recuperação. O objetivo geral desse trabalho é desenvolver uma solução para realizar a anotação semântica de maneira semiautomática em um RI de forma a auxiliar o trabalho dos bibliotecários durante a validação dos metadados de cada publicação. Para isso, a sugestão de palavras-chave durante a validação dos metadados identificaria termos representativos de cada publicação e enriqueceria semanticamente esses metadados, favorecendo a recuperação dos itens em um RI. Já métodos de aprendizagem de máquina de classificação textual binária podem sugerir que uma publicação também seja associada a outra subcomunidade caso seja identificado que se trata de trabalho multidisciplinar. Através da implementação de um classificador multi-hierárquico também é possível identificar comunidades e subcomunidade de publicações ainda não depositados no RI. Para atingir o objetivo proposto, os seguintes passos foram executados: (i) montagem de um ambiente de teste contendo um conjunto de documentos do RI UFBA com seus respectivos metadados e implementação de classificadores multi-hierárquicos e binários; (ii) avaliação dos classificadores a fim de identificar quais apresentam os melhores resultados; (iii) implementação do extrator de palavras-chaves; (iv) realização de um estudo de caso no RI da UFBA, no qual as palavras-chave extraídas passaram pela validação de especialistas de domínio, no caso as bibliotecárias do Sistema de Bibliotecas da UFBA (SIBI) e (vi) anotação semântica dos resultados obtidos no experimento dos classificadores e no estudo de caso. Os resultados obtidos mostram que a classificação multi-hierárquica teve ́um bom desempenho, sendo que o algoritmo de Naive Bayes apresentou os melhores resultados, com os valores das métricas acima de 85\% no 1º nível e acima de 80\% nos comunidades, com destaque na comunidade IME, na qual atingiu valores acima de 96\%. Na classificação binária foram observados resultados promissores, dada a complexidade da tarefa: foram retornados treze (13) trabalhos de vinte e oito (28) identificados como multidisciplinares, considerando o conjunto de documentos utilizado nos experimentos. Já no estudo de caso foi avaliado que as palavras-chave sugeridas foram adequadas. Por fim, foi realizada a anotação semântica utilizando o padrão RDF do Dublin Core a partir dos resultados obtidos na classificação textual e validação das sugestões de palavras-chave. O uso do classificador binário mostra um caminho para identificação de trabalhos multidisciplinares, campo pouco explorado na literatura, por sua vez o classificador multi-hierárquico pode ser usado em situações de povoamento de RI. A sugestão de palavras-chave auxiliaria à complementação da palavras-chaves realizadas pelos bibliotecários durante a validação dos metadados de cada documento. Por sua vez, as sugestões de comunidade, subcomunidade e palavra-chave podem ser anotados semanticamente no documento do RI com a finalidade de enriquecimento de seus metadados.
Semantic annotations allow you to enrich a document’s metadata, which facilitates its retrieval by search engines. In turn, Institutional Repositories (IR) are academic repositories that enable the storage and dissemination of scientific productions from universities and research centers. The information about each deposited item is stored in its metadata, but as this is usually done manually by the researcher himself, the terms chosen do not always help in this description, which leads to the intervention of librarians in the process. Semantic annotation of metadata for the community, subcommunity, and keywords allows enrichment of RI item descriptions, as well as facilitating the recovery process. The general objective of this work is to develop a solution to perform semantic annotation in a semi-automatic manner in an IR in order to assist the work of librarians during the validation of the metadata for each publication. For this, the suggestion of keywords during the validation of the metadata would identify representative terms of each publication and would semantically enrich these metadata, favoring the recovery of the items in an IR. Learning methods for a binary textual classification machine may suggest that a publication is also associated with another subcommunity if it is identified that it is multidisciplinary work. Through the implementation of a multi-hierarchical classifier, it is also possible to identify communities and subcommunities for publications not yet deposited in RI. To achieve the proposed objective, the following steps were performed: (i) setting up a test environment containing a set of RI UFBA documents with their respective metadata and implementing multi-hierarchical and binary classifiers; (ii) evaluation of the classifiers to identify which ones present the best results; (iii) implementation of the keyword extractor; (iv) conducting a case study at UFBA RI, in which the extracted keywords were validated by domain experts, in this case, the librarians of the UFBA Library System (SIBI) and (vi) semantic annotation of the results obtained in the classifier experiment and the case study. The results obtained show that the multi-hierarchical classification had a good performance, and the Naive Bayes algorithm showed the best results, with the values of the metrics above 85% in the 1st level and above 80% in the communities, with emphasis on IME community, in which it reached values above 96%. In the binary classification, promising results were observed, given the complexity of the task: thirteen (13) papers from twenty-eight (28) identified as multidisciplinary were returned, considering the set of documents used in the experiments. In the case study, it was assessed that the suggested keywords were adequate. Finally, the semantic annotation was performed using the Dublin Core RDF standard based on the results obtained in the textual classification and validation of keyword suggestions. The use of the binary classifier shows a way to identify multidisciplinary works, a field little explored in the literature, in turn, the multi-hierarchical classifier can be used in IR population situations. The suggestion of keywords would help to complement the keywords made by librarians during the validation of the metadata of each document. In turn, suggestions for community, subcommunity, and keyword can be noted semantically in the RI document for the purpose of enriching their metadata.
Palavras-chave: Anotações semânticas
Repositórios acadêmicos
Aprendizado de máquina
Classificação textual
Extração de palavras-chave
Web Semântica
Repositório Institucional -- UFBA
Metadados
CNPq: Ciências Exatas e da Terra
Ciência da Computação
País: brasil
Sigla da Instituição: UFBA
metadata.dc.publisher.program: em Ciência da Computação
Tipo de Acesso: Acesso Aberto
URI: http://repositorio.ufba.br/ri/handle/ri/33750
Data do documento: 15-Jul-2021
Aparece nas coleções:Dissertação (PGCOMP)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertacao_versao_final_Aline_Meira_Rocha.pdf2,66 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.