Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/38383
Tipo: Dissertação
Título: Identificação de tipos de relações temporais event-time em português: uma abordagem baseada em regras com classificação associativa.
Título(s) alternativo(s): Identification of types of event-time temporal relation in Portuguese: a rule-based approach with associative classification.
Autor(es): Rocha, Dárcio Santos
Primeiro Orientador: Souza, Marlo Vieira dos Santos e
metadata.dc.contributor.advisor-co1: Claro, Daniela Barreiro
metadata.dc.contributor.referee1: Souza, Marlo Vieira dos Santos e
metadata.dc.contributor.referee2: Araújo, Rerisson Cavalcante de
metadata.dc.contributor.referee3: Pita, Robespierre Dantas da Rocha
Resumo: A compreensão temporal em linguagem natural desempenha um papel fundamental na eficácia da comunicação, permitindo a compreensão da sequência e ordem dos eventos. Este estudo tem como objetivo desenvolver um método computacional para a identificação de tipos de relações temporais entre evento e expressão temporal em textos em português. A abordagem adotada baseia-se em regras e incorpora elementos linguísticos, incluindo informações lexicais, morfossintáticas e contextuais, tempos verbais de Reichenbach, sinais temporais e conhecimento prévio sobre o mundo, além das anotações TimeML presentes do corpus TimeBankPT. O método consistiu na criação de um conjunto abrangente de features relevantes, que foram utilizadas na construção de conjuntos de regras. Foram explorados algoritmos de aprendizagem de regras, como CBA, CN2, IDS e RIPPER, além de regras manuais. Os conjuntos de regras foram aplicados individualmente, bem como em combinação, aos pares compostos por evento e expressão temporal, utilizando duas estratégias de aplicação: a primeira regra acionada e um sistema de votação. Destaca-se que este é o primeiro trabalho que conhecemos a empregar técnicas de aprendizagem de regras para solucionar essa tarefa específica. Os resultados estatísticos mostraram a eficácia da abordagem baseada em regras, destacando-se o conjunto de regras gerado pelo algoritmo RIPPER, que obteve o melhor desempenho. Esse conjunto de regras superou o método de referência, alcançando uma acurácia de 69,2% e um F1-score de 66,1%. Houve um aumento significativo de 2,3 pontos percentuais em acurácia e 3,6 pontos percentuais em F1-score nos dados de teste. A aplicação dos conjuntos de regras pelo sistema de votação foi mais eficaz em dados desconhecidos. A diferença significativa entre os conjuntos de regras e o baseline utilizado destaca a importância das features adicionais empregadas pelas regras na identificação das relações temporais. Essas features forneceram informações complementares e permitiram uma análise mais precisa dos dados. Além disso, os conjuntos de regras demonstraram capacidade de generalização, capturando padrões e regularidades nos dados que podem ser aplicados a novas instâncias, possibilitando previsões precisas. Isso evidencia a utilidade e eficácia dos conjuntos de regras como uma abordagem robusta para lidar com a complexidade das relações temporais em textos. Essa pesquisa contribui para o avanço do processamento de linguagem natural, proporcionando uma compreensão aprimorada e explicável das relações temporais. Também possui aplicações práticas em áreas como descrição de cenas, compreensão de histórias, resumo de documentos, representação da estrutura temporal de prontuários médicos e análise de notícias. A continuidade desse trabalho pode desvendar novas possibilidades para a compreensão temporal em textos.
Abstract: Temporal understanding in natural language plays a fundamental role in communication effectiveness, enabling the comprehension of sequence of event and their order. This study aims to develop a computational method for identifying types of temporal relations between event and temporal expression in Portuguese texts. The adopted approach is rule-based and incorporates linguistic elements, including lexical, morphosyntactic, and contextual information, Reichenbach’s tenses, temporal signals, and prior world knowledge, in addition to TimeML annotations from the TimeBankPT corpus. The method consisted in creating a comprehensive set of relevant features used to construct rule sets. We explore rule learning algorithms such as CBA, CN2, IDS, RIPPER, and manual rules. The rule sets were applied individually, as well as in combination, to pairs composed of an event and a temporal expression, using two application strategies: the first triggered rule and a voting system. It is worth noting that this is the first work we are aware of to employ rule-learning techniques to solve this specific task. The statistical results showed the effectiveness of the rule-based approach, with the rule set generated by the RIPPER algorithm standing out and achieving the best performance. This rule set outperformed the baseline method, achieving an accuracy of 69.2% and an F1-score of 66.1%. There was a significant increase of 2.3 percentage points in accuracy and 3.6 percentage points in F1-score on the test data. The application of rules by the voting system was more effective on unseen data. The significant difference between the rule sets and the baseline used highlights the importance of the additional features employed by the rules in identifying temporal relations. These features provided complementary information and allowed for a more precise analysis of the data. Furthermore, the rule sets demonstrated generalization ability, capturing patterns and regularities in the data that can be applied to new instances, enabling accurate predictions. This underscores the utility and effectiveness of rule sets as a robust approach to dealing with the complexity of temporal relations in texts. This research contributes to the advancement of natural language processing, providing an enhanced and explainable understanding of temporal relations. It also has practical applications in areas such as scene description, story comprehension, document summarization, representation of temporal structure in medical records, and news analysis. The continuation of this work can unveil new possibilities for temporal understanding in texts.
Palavras-chave: Relações Temporais
Event-Time
TimeBankPT
Extração de Informação
Baseada em Regras
Aprendizagem de Regras
Classificação Associativa
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editora / Evento / Instituição: Universidade Federal da Bahia
Sigla da Instituição: UFBA
metadata.dc.publisher.department: Instituto de Computação - IC
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
Citação: ROCHA, Dárcio Santos. Identificação de tipos de relações temporais Event-Time em português: uma abordagem baseada em regras com classificação associativa. 2023. 171 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.
URI: https://repositorio.ufba.br/handle/ri/38383
Data do documento: 14-Ago-2023
Aparece nas coleções:Dissertação (PGCOMP)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2023.10.23_Dissertacao_Darcio_Rocha_Versao_Final_PDF_A.pdfDissertação de mestrado de Dárcio Santos Rocha1,34 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.