Please use this identifier to cite or link to this item: https://repositorio.ufba.br/handle/ri/33633
metadata.dc.type: Dissertação
Title: Estatística GAP temporal: um novo índice interno de validação de agrupamento de dados temporais
Authors: Ribeiro, Rosana Guimarães
metadata.dc.creator: Ribeiro, Rosana Guimarães
Abstract: Técnicas de Aprendizado de Máquina Não-Supervisionado foram desenvolvidas visando encontrar estruturas e padrões em conjuntos de dados sem considerar qualquer informação prévia fornecida, por exemplo, por um especialista. Essa ausência de informação impacta diretamente no processo de validação devido à dificuldade em mensurar o conhecimento obtido por meio destas técnicas. Visando solucionar este problema, diversas pesquisas têm sido publicadas na literatura propondo critérios que integram diferentes áreas do conhecimento como Ciência da Computação e Estatı́stica. Esses critérios são comumente divididos em 3 categorias: relativo, externo e interno. Em geral, tais critérios são desenvolvidos com base em ı́ndices com diferentes objetivos e vieses de análise. Entretanto, grande parte desses ı́ndices são aplicados sobre dados caracterizados por serem independentes e identicamente distribuı́dos. A realização de uma Revisão Sistemática da Literatura demonstrou que há um número reduzido de pesquisas que investigam ı́ndices de validação de agrupamento para dados com dependência temporal entre suas observações. Este número é ainda mais reduzido quando se trata de ı́ndices que utilizam critério interno de validação. Para superar essa limitação, este trabalho de mestrado apresenta um novo ı́ndice interno de validação baseado na estatı́stica GAP (Gap Statistic). Este novo ı́ndice foi desenvolvido com o objetivo de mensurar e validar informações extraı́das de dados temporais com comportamento caótico a partir da aplicação de técnicas de Sistemas Dinâmicos e de Aprendizado de Máquina não-supervisionado. Resultados experimentais demonstraram a eficiência do novo ı́ndice interno de validação para dados com dependência temporal e confirmaram a importância do mesmo para o estado da arte.
Unsupervised Machine Learning techniques have been developed to find out structures in datasets with-out considering any prior information. In such a context, the main challenge is to confirm whether the obtained structure indeed contains relevant data patterns. Aiming at solving this issue, there are several validation indexes proposed under different categories (e.g. internal, external, and relative) that allow to, for example, compare clustering algorithms or define the best parameter configurations. However, most of those indices are applied to data characterized for being collected in an independent and identically distributed manner. Thus, after performing a Systematic Literature Review, we noticed there are few researches investigating validation indexes specifically designed to deal with time-dependent data. The absence of researches for such context has motivated this work that was devoted to developing a new internal index based on Gap Statistic. Our index supports the estimation of the optimal number of clusters in a dataset only composed of time series. To reach this goal, we performed three important modifications in Gap Statistic: i) the use of a measure to calculate the distance between time series; ii) the adoption of a clustering method based on medoid; and iii) the modeling of time series in phase space using Dynamical System tools. Our results emphasize the importance of the proposed index, by accurately clustering sets of chaotic time series.
Keywords: Séries Temporais -- Análise
Índice Interno
Validação de Agrupamento
Estatística GAP
metadata.dc.subject.cnpq: Ciências Exatas e da Terra
Ciência da Computação
Metodologia e Técnicas da Computação
Engenharia de Software
metadata.dc.publisher.country: Brasil
metadata.dc.publisher.initials: UFBA
metadata.dc.publisher.program: em Ciência da Computação
metadata.dc.rights: Acesso Aberto
URI: http://repositorio.ufba.br/ri/handle/ri/33633
Issue Date: 25-Jun-2021
Appears in Collections:Dissertação (PGCOMP)

Files in This Item:
File Description SizeFormat 
Dissertação-Rosana Guimarães_versao final.pdf3,08 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.