Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/33633
Tipo: Dissertação
Título: Estatística GAP temporal: um novo índice interno de validação de agrupamento de dados temporais
Autor(es): Ribeiro, Rosana Guimarães
Autor(es): Ribeiro, Rosana Guimarães
Abstract: Técnicas de Aprendizado de Máquina Não-Supervisionado foram desenvolvidas visando encontrar estruturas e padrões em conjuntos de dados sem considerar qualquer informação prévia fornecida, por exemplo, por um especialista. Essa ausência de informação impacta diretamente no processo de validação devido à dificuldade em mensurar o conhecimento obtido por meio destas técnicas. Visando solucionar este problema, diversas pesquisas têm sido publicadas na literatura propondo critérios que integram diferentes áreas do conhecimento como Ciência da Computação e Estatı́stica. Esses critérios são comumente divididos em 3 categorias: relativo, externo e interno. Em geral, tais critérios são desenvolvidos com base em ı́ndices com diferentes objetivos e vieses de análise. Entretanto, grande parte desses ı́ndices são aplicados sobre dados caracterizados por serem independentes e identicamente distribuı́dos. A realização de uma Revisão Sistemática da Literatura demonstrou que há um número reduzido de pesquisas que investigam ı́ndices de validação de agrupamento para dados com dependência temporal entre suas observações. Este número é ainda mais reduzido quando se trata de ı́ndices que utilizam critério interno de validação. Para superar essa limitação, este trabalho de mestrado apresenta um novo ı́ndice interno de validação baseado na estatı́stica GAP (Gap Statistic). Este novo ı́ndice foi desenvolvido com o objetivo de mensurar e validar informações extraı́das de dados temporais com comportamento caótico a partir da aplicação de técnicas de Sistemas Dinâmicos e de Aprendizado de Máquina não-supervisionado. Resultados experimentais demonstraram a eficiência do novo ı́ndice interno de validação para dados com dependência temporal e confirmaram a importância do mesmo para o estado da arte.
Unsupervised Machine Learning techniques have been developed to find out structures in datasets with-out considering any prior information. In such a context, the main challenge is to confirm whether the obtained structure indeed contains relevant data patterns. Aiming at solving this issue, there are several validation indexes proposed under different categories (e.g. internal, external, and relative) that allow to, for example, compare clustering algorithms or define the best parameter configurations. However, most of those indices are applied to data characterized for being collected in an independent and identically distributed manner. Thus, after performing a Systematic Literature Review, we noticed there are few researches investigating validation indexes specifically designed to deal with time-dependent data. The absence of researches for such context has motivated this work that was devoted to developing a new internal index based on Gap Statistic. Our index supports the estimation of the optimal number of clusters in a dataset only composed of time series. To reach this goal, we performed three important modifications in Gap Statistic: i) the use of a measure to calculate the distance between time series; ii) the adoption of a clustering method based on medoid; and iii) the modeling of time series in phase space using Dynamical System tools. Our results emphasize the importance of the proposed index, by accurately clustering sets of chaotic time series.
Palavras-chave: Séries Temporais -- Análise
Índice Interno
Validação de Agrupamento
Estatística GAP
CNPq: Ciências Exatas e da Terra
Ciência da Computação
Metodologia e Técnicas da Computação
Engenharia de Software
País: Brasil
Sigla da Instituição: UFBA
metadata.dc.publisher.program: em Ciência da Computação
Tipo de Acesso: Acesso Aberto
URI: http://repositorio.ufba.br/ri/handle/ri/33633
Data do documento: 25-Jun-2021
Aparece nas coleções:Dissertação (PGCOMP)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertação-Rosana Guimarães_versao final.pdf3,08 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.