Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade

Eustáquio, Fernanda Silva

Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/24355

Tipo:	Trabalho de Conclusão de Curso
Título:	Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta dimensionalidade
Autor(es):	Eustáquio, Fernanda Silva
Autor(es):	Eustáquio, Fernanda Silva
Abstract:	Agrupar objetos em clusters constitui uma das tarefas não supervisionadas de aprendizagem de máquina. Nesta tarefa, os objetos são agrupados convencionalmente em um número c de clusters previamente informado, onde um objeto pertence a somente um dos clusters. No entanto, se o problema de aprendizagem está inserido em um contexto onde deseja-se que um objeto possa pertencer a mais de um cluster ao mesmo tempo, então a Teoria dos Conjuntos Fuzzy pode ser utilizada para que o agrupamento torne-se flexível. Esta flexibilidade em agrupar objetos será dada por um grau de pertinência que cada objeto terá em cada um dos c clusters. Este número de clusters deve ser informado como parâmetro do algoritmo Fuzzy CMeans (FCM), utilizado neste trabalho para agrupar bases textuais de alta dimensionalidade. No entanto, se este valor não é conhecido e deseja-se saber qual o número ótimo de clusters que mais se ajusta a base agrupada, o algoritmo deverá ser executado para cada número c de clusters definido em um intervalo. Considerando que serão geradas diferentes partições para cada um dos valores de c utilizados, como escolher qual a melhor partição? Ou seja, como escolher a partição gerada que encontrou a melhor estrutura contida em uma base? A validação de agrupamento é então realizada para verificar se a partição gerada por um algoritmo é bem estruturada e qual o número de clusters desta partição. Para bases de dados bidimensionais, esta validação pode ser realizada através da visualização dos dados. Já no caso das bases de maiores dimensões esta validação será feita através de índices estatísticos, que quantificam a qualidade do agrupamento obtido, identificando a estrutura mais adequada de acordo com os dados e o problema. Estes índices estatísticos são chamados de índices de validação de agrupamento fuzzy. Neste trabalho, os índices de validação serão avaliados ao estudar como estes índices validaram os agrupamentos gerados pelo FCM, ou seja, a partir da quantidade de clusters indicada por cada índice, estes terão seus desempenhos avaliados através do cálculo de média para quando o número ótimo de clusters escolhido for igual a quantidade correta, mínima ou máxima (intervalo de c informado ao FCM) de clusters. Estes valores de média permitiram: perceber que a alta dimensionalidade das bases textuais pode ser a principal causa do desempenho inesperado dos índices e sugerir os índices P, MPC, SF, K e T para validação de agrupamento de bases textuais, utilizando valores no intervalo de [7.0; 10.0] para o fator de fuzzificação m. Clustering objects in clusters is one of the unsupervised tasks of machine learning. In this task, the objects are conventionally clustered into a number c of clusters previously informed, where an object belongs to only one of the clusters. However, if the learning problem is embedded in a context where it is desired that an object can belong to more than one cluster at a time, then Fuzzy Set Theory can be used to make flexible clustering. This flexibility in clustering objects will be given by a membership degree that each object will have in each clusters. This number of clusters must be informed as a parameter of the Fuzzy C-Means (FCM) algorithm used in this work to clustering high dimensional textual sets. However, if this value is not known and we want to know what the optimum number of clusters that fit the clustered dataset, the algorithm should be executed for each number of clusters defined in a range. Considering that different partitions will be generated for each of the values of c used, how to choose the best partition? That is, how to choose the generated partition that found the best structure contained in a dataset? The validity clustering is performed to verify that the partition generated by an algorithm is well structured and how many clusters this partition has. For two-dimensional data sets, this validation can be performed by visualizing the data. In case of larger data sets, this validation will be done through statistical indexes, which quantify the quality of the clustering obtained, identifying the most appropriate structure according to the data and the problem. These statistical indexes are called fuzzy clustering validity indexes. In this work, the validity indexes will be evaluated by studying how these indexes validated the clusters generated by FCM, that is, from the number of clusters indicated by each index, these will have their performances evaluated through the average calculation for when the optimal number of clusters chosen was equal to the correct, minimum or maximum amount (range of c given to FCM) of clusters. These average values allowed: to realize that the high-dimensionality of the textual set can be the main reason of the unexpected performance of the indexes and to suggest P, MPC, SF, K and T indexes for validate high dimensional data clustering using values in the range of [7.0; 10.0] for the fuzzification factor m.
Palavras-chave:	Agrupamento fuzzy Índices de validação Mineração de Texto Fator de fuzzificação Alta dimensionalidade
CNPq:	Mineração de Texto Índices de validação de agrupamento fuzzy Agrupamento fuzzy
País:	Brasil
Sigla da Instituição:	UFBA
Tipo de Acesso:	Acesso Aberto
URI:	http://repositorio.ufba.br/ri/handle/ri/24355
Data do documento:	10-Out-2017
Aparece nas coleções:	Trabalho de Conclusão de Curso (Graduação) - Ciência da Computação (IC)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Um estudo sobre índices de validação de agrupamento fuzzy para dados de alta-dimensionalidade.pdf		7,63 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas