On the use of fuzzy clustering  to build fuzzy rule based  systems to address big data

Tuy, Pétala Gardênia da Silva Estrela

Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/36662

Tipo:	Dissertação
Título:	On the use of fuzzy clustering to build fuzzy rule based systems to address big data
Título(s) alternativo(s):	Sobre o uso de clustering difuso para criar sistemas baseados em regras difusas, para lidar com Big Data
Autor(es):	Tuy, Pétala Gardênia da Silva Estrela
Primeiro Orientador:	Rios, Tatiane Nogueira
metadata.dc.contributor.referee1:	Rios, Tatiane Nogueira
metadata.dc.contributor.referee2:	Pires, Matheus Giovanni
metadata.dc.contributor.referee3:	Barreto, Marcos Ennes
Resumo:	Big Data é um tópico de tendência que tem ganhado atenção no mundo empresarial e acadêmico ambientes. O termo refere-se à enorme quantidade de dados que estão sendo gerados todos os dias. numa variedade de fontes e formatos. Uma parte expressiva do Big Data está no formato de texto que pode ser usado para resolver vários problemas da vida real, como deteção de spam, identificação de autores, classificação de páginas web e análise de sentimento. Os conjuntos de dados de texto são especialmente complicado, uma vez que a sua elevada dimensionalidade pode estender-se da vertical à horizontal alta dimensionalidade (alto número de instâncias e atributos, respectivamente). A fim de extrair conhecimento útil de tais conjuntos de dados de alta dimensão, técnicas de análise de dados devem ser capazes de enfrentar os seus novos desafios: volume, velocidade, variedade e variabilidade. Os Sistemas de Classificação Fuzzy Rule-Based (FRBCS) demonstraram lidar eficazmente com a incerteza, imprecisão e ruído inerentes aos dados. No entanto, o desempenho dos FRBCSs é altamente afetada pelo número crescente de instâncias e atributos presentes no Big Data. As abordagens propostas anteriormente tentam adaptar os FRBCS existentes para lidar com Big Data distribuindo o processamento de dados com o paradigma MapReduce. Esta metodologia aborda alta dimensionalidade vertical, mas não aborda conjuntos de dados com vertical simultânea e alta dimensionalidade horizontal, como é o caso dos conjuntos de dados de texto. Alta horizontal a redução da dimensionalidade poderia ser feita utilizando técnicas comuns de seleção de características, como MI e Qui-quadrado. No entanto, o uso dessas técnicas de seleção de recursos não pode ser a melhor alternativa, uma vez que a precisão do modelo pode ser afetada pela perda de informações ao manter apenas um subconjunto de atributos. Neste trabalho, tratamos do supracitado desvantagens ao propor o Summarizer, uma abordagem para a construção de espaços de recursos reduzidos para dados dimensionais horizontalmente elevados. Para tal, realizamos um estudo empírico que compara um classificador bem conhecido proposto para conjuntos de dados verticais de alta dimensionalidade com e sem o processo de redução da dimensionalidade horizontal proposto pelo Summarizer. Nossas descobertas mostram que os classificadores existentes que lidam com problemas verticais de Big Data podem ser melhorado adicionando a abordagem Summarizer ao processo de aprendizagem, o que sugere que um algoritmo de aprendizagem unificado para conjuntos de dados com um alto número de instâncias, bem como um alto número de atributos, pode ser possível.
Abstract:	Big Data is a trending topic that has gained attention in the business and academic environments. The term refers to the huge amount of data being generated every day in a variety of sources and formats. An expressive part of Big Data is in the format of text that can be used to solve various real life problems, such as spam detection, author identification, web pages classification and sentiment analysis. Text datasets are specially complicated since its high dimensionality can extend from vertical to horizontal high dimensionality (high number of instances and attributes respectively). In order to extract useful knowledge from such high dimensional datasets, data analysis techniques must be able to cope with its new challenges: volume, velocity, variety and variability. Fuzzy Rule-Based Classification Systems (FRBCS) have shown to effectively deal with the uncertainty, vagueness, and noise inherent to data. However, the performance of FRBCSs is highly affected by the increasing number of instances and attributes present in Big Data. Previously proposed approaches try to adapt existing FRBCSs to deal with Big Data by distributing data processing with the MapReduce paradigm. This methodology tackles vertical high dimensionality, but it does not approach datasets with simultaneous vertical and horizontal high dimensionality, as it is the case of text datasets. Horizontal high dimensionality reduction could be done by using common feature selection techniques, such as MI and Chi-squared. However, using such feature selection techniques may not be the best alternative since model accuracy might be affected by the loss of information when keeping only a subset of attributes. In this work, we deal with the aforementioned drawbacks by proposing Summarizer, an approach for building reduced feature spaces for horizontally high dimensional data. To this end, we carry out an empirical study that compares a well-known classifier proposed for vertical high dimensionality datasets with and without the horizontal dimensionality reduction process proposed by Summarizer. Our findings show that existing classifiers that tackles vertical Big Data problems can be improved by adding the Summarizer approach to the learning process, which suggests that an unified learning algorithm for datasets with a high number of instances as well as a high number of attributes might be possible.
Palavras-chave:	Big Data MapReduce Systems, Fuzzy Fuzzy Rule-Based Classification Systems (FRBCS)
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
Idioma:	eng
País:	Brasil
Editora / Evento / Instituição:	Universidade Federal da Bahia
Sigla da Instituição:	UFBA
metadata.dc.publisher.department:	Instituto de Computação - IC
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
Citação:	TUY, Pétala Gardênia da Silva Estrela. On the use of fuzzy clustering to build fuzzy rule based systems to address Big Data. 2020. 67f. Dissertação (Mestrado em Ciências da Computação) Instituto de Computação, Universidade Federal da Bahia, Salvador, BA, 2020.
Tipo de Acesso:	CC0 1.0 Universal
metadata.dc.rights.uri:	http://creativecommons.org/publicdomain/zero/1.0/
URI:	https://repositorio.ufba.br/handle/ri/36662
Data do documento:	15-Abr-2020
Aparece nas coleções:	Dissertação (PGCOMP)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
PGCOMP_2023-Dissertacao_Mestrado_PetalaTuy.pdf	Dissertação de Mestrado de Pétala Gardênia da Silva Estrela Tuy	1,77 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons