Skip navigation
Universidade Federal da Bahia |
Repositório Institucional da UFBA
Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/44048
Tipo: Dissertação
Título: Aceleração dos modelos de máquina de vetores suporte para dados massivos via amostragem localizada.
Título(s) alternativo(s): Accelerating Support Vector Machines for large-scale data via localized sampling.
Towards the acceleration of Support Vector Machines for large-scale data via localized sampling.
Autor(es): Pereira, Ivalbert dos Santos
Primeiro Orientador: Souza, Anderson Luiz Ara
metadata.dc.contributor.referee1: Souza, Anderson Luiz Ara
metadata.dc.contributor.referee2: Dias, Diego Roberto Colombo
metadata.dc.contributor.referee3: Ramos, Thiago Rodrigo
Resumo: Estamos vivenciando o desenvolvimento e adoção cada vez maior dos modelos de aprendizado estatı́stico (ou de máquina). Além disso, o enorme volume de dados utilizados para o treinamento pode produzir efeitos inconvenientes quanto ao tempo de ajuste dos modelos. Em particular, as Máquinas de Vetor Suporte (SVM) são modelos com forte desempenho preditivo, mas são computacionalmente intensos, e até mesmo inviáveis, quando aplicados em conjuntos de dados massivos. Esta dissertação propõe um método para reduzir o tempo de treinamento de um modelo SVM de classificação, utilizando para isso dois métodos de particionamento e duas abordagens de amostragem. Os métodos de particionamento servem ao propósito de separar diferentes extratos no espaço de features sendo aplicados em diferentes tipos de variáveis, numéricas ou categóricas. Já as abordagens de amostragem objetivam reduzir o tamanho do conjunto de treino mantendo a maior representatividade possı́vel da amostra de treino. Os resultados alcançados nas aplicações, tanto em dados simulados quanto em dados reais, são bastante satisfatórios, apresentando tempos menores de treinamento e também, em alguns casos, maior capacidade preditiva quando comparados com a abordagem tradicional de treinamento, que utiliza todas as observações de uma base de dados. Uma descoberta importante foi feita com a adoção do método desenvolvido nesta dissertação, a redução dos efeitos da ”maldição da dimensionalidade”, onde os modelos treinados com a abordagem proposta obtiveram melhor capacidade preditiva que os modelos treinados com a abordagem tradicional.
Abstract: We are experiencing an increasing development and adoption of statistical learning models (or machine learning) frameworks. Additionally, the vast amounts of data used for training can have unintended effects concerning model adjustment time. In particular, Support Vector Machines (SVMs), which exhibit strong predictive performance, can be computationally intensive and even infeasible when applied to large datasets. This dissertation proposes a method to reduce the training time of a classification SVM model by utilizing two partitioning methods and two sampling approaches. The partitioning methods aim to separate different subsets in feature space, applied to both numerical and categorical variables. Meanwhile, the sampling approaches seek to reduce the size of the training set while maintaining as much representative power from the training sample as possible. The results obtained in applications, whether using simulated or real data, are quite satisfactory, presenting shorter training times and, in some cases, enhanced predictive capabilities when compared to the traditional training approach that uses all observations in a dataset. An important finding was the reduction of the ”curse of dimensionality”effects through the adoption of the proposed method.
Palavras-chave: Aprendizado de Máquina
Escalabilidade
SVM
Particionamento
Técnicas de Amostragem
Matemática
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
Idioma: por
País: Brasil
Editora / Evento / Instituição: Universidade Federal da Bahia
Sigla da Instituição: UFBA
metadata.dc.publisher.department: Instituto de Matemática
metadata.dc.publisher.program: Pós-Graduação em Matemática (PGMAT) 
Citação: PEREIRA, Ivalbert dos Santos. Aceleração dos modelos de máquina de vetores suporte para dados massivos via amostragem localizada. 2025. 89 f. Dissertação (Mestrado em Matemática) - Instituto de Matemática e Estatística - IME, Universidade Federal da Bahia, Salvador (Bahia), 2025.
Tipo de Acesso: Acesso Aberto
URI: https://repositorio.ufba.br/handle/ri/44048
Data do documento: 30-Jun-2025
Aparece nas coleções:Dissertação (PGMAT)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertacao_Ivalbert_30-06-2025.pdfAceleração dos modelos de máquina de vetores suporte para dados massivos via amostragem localizada7,36 MBAdobe PDFVisualizar/Abrir
Mostrar registro completo do item Visualizar estatísticas


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.