Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/36107
Tipo: Trabalho de Conclusão de Curso
Título: Análise de fatores associados ao desempenho dos participantes do ENEM 2018 utilizando o sparklyr
Título(s) alternativo(s): Analysis of factors associated with the performance of ENEM 2018 participants using sparklyr
Autor(es): Almeida, Rafael Toledo Costa de
Primeiro Orientador: Brito, Edleide de
metadata.dc.contributor.advisor-co1: Gomes, Gecynalda Soares da Silva
metadata.dc.contributor.referee1: Gomes, Gecynalda Soares da Silva
metadata.dc.contributor.referee2: Silva, Giovana Oliveira
metadata.dc.contributor.referee3: Borges, Gabriela Lima
Resumo: O Exame Nacional do Ensino Médio (ENEM) foi criado em 1988 com a finalidade de avaliar o desempenho dos alunos concluintes do ensino médio. O ENEM tornou-se o maior exame nacional brasileiro utilizando de inovações no processo de inscrição, no qual possibilitou uma crescente demanda de inscrições e o atendimento de novos locais de provas com realização em todo o Brasil. Neste trabalho busca-se apresentar os fatores associados ao desempenho de todos os participantes no ENEM 2018 por meio da análise de correspondência múltipla, apresentando novas maneiras de aplicar esses métodos juntamente ao framework Spark. A base de dados é composta por 137 variáveis distribuídas em diferentes aspectos, como por exemplo, aspectos educacionais e socioeconômicos dos inscritos. Por meio do pré-processamento dos dados, utilizando o framework Spark e o pacote spaklyr no R, foi selecionado características de controle do participante, da escola, das provas e do questionário socioeconômico. O uso do Spark Apache foi necessário na etapa de pré-processamento dos dados (Big Data). A análise de correspondência é uma das técnicas estatísticas multivariadas, utilizada para o estudo de dados categóricos que possibilita avaliar graficamente as associações dessas variáveis. Os resultados da análise descritiva e exploratória dos dados trazem à tona que os participantes dos estados das regiões Sul e Sudeste apresentaram melhores notas em comparação aos participantes de outros estados e regiões. Observa-se um contraste na educação e consequentemente no desempenho dos participantes nos estados que estão mais distantes do centro econômico do Brasil. Os resultados encontrados na análise de correspondência múltipla apontam que há associação entre as variáveis de controle do participante, da escola, do questionário socioeconômico e o desempenho nas provas objetivas e discursiva. Esta relação entre os aspectos socioeconômicos e o desempenho dos participantes do ENEM 2018, é uma situação que evidencia uma desigualdade social, econômica e cultural que o Brasil ainda enfrenta e que influencia outros aspectos, sendo um deles a educação.
Abstract: The National High School Exam (ENEM) was created in 1988 with the purpose of evaluating the performance of high school graduates. The ENEM has become the largest Brazilian national exam using innovations in the registration process, in which it enabled a growing demand for registrations and the attendance of new test sites with realization throughout Brazil. This paper seeks to present the factors associated with the performance of all participants in ENEM 2018 through multiple correspondence analysis, presenting new ways to apply these methods together with the Spark framework. The database consists of 137 variables distributed in different aspects, such as educational aspects and socioeconomic factors of those enrolled. By preprocessing the data, using the Spark framework and the spaklyr package in R, control characteristics of the participant, school, tests and socioeconomic questionnaire were selected. The use of Spark Apache was necessary in the data preprocessing (Big Data) step. Correspondence analysis is one of the multivariate statistical techniques used for the study of categorical data that makes it possible to graphically evaluate the associations of these variables. The results of the descriptive and exploratory analysis of the data show that the participants from the states of the South and Southeast regions presented better scores compared to the participants from other states and regions. There is a contrast in education and consequently in the performance of participants in states that are farther from the economic center of Brazil. The results found in the analysis of multiple correspondence indicate that there is an association between the control variables of the participant, school, socioeconomic questionnaire and performance in objective and discursive tests. This relationship between socioeconomic aspects and the performance of enem 2018 participants is a situation that evidences a social, economic and cultural inequality that Brazil still faces and that influences other aspects, one of which is education.
Palavras-chave: Análise de Correspondência
Big Data
Sparklyr
ENEM
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS
Idioma: por
País: Brasil
Editora / Evento / Instituição: Universidade Federal da Bahia
Sigla da Instituição: UFBA
metadata.dc.publisher.department: Instituto de Matemática
Citação: ALMEIDA, Rafael Toledo Costa de. Análise de fatores associados ao desempenho dos participantes do ENEM 2018 utilizando o sparklyr. 2021. 59 f. TCC (Graduação em Estatística) Instituto de Matemática e Estatística, Universidade Federal da Bahia, Salvador, BA, 2021.
URI: https://repositorio.ufba.br/handle/ri/36107
Data do documento: 14-Jun-2021
Aparece nas coleções:Trabalho de Conclusão de Curso (Graduação) - Estatística (IME)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC_Rafael_Toledo.pdfTrabalho de Conclusão de Curso de Rafael Toledo Costa de Almeida10,12 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.