Skip navigation
Universidade Federal da Bahia |
Repositório Institucional da UFBA
Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/39887
Tipo: Dissertação
Título: Bug analysis in Jupyter notebook projects: an empirical study.
Título(s) alternativo(s): Análise de bugs em projetos Jupyter notebook: um estudo empírico.
Autor(es): Santana, Taijara Loiola de
Primeiro Orientador: Almeida, Eduardo Santana de
metadata.dc.contributor.advisor-co1: Silveira Neto, Paulo Anselmo da Mota
metadata.dc.contributor.referee1: Almeida, Eduardo Santana de
metadata.dc.contributor.referee2: Souza, Rodrigo Rocha Gomes e
metadata.dc.contributor.referee3: Conte, Tayana Uchôa
Resumo: Uma das novas tecnologias que vêm impulsionando a ciência de dados são os Notebooks Computacionais, que permitem aos usuários construir códigos orientados a dados, enfatizando a análise realizada e os dados obtidos. Apesar de os Notebooks computacionais ganharem visibilidade, problemas e soluções já discutidos e estudados pela engenharia de software precisam ser abordados, impactando a qualidade do software desenvolvido e, consequentemente, a análise de dados. Isso também pode levar à disseminação de práticas de programação inadequadas. Notebooks computacionais, como o Jupyter, têm sido amplamente adotados por cientistas de dados para escrever código para análise e visualização de dados. Apesar de sua crescente adoção e popularidade, poucos estudos foram encontrados para compreender os desafios de desenvolvimento do Jupyter do ponto de vista dos praticantes. Este estudo apresenta uma investigação sistemática de bugs e desafios que os praticantes do Jupyter enfrentam por meio de uma investigação empírica em larga escala. Mineramos 14.740 commits de 105 projetos de código aberto do GitHub com código de Notebooks Jupyter. Em seguida, analisamos 30.416 postagens no Stack Overflow, que nos deram insights sobre bugs que os praticantes enfrentam ao desenvolver projetos de Notebooks Jupyter. Conduzimos dezenove entrevistas com cientistas de dados para descobrir mais detalhes sobre os bugs do Jupyter e obter insights sobre os desafios dos desenvolvedores do Jupyter e, por fim, para validar todas as informações obtidas, realizamos um survey com diversos cientistas de dados e uma análise com regras de associação utilizando o algoritmo Apriori. Propomos uma taxonomia de bugs para projetos Jupyter com base em nossos resultados. Também destacamos categorias de bugs, suas causas raiz e os desafios que os praticantes do Jupyter enfrentam.
Abstract: One of the new technologies driving data science projects is Computational Notebooks, which allow users to build data-oriented codes, emphasizing the data collected and the analysis performed. Although Computational Notebooks have gained visibility, some problems and solutions already discussed and studied by the software engineering community must be addressed, impacting the quality of the developed software and, consequently, data analysis. In addition, neglecting these aspects can lead to the spread of bad programming practices. Computational Notebooks, such as Jupyter, have been widely adopted by data scientists to write code for analyzing and visualizing data. Despite their growing adoption and popularity, few studies are available to understand Jupyter development challenges from the practitioners’ point of view. This dissertation systematically studies bugs and challenges that Jupyter practitioners face through a large-scale empirical investigation. We mined 14,740 commits from 105 GitHub open-source projects with Jupyter Notebook code. Next, we analyzed 30,416 StackOverflow posts, which gave us insights into bugs that practitioners face when developing Jupyter Notebook projects. We conducted nineteen interviews with data scientists to uncover more details about Jupyter bugs and to gain insight into Jupyter developers’ challenges and finally, to validate all the information obtained, we carried out a survey with several data scientists and an analysis with association rules using the Apriori algorithm. We propose a bug taxonomy for Jupyter projects based on our results. We also highlight bug categories, their root causes, and Jupyter practitioners’ challenges.
Palavras-chave: Jupyter Notebooks
Bugs
Software Repositories
Interviews
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: eng
País: Brasil
Editora / Evento / Instituição: Universidade Federal da Bahia
Sigla da Instituição: UFBA
metadata.dc.publisher.department: Instituto de Computação - IC
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
Citação: SANTANA, Taijara Loiola de. Bug analysis in Jupyter notebook projects: an empirical study. 2024. 83 f. Dissertação (Mestrado em Ciência da Computação), Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.
Tipo de Acesso: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: https://repositorio.ufba.br/handle/ri/39887
Data do documento: 1-Mar-2024
Aparece nas coleções:Dissertação (PGCOMP)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertação_Mestrado_2024_v7.pdfDisseração de Mestrado 2024 - Taijara5,52 MBAdobe PDFVisualizar/Abrir
Mostrar registro completo do item Visualizar estatísticas


Este item está licenciada sob uma Licença Creative Commons Creative Commons