Skip navigation
Universidade Federal da Bahia |
Repositório Institucional da UFBA
Use este identificador para citar ou linkar para este item: https://repositorio.ufba.br/handle/ri/39887
Registro completo de metadados
Campo DCValorIdioma
dc.creatorSantana, Taijara Loiola de-
dc.date.accessioned2024-08-15T13:46:15Z-
dc.date.available2024-03-01-
dc.date.available2024-08-15T13:46:15Z-
dc.date.issued2024-03-01-
dc.identifier.citationSANTANA, Taijara Loiola de. Bug analysis in Jupyter notebook projects: an empirical study. 2024. 83 f. Dissertação (Mestrado em Ciência da Computação), Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2024.pt_BR
dc.identifier.urihttps://repositorio.ufba.br/handle/ri/39887-
dc.description.abstractOne of the new technologies driving data science projects is Computational Notebooks, which allow users to build data-oriented codes, emphasizing the data collected and the analysis performed. Although Computational Notebooks have gained visibility, some problems and solutions already discussed and studied by the software engineering community must be addressed, impacting the quality of the developed software and, consequently, data analysis. In addition, neglecting these aspects can lead to the spread of bad programming practices. Computational Notebooks, such as Jupyter, have been widely adopted by data scientists to write code for analyzing and visualizing data. Despite their growing adoption and popularity, few studies are available to understand Jupyter development challenges from the practitioners’ point of view. This dissertation systematically studies bugs and challenges that Jupyter practitioners face through a large-scale empirical investigation. We mined 14,740 commits from 105 GitHub open-source projects with Jupyter Notebook code. Next, we analyzed 30,416 StackOverflow posts, which gave us insights into bugs that practitioners face when developing Jupyter Notebook projects. We conducted nineteen interviews with data scientists to uncover more details about Jupyter bugs and to gain insight into Jupyter developers’ challenges and finally, to validate all the information obtained, we carried out a survey with several data scientists and an analysis with association rules using the Apriori algorithm. We propose a bug taxonomy for Jupyter projects based on our results. We also highlight bug categories, their root causes, and Jupyter practitioners’ challenges.pt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal da Bahiapt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectJupyter Notebookspt_BR
dc.subjectBugspt_BR
dc.subjectSoftware Repositoriespt_BR
dc.subjectInterviewspt_BR
dc.subject.otherCadernos Jupyterpt_BR
dc.subject.otherBugspt_BR
dc.subject.otherRepositórios de Softwarept_BR
dc.subject.otherEntrevistaspt_BR
dc.titleBug analysis in Jupyter notebook projects: an empirical study.pt_BR
dc.title.alternativeAnálise de bugs em projetos Jupyter notebook: um estudo empírico.pt_BR
dc.typeDissertaçãopt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação (PGCOMP) pt_BR
dc.publisher.initialsUFBApt_BR
dc.publisher.countryBrasilpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.contributor.advisor1Almeida, Eduardo Santana de-
dc.contributor.advisor1IDhttps://orcid.org/0000-0002-9312-6715pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8538761803577291pt_BR
dc.contributor.advisor-co1Silveira Neto, Paulo Anselmo da Mota-
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0003-0197-8249pt_BR
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/6465144387155252pt_BR
dc.contributor.referee1Almeida, Eduardo Santana de-
dc.contributor.referee1IDhttps://orcid.org/0000-0002-9312-6715pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/8538761803577291pt_BR
dc.contributor.referee2Souza, Rodrigo Rocha Gomes e-
dc.contributor.referee2IDhttps://orcid.org/0000-0001-8186-0069pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7697794806460975pt_BR
dc.contributor.referee3Conte, Tayana Uchôa-
dc.contributor.referee3IDhttps://orcid.org/0000-0001-6436-3773pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/6682919653508224pt_BR
dc.creator.IDhttps://orcid.org/0009-0000-7716-3244pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/4821381368517724pt_BR
dc.description.resumoUma das novas tecnologias que vêm impulsionando a ciência de dados são os Notebooks Computacionais, que permitem aos usuários construir códigos orientados a dados, enfatizando a análise realizada e os dados obtidos. Apesar de os Notebooks computacionais ganharem visibilidade, problemas e soluções já discutidos e estudados pela engenharia de software precisam ser abordados, impactando a qualidade do software desenvolvido e, consequentemente, a análise de dados. Isso também pode levar à disseminação de práticas de programação inadequadas. Notebooks computacionais, como o Jupyter, têm sido amplamente adotados por cientistas de dados para escrever código para análise e visualização de dados. Apesar de sua crescente adoção e popularidade, poucos estudos foram encontrados para compreender os desafios de desenvolvimento do Jupyter do ponto de vista dos praticantes. Este estudo apresenta uma investigação sistemática de bugs e desafios que os praticantes do Jupyter enfrentam por meio de uma investigação empírica em larga escala. Mineramos 14.740 commits de 105 projetos de código aberto do GitHub com código de Notebooks Jupyter. Em seguida, analisamos 30.416 postagens no Stack Overflow, que nos deram insights sobre bugs que os praticantes enfrentam ao desenvolver projetos de Notebooks Jupyter. Conduzimos dezenove entrevistas com cientistas de dados para descobrir mais detalhes sobre os bugs do Jupyter e obter insights sobre os desafios dos desenvolvedores do Jupyter e, por fim, para validar todas as informações obtidas, realizamos um survey com diversos cientistas de dados e uma análise com regras de associação utilizando o algoritmo Apriori. Propomos uma taxonomia de bugs para projetos Jupyter com base em nossos resultados. Também destacamos categorias de bugs, suas causas raiz e os desafios que os praticantes do Jupyter enfrentam.pt_BR
dc.publisher.departmentInstituto de Computação - ICpt_BR
dc.type.degreeMestrado Acadêmicopt_BR
Aparece nas coleções:Dissertação (PGCOMP)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertação_Mestrado_2024_v7.pdfDisseração de Mestrado 2024 - Taijara5,52 MBAdobe PDFVisualizar/Abrir
Mostrar registro simples do item Visualizar estatísticas


Este item está licenciada sob uma Licença Creative Commons Creative Commons