Fundamentos de Pesquisa em Ciência da Computação II

Workshop: desenvolvimento de revisão da literatura

Por: Joenio Marques da Costa
Prof.: Cassio Vinicius Serafim Prazeres

Debian: Um ecossistema sustentável para distribuição e uso de Software para Pesquisa

Orientação: Christina von Flach

Início: 2024.1 / Fim previsto: 2027.2


Debian GNU/Linux é um sistema operacional composto inteiramente por software livre.

Software para Pesquisa

Software para pesquisa (do ingês, research software) é definido como software usado para coletar, processar, visualizar ou analisar resultados de pesquisas científicas, incluindo desde protótipos escritos pelos próprios pesquisadores até produtos completos desenvolvidos profissionalmente [1].

[1] ALLEN, A. et al. Engineering academic software (dagstuhl perspectives workshop 16252). In: Dagstuhl Manifestos. [S.l.]: Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, 2017. v. 6, n. 1.

Sustentabilidade de Software

Costuma-se definir sustentabilidade de software a partir da sua dimensão técnica [2], como a capacidade do software de perdurar e de continuar sendo suportado ao longo do tempo [3],

[2] PENZENSTADLER, B.; FEMMER, H. A Generic Model for Sustainability with Process- and Product-specific Instances. In: Proceedings of the 2013 Workshop on Green in/by Software Engineering. New York, NY, USA: ACM, 2013. (GIBSE ’13), p. 3–8. ISBN 978-1-4503-1866-2. Disponível em: http://doi.acm.org/10.1145/2451605.2451609.

[3] VENTERS, C. C. et al. Software sustainability: The modern tower of babel. In: CEUR Workshop Proceedings. [S.l.: s.n.], 2014. v. 1216, p. 7–12.

Pesquisa Pratica

O termo guarda-chuva “practice research” foi adotado como aglutinador de praticas de pesquisa relacionadas a practice-led, practice-based, practice as research (PaR), arts research, artistic research, action research, entre outros [4].

[4] BULLEY, J.; SAHIN, O. Practice Research - Report 1: What is practice research? and Report 2: How can practice research be shared? [S.l.], 2021. Disponível em: https://bl.iro.bl.uk/concern/reports/b51c0f52-9801-49d9-9f00-cca89741091b.

Revisão da literatura: Escopo

O escopo do estudo inclui o sistema Debian mencionado em publicações acadêmicas ou na literatura cinza sobre o uso do Debian em projetos de pesquisa acadêmico.

Revisão da literatura: Objetivo

O objetivo da pesquisa é definido segundo a estrutura Goal-Question-Metric (GQM) [5].

  • Objetivo (Goal): Nível conceitual
  • Questão (Question): Nível operacional
  • Métrica (Metric): Nível quantitativo

[5] Basili, Victor R., Gianluigi Caldiera, e H. Dieter Rombach. 1994. “The Goal Question Metric Approach”. In Encyclopedia of Software Engineering. Wiley.

Objetivo: Objeto de estudo (GQM)

O objeto de estudo são projetos de pesquisa acadêmicos usando Debian como objeto de estudo ou como infraestrutura, ou que contribuam com o Debian, publicados em documentos incluindo literatura acadêmica e não-acadêmica.

GQM: Goal = Propósito; Assunto; Objeto; Perspectiva.

Coleta e análise exploratória dos dados

Busca realizada em 23 de maio de 2025 pelo termo “debian” no título, abstract e keywords apenas.

Base de dados e busca Número de resultados
ScienceDirect 94 resultados
Web of Science 186 resultados
Scopus 402 resultados
SpringerLink 14 resultados
ACM Digital Library 74 resultados
IEEE Xplore 137 resultados
Compendex (Engineering Village) 341 resultados

Debian mindmap

Referências

  • [1] ALLEN, A. et al. Engineering academic software (dagstuhl perspectives workshop 16252). In: Dagstuhl Manifestos. [S.l.]: Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, 2017. v. 6, n. 1.
  • [2] PENZENSTADLER, B.; FEMMER, H. A Generic Model for Sustainability with Process- and Product-specific Instances. In: Proceedings of the 2013 Workshop on Green in/by Software Engineering. New York, NY, USA: ACM, 2013. (GIBSE ’13), p. 3–8. ISBN 978-1-4503-1866-2. Disponível em: http://doi.acm.org/10.1145/2451605.2451609.
  • [3] VENTERS, C. C. et al. Software sustainability: The modern tower of babel. In: CEUR Workshop Proceedings. [S.l.: s.n.], 2014. v. 1216, p. 7–12.
  • [4] BULLEY, J.; SAHIN, O. Practice Research - Report 1: What is practice research? and Report 2: How can practice research be shared? [S.l.], 2021. Disponível em: https://bl.iro.bl.uk/concern/reports/b51c0f52-9801-49d9-9f00-cca89741091b.
  • [5] Basili, Victor R., Gianluigi Caldiera, e H. Dieter Rombach. 1994. “The Goal Question Metric Approach”. In Encyclopedia of Software Engineering. Wiley.

Metodologia

  • Goal-Question-Metric (GQM)
    Basili, Caldiera, e Rombach 1994
  • Multivocal Literature Review (MLR)
    Garousi, Felderer, e Mäntylä 2019
  • Software Engineering Guidelines for REporting Secondary Studies (SEGRESS)
    Kitchenham, Madeyski, e Budgen 2023

Goal-Question-Metric (GQM)
Basili, Caldiera, e Rombach 1994

  • Objetivo (Goal): Nível conceitual
    • Propósito (Purpose) da medição
    • Assunto (Issue) a ser medido
    • Objeto (Object) a ser medido
    • Perspectiva (Viewpoint) de onde a medição é feita
  • Questão (Question): Nível operacional
  • Métrica (Metric): Nível quantitativo

Objetivo (Goal): Nível conceitual

  • Propósito: Caracterizar e quantificar o uso do Debian em projetos de pesquisa.
  • Assunto: Visibilidade do Debian em projetos de pesquisa.
  • Objeto: Documentos publicados na literatura acadêmica e na literatura cinza.
  • Perspectiva: Pesquisador interessado em ecossistemas de software para pesquisa.

Sumário da definição do Objetivo

Caracterizar e quantificar o uso do Debian em projetos de pesquisa, com foco em medir a visibilidade do Debian na literatura acadêmica e na literatura cinza, sob a perspectiva do pesquisador interessado em ecossistemas de software para pesquisa.

Questão (Question): Nível operacional

  • RQ 1. : Mapear os tipos de publicações que mencionam o Debian.
  • RQ 2. : Mapear os projetos de pesquisa que usam o Debian.
  • RQ 3. : Caracterizar os projetos de pesquisa usando o Debian.

Questão - RQ 1.

Mapeando os tipos de publicações que mencionam o Debian:

  • RQ 1.1. : Quantos estudos usando o Debian em pesquisas foram encontrados na literatura cinza?
  • RQ 1.2. : Quantos estudos usando o Debian em pesquisas foram encontrados na literatura acadêmica?
  • RQ 1.3. : Quantos estudos por tipo de publicação foram encontrados na literatura selecionada? (Exemplo: periódico, conferência, tese, wiki, site)?

Questão - RQ 2.

Mapeando os projetos de pesquisa que usam o Debian:

  • RQ 2.1. : Quais são os projetos de pesquisa encontrados?
  • RQ 2.2. : Quantos e quais são os estudos que apresentam o Debian como: (1) objeto de estudo, (2) apoio metodológico, (3) infraestrutura de software para pesquisa, ou (4) contribuição científica ou técnica?
  • RQ 2.3. : Quais das dimensoes da classificação de research software foram encontradas?

Questão - RQ 3.

Quais são as características dos projetos de pesquisa usando o Debian?

  • RQ 3.1. : Quais são os campos de estudo usando Debian? (Exemplo: Química, Biologia, Medicina, etc)?
  • RQ 3.2. : Quais são os atributos dos projetos em termos de autores, afiliações, métricas de impacto?
  • RQ 3.3. : Quais são as disciplinas científicas mais presentes em número de publicações encontradas nos documentos selecionados?

Métrica (Metric): Nível quantitativo

Para responder às questões de pesquisa RQ 1., as seguintes métricas foram usadas:

  • M1. : Número de publicações na literatura cinza com menção ao Debian.
  • M2. : Número de publicações na literatura acadêmica com menção ao Debian.

Métrica (Metric): Nível quantitativo

Para responder às questões de pesquisa RQ 2., as seguintes métricas foram usadas:

  • M3. : Número de publicações que apresentam o Debian como objeto de estudo.
  • M4. : Número de publicações que apresentam o Debian como apoio metodológico.
  • M5. : Número de publicações que apresentam o Debian como infraestrutura de software para pesquisa.
  • M6. : Número de publicações que apresentam o Debian como contribuição científica ou técnica.

Métrica (Metric): Nível quantitativo

Para responder às questões de pesquisa RQ 3., as seguintes métricas foram usadas:

  • M7. : Número de publicações por campo de estudo com menção ao Debian.
  • M8. : Número e lista de autores e afiliações de publicações com menção ao Debian.

Multivocal Literature Review (MLR) [6]

Fases para condução da revisão de literatura:

  1. Processo de busca
    • Onde buscar
    • Quando parar a busca
  2. Seleção de fontes
    • Critérios de inclusão e exclusão para seleção de fontes
    • Processo de seleção de fontes
  3. Avaliação de qualidade das fontes
  4. Extração de dados
    • Elaboração de formulários de extração de dados
    • Logística e procedimento de extração de dados
    • Possibilidade de extração e síntese automatizadas de dados
  5. Síntese de dados

[6] Garousi, Vahid, Michael Felderer, e Mika V. Mäntylä. 2019. “Guidelines for including grey literature and conducting multivocal literature reviews in software engineering”. Information and Software Technology 106: 101–21. https://doi.org/10.1016/j.infsof.2018.09.006.

Fontes de busca

Formally-published Literature:

Fontes de busca

Gray Literature (GL):

Strings de busca

Formally-published Literature:

  • Debian

(busca feita em titulos, abstract e palavras-chave)

Gray Literature (GL):

  • DebianANDscience
  • DebianANDscientific software
  • DebianANDresearch software

Criterios de inclusão e exclusão - MLR

Critérios de inclusão e exclusão para garantir inclusão de todas as fontes relevantes e para excluir fontes fora do escopo do estudo.

Criterios de inclusão

Foi incluido:

  • (i) Literatura que explicitamente discute sobre o uso do Debian para fazer ciência, em qualquer campo do conhecimento;
  • (ii) Artigos de conferência, periódicos e páginas web, wiki sobre o uso do Debian em pesquisas acadêmicas;
  • (iii) Literatura publicada até 2025;
  • (iv) Primeiras 5 páginas da busca web em literatura cinza (Google Search, DuckDuckGo Search, etc).

Criterios de exclusão

Foi excluído:

  • (i) Literatura inacessível;
  • (ii) Resultados da busca web da literatura cinza (Google Search, DuckDuckGo Search, etc) considerados similar a outros resultados;
  • (iii) Google ads e outros anúncios;
  • (iv) Artigos e páginas em outros idiomas além do inglês.

Processo de seleção de fontes - MLR

  • Coleta realizada manualmente
  • Critérios de inclusão e exclusão aplicados igualmente na literatura acadêmicas e na literatura cinza
  • Dados armazenados em formato CSV, BibTeX, RIS, download manual, uso do Git para gerenciar os arquivos

Critérios de avaliação de qualidade
Gray Literature

Checklist para avaliacao de qualidade para estudos da literatura cinza:

  • O autor tem outros trabalhos publicados no campo de estudo?
  • O autor tem experência na área? (exemplo: papel de engenheiro de software senior)
  • O trabalho cobre uma questão específica em relação as questões de pesquisa?
  • O trabalho refere-se a uma população ou caso particular, incluido nos objetivos deste estudo?
  • As afirmações das fontes são objetivas? Ou são opiniões subjetivas?
  • O documento tem uma data explicita declarada?

Cada questão assume valor 0 ou 1, cada documento recebe pontuação máxima de 6 pontos, o ponto de corte mínimo é 3, documentos com pontuação inferior são excluídos.

Condução da busca da MLR

Base de dados e busca Número de resultados
ScienceDirect 109 resultados
Web of Science 275 results
Scopus 473 results
SpringerLink 16 resultados
ACM Digital Library 75 resultados
IEEE Xplore 145 resultados
Compendex (Engineering Village) 397 resultados
Google Scholar 1070 resultados (excluído)
OpenAlex 682 resultados (excluído)
PubMed 30 results
Total 1389 resultados

Coleta realizada em 23 de Maio de 2025.

Ferramenta ETL: rslab-workflow

Extração de dados - MLR

Elaboração de formulário para extração dos dados

A tabela abaixo descreve cada coluna da planilha utilizada para coleta e análise dos resultados.

Campo / coluna Descrição do campo
Código Código para identificação única de cada documento encontrado
Título Título do documento
Ano Ano de publicação
Fonte / Origem Origem onde o documento foi encontrado (ACM DL, Google Web, etc)
String de busca String usada para encontrar o documento
URL URL do documento
Tipo Tipo do documento (Blog, site, periodico, conferencia, etc)
Filtro Resultado dos critérios de filtro (Sim ou Nao)
Inclusao Resultado dos critérios de inclusão (Sim ou Nao)
Exclusao Resultado dos critérios de exclusão (Sim ou Nao)
Selecao Resultado final se documento foi selecionado (Sim ou Nao)
Análise Anotações sobre revisão e análise do documento
Bibliometrix

https://www.bibliometrix.org

Top 10 mais citados

# Título Ano Citações Tipo
01 Meep: A flexible free-software package for electromagnetic simulations by the FDTD method 2010 2437 Article
02 SNP-sites: rapid efficient extraction of SNPs from multi-FASTA alignments 2016 893 Article
03 Seamless R and C++ integration with Rcpp 2013 281 Book
04 Herding cats: Modelling, simulation, testing, and data mining for weak memory 2014 227 Article
05 Toward Large-Scale Vulnerability Discovery using Machine Learning 2016 216 Conference paper
06 ReDeBug: Finding unpatched code clones in entire OS distributions 2012 208 Conference paper
07 THERMINATOR: THERMal heavy-IoN generATOR 2006 190 Article
08 Flip feng Shui: Hammering a needle in the software stack 2016 189 Conference paper
09 A new monotonic, clone-independent, reversal symmetric, and condorcet-consistent single-winner election method 2011 174 Article
10 FreeContact: Fast and free software for protein contact prediction from residue co-evolution 2014 134 Article

Pesquisadores mais ativos:

Medido por número de artigos publicados

# Autor Artigos Artigo mais antigo
1 Zacchiroli 13 The Ultimate Debian Database: Consolidating bazaar metadata for Quality Assurance and data mining (2010)
2 German 10 A Model to Understand the Building and Running Inter-Dependencies of Software (2007)
3 Di Cosmo 9 Predicting upgrade failures using dependency analysis (2011)
4 Robles G. 9 Evolution of volunteer participation in libre software projects: Evidence from debian (2005)

“Entre os pesquisadores mais ativos, encontramos publicações sobre o Debian ou colaborando com o Debian.”

SEGRESS:

Software Engineering Guidelines for REporting Secondary Studies

SEGRESS é uma extensao do padrão PRISMA 2020 adaptado para estudos em engenharia de software, uma vez que o PRISMA 2020 foi inicialmente proposto para o contexto médico e área de saúde.

Kitchenham, Barbara, Lech Madeyski, e David Budgen. 2023. “SEGRESS: Software Engineering Guidelines for REporting Secondary Studies”. IEEE Transactions on Software Engineering 49 (3): 1273–98. https://doi.org/10.1109/TSE.2022.3174092.

Condução da busca da MLR

Base de dados e busca Número de resultados
ScienceDirect 109 resultados
Web of Science 275 results
Scopus 473 results
SpringerLink 16 resultados
ACM Digital Library 75 resultados
IEEE Xplore 145 resultados
Compendex (Engineering Village) 397 resultados
PubMed 30 results
Total 1389 resultados

Coleta realizada em 23 de Maio de 2025.

18 artigos já lidos…

Counting Potatoes: the Size of Debian 2.2, 2001

Calculam o número de linhas físicas de código SLOC do Debian 2.2, mostram que o modelo de desenvolvimento do Debian baseado em trabalho voluntario de um grande grupo de desenvolvedores ao redor do mundo é ao menos tão capaz do que outros metodos de desenvolvimento como em empresas e metodos mais centralizados.

Three Ethical Moments in Debian, 2005

Analisa aspectos éticos do Debian em momentos vividos pelo projeto mostrando como na prática tais questoes eticas sao resolvidas dentro da comunidade, demonstra como a comunidade evolui de forma sustentavel mantendo-se aderentes aos principios do software livre.

Mining large software compilations over time: another perspective of software evolution, 2006

Calculam o tamanho em linhas de codigo e mostram que o Debian dobra seu tamanho a cada 2 anos, observações sobre o tamanho dos pacotes, pacotes grandes crescem com o tempo, uma grande maioria de pacotes sao muito pequenos (menos que 1 mil linhas de codigo), pequenos (menos que 10 mil linhas de codigo), e medio (entre 10 mil e 50 mil linhas).

Managing the Complexity of Large Free and Open Source Package-Based Software Distributions, 2006

Formaliza matematicamente pacotes, repositorio de pacotes e seus relacionamentos de dependencias, incluindo versoes. O trabalho feito é relacionado ao que tem sido chamado de Software Release Management, o processo pelo qual software é disponibilizado aos usuarios finais.

Package upgrades in FOSS distributions: Details and challenges, 2008

Define package upgrade e investiga o problema de falhas de atualizacao (upgrade), propõe uma linguagem DSL para upgrade e rollback de pacotes, usam Debian para experimentar o desenvolvimento da DSL.

Analysis of the package dependency on Debian GNU/Linux, 2009

Reconstrui o grafo de dependencias entre pacotes, compila uma rede de pacotes e suas dependencias para entender a estabilidade do sistema a partir das inter-relacoes entre os pacotes.

Strong dependencies between software components, 2009

Analisa todas versoes estaveis Debian entre 1994 ate 2009, conclui introduzindo a nocao de strong dependencies entre componentes de software.

Measuring Lenny: the size of Debian 5.0, 2009

Analisa o tamanho do Debian versao 5 (Lenny), em linhas de código SLOC, apresenta estatisticas por linguagem, maiores pacotes, comparam total de linhas com outros sistemas como Windows, e outros.

Macro-level software evolution: a case study of a large software compilation, 2009

Estuda evolucao de software de ponto macro, analisando o ecossistema Debian como um conjunto de produtos de software distintos. Uma das principais achados do estudo é que o tamanho em numero de pacotes e em linhas de codigo do Debian dobra a cada 2 anos. C eh a linguagem predominante.

Rebuilding debian using distributed computing, 2009

Descreve o desafio de rebuildar 12 mil pacotes Debian, apresentam a solucao construida para tal, o Grid’5000, uma infraestrutura experimental.

The Ultimate Debian Database: Consolidating bazaar metadata for Quality Assurance and data mining, 2010

Artigo descreve a construcao do UDD e as licoes aprendidas, o Debian possui dados espalhados em multiplos locais devido ao fato de nao adotar uma infraestrutura de desenvolvimento centralizada.

Perspectives on Bugs in the Debian Bug Tracking System, 2010

Coletam dados de bugs do Debian BTS, conclui que ha correlacao entre bugs e numero de uploads no sistema como um todo, Debian Bug Tracking system oferece um interessante topico de pesquisa.

Community-driven computational biology with Debian Linux, 2010

Apresentam Taverna workflow workbench, ferramenta de workflow distribuida, e myExperiment site para compartilhar workflows do Taverna. Descreve Debian Blend, um sabor temático da distribuicao, permite agrupar pessoas em torno de colaborar com o Debian em temas de interesse comum.

Open is Not Enough. Let’s Take the Next Step: An Integrated, Community-Driven Computing Platform for Neuroscience, 2012

Os autores propoem uma plataforma aberta e gerenciada pela comunidade capaz de prover facilidade de instalacao e manutencao para qualquer software para pesquisa. A estratégia do NeuroDebian é trabalhar com cientistas e desenvolvedores, ajudando-os diretamente em integrar os seus softwares com o sistema operacional Debian.

Evolution and Architecture of Open Source Software Collections: A Case Study of Debian, 2012

A tese investiga a evolucao e arquitetura de open source software collections, e usa Debian como estudo de caso para descrever como o sistema tem evoluido ao longo do tempo.

Debsources: live and historical views on macro-level software evolution, 2014

Descreve arquitetura do Debsources, contendo mirror do repositorio Debian, banco postgresql e codigo fonte dos pacotes descompactados, banco de dados guarda metricas extraidas do codigo fonte, como sloccount, ctags, checksums etc,

Adoption of Academic Tools in Open Source Communities: The Debian Case Study, 2017

Mostra um caso de sucesso em desenvolver Research Software e transferir a tecnologia para a comunidade no mundo real, neste caso foi criado ferramentas a partir do campo de pesquisa sobre instalabilidade e resolucao de dependencias.

Engineering Formality and Software Risk in Debian Python Packages, 2024

Autores avaliam a relacao entre underproduction e formality focando em estrutura formal, responsabilidade do desenvolvedor, e gestao de processo de trabalho.

Obrigado!

joenio@joenio.me


Esta apresentação está disponível em:

http://joenio.me/pgcomp-fundamentos-workshop-revisao-literatura

(código-fonte: https://gitlab.com/joenio/joenio.gitlab.io)

Licença Creative Commons

Histórico de apresentações

Onde e quando esta apresentação foi realizada

  • 23 de Abril de 2026, Salvador-Bahia, IC-UFBA