
Por: Joenio Marques da Costa
Prof.: Cassio Vinicius Serafim Prazeres
Orientação: Christina von Flach
Início: 2024.1 / Fim previsto: 2027.2

Debian GNU/Linux é um sistema operacional composto inteiramente por software livre.
Software para pesquisa (do ingês, research software) é definido como software usado para coletar, processar, visualizar ou analisar resultados de pesquisas científicas, incluindo desde protótipos escritos pelos próprios pesquisadores até produtos completos desenvolvidos profissionalmente [1].
[1] ALLEN, A. et al. Engineering academic software (dagstuhl perspectives workshop 16252). In: Dagstuhl Manifestos. [S.l.]: Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, 2017. v. 6, n. 1.
Costuma-se definir sustentabilidade de software a partir da sua dimensão técnica [2], como a capacidade do software de perdurar e de continuar sendo suportado ao longo do tempo [3],
[2] PENZENSTADLER, B.; FEMMER, H. A Generic Model for Sustainability with Process- and Product-specific Instances. In: Proceedings of the 2013 Workshop on Green in/by Software Engineering. New York, NY, USA: ACM, 2013. (GIBSE ’13), p. 3–8. ISBN 978-1-4503-1866-2. Disponível em: http://doi.acm.org/10.1145/2451605.2451609.
[3] VENTERS, C. C. et al. Software sustainability: The modern tower of babel. In: CEUR Workshop Proceedings. [S.l.: s.n.], 2014. v. 1216, p. 7–12.
O termo guarda-chuva “practice research” foi adotado como aglutinador de praticas de pesquisa relacionadas a practice-led, practice-based, practice as research (PaR), arts research, artistic research, action research, entre outros [4].
[4] BULLEY, J.; SAHIN, O. Practice Research - Report 1: What is practice research? and Report 2: How can practice research be shared? [S.l.], 2021. Disponível em: https://bl.iro.bl.uk/concern/reports/b51c0f52-9801-49d9-9f00-cca89741091b.
O escopo do estudo inclui o sistema Debian mencionado em publicações acadêmicas ou na literatura cinza sobre o uso do Debian em projetos de pesquisa acadêmico.
O objetivo da pesquisa é definido segundo a estrutura Goal-Question-Metric (GQM) [5].
[5] Basili, Victor R., Gianluigi Caldiera, e H. Dieter Rombach. 1994. “The Goal Question Metric Approach”. In Encyclopedia of Software Engineering. Wiley.
O objeto de estudo são projetos de pesquisa acadêmicos usando Debian como objeto de estudo ou como infraestrutura, ou que contribuam com o Debian, publicados em documentos incluindo literatura acadêmica e não-acadêmica.
GQM: Goal = Propósito; Assunto; Objeto; Perspectiva.
Busca realizada em 23 de maio de 2025 pelo termo “debian” no título, abstract e keywords apenas.
| Base de dados e busca | Número de resultados |
|---|---|
| ScienceDirect | 94 resultados |
| Web of Science | 186 resultados |
| Scopus | 402 resultados |
| SpringerLink | 14 resultados |
| ACM Digital Library | 74 resultados |
| IEEE Xplore | 137 resultados |
| Compendex (Engineering Village) | 341 resultados |

Caracterizar e quantificar o uso do Debian em projetos de pesquisa, com foco em medir a visibilidade do Debian na literatura acadêmica e na literatura cinza, sob a perspectiva do pesquisador interessado em ecossistemas de software para pesquisa.
Mapeando os tipos de publicações que mencionam o Debian:
Mapeando os projetos de pesquisa que usam o Debian:
Quais são as características dos projetos de pesquisa usando o Debian?
Para responder às questões de pesquisa RQ 1., as seguintes métricas foram usadas:
Para responder às questões de pesquisa RQ 2., as seguintes métricas foram usadas:
Para responder às questões de pesquisa RQ 3., as seguintes métricas foram usadas:
Fases para condução da revisão de literatura:
[6] Garousi, Vahid, Michael Felderer, e Mika V. Mäntylä. 2019. “Guidelines for including grey literature and conducting multivocal literature reviews in software engineering”. Information and Software Technology 106: 101–21. https://doi.org/10.1016/j.infsof.2018.09.006.
Formally-published Literature:
Gray Literature (GL):
Formally-published Literature:
(busca feita em titulos, abstract e palavras-chave)
Gray Literature (GL):
AND “science”AND “scientific software”AND “research software”Critérios de inclusão e exclusão para garantir inclusão de todas as fontes relevantes e para excluir fontes fora do escopo do estudo.
Foi incluido:
Foi excluído:
Checklist para avaliacao de qualidade para estudos da literatura cinza:
Cada questão assume valor 0 ou 1, cada documento recebe pontuação máxima de 6 pontos, o ponto de corte mínimo é 3, documentos com pontuação inferior são excluídos.
| Base de dados e busca | Número de resultados |
|---|---|
| ScienceDirect | 109 resultados |
| Web of Science | 275 results |
| Scopus | 473 results |
| SpringerLink | 16 resultados |
| ACM Digital Library | 75 resultados |
| IEEE Xplore | 145 resultados |
| Compendex (Engineering Village) | 397 resultados |
| Google Scholar | |
| OpenAlex | |
| PubMed | 30 results |
| Total | 1389 resultados |
Coleta realizada em 23 de Maio de 2025.

A tabela abaixo descreve cada coluna da planilha utilizada para coleta e análise dos resultados.
| Campo / coluna | Descrição do campo |
|---|---|
| Código | Código para identificação única de cada documento encontrado |
| Título | Título do documento |
| Ano | Ano de publicação |
| Fonte / Origem | Origem onde o documento foi encontrado (ACM DL, Google Web, etc) |
| String de busca | String usada para encontrar o documento |
| URL | URL do documento |
| Tipo | Tipo do documento (Blog, site, periodico, conferencia, etc) |
| Filtro | Resultado dos critérios de filtro (Sim ou Nao) |
| Inclusao | Resultado dos critérios de inclusão (Sim ou Nao) |
| Exclusao | Resultado dos critérios de exclusão (Sim ou Nao) |
| Selecao | Resultado final se documento foi selecionado (Sim ou Nao) |
| Análise | Anotações sobre revisão e análise do documento |
| # | Título | Ano | Citações | Tipo |
|---|---|---|---|---|
| 01 | Meep: A flexible free-software package for electromagnetic simulations by the FDTD method | 2010 | 2437 | Article |
| 02 | SNP-sites: rapid efficient extraction of SNPs from multi-FASTA alignments | 2016 | 893 | Article |
| 03 | Seamless R and C++ integration with Rcpp | 2013 | 281 | Book |
| 04 | Herding cats: Modelling, simulation, testing, and data mining for weak memory | 2014 | 227 | Article |
| 05 | Toward Large-Scale Vulnerability Discovery using Machine Learning | 2016 | 216 | Conference paper |
| 06 | ReDeBug: Finding unpatched code clones in entire OS distributions | 2012 | 208 | Conference paper |
| 07 | THERMINATOR: THERMal heavy-IoN generATOR | 2006 | 190 | Article |
| 08 | Flip feng Shui: Hammering a needle in the software stack | 2016 | 189 | Conference paper |
| 09 | A new monotonic, clone-independent, reversal symmetric, and condorcet-consistent single-winner election method | 2011 | 174 | Article |
| 10 | FreeContact: Fast and free software for protein contact prediction from residue co-evolution | 2014 | 134 | Article |
| # | Autor | Artigos | Artigo mais antigo |
|---|---|---|---|
| 1 | Zacchiroli | 13 | The Ultimate Debian Database: Consolidating bazaar metadata for Quality Assurance and data mining (2010) |
| 2 | German | 10 | A Model to Understand the Building and Running Inter-Dependencies of Software (2007) |
| 3 | Di Cosmo | 9 | Predicting upgrade failures using dependency analysis (2011) |
| 4 | Robles G. | 9 | Evolution of volunteer participation in libre software projects: Evidence from debian (2005) |
“Entre os pesquisadores mais ativos, encontramos publicações sobre o Debian ou colaborando com o Debian.”
SEGRESS é uma extensao do padrão PRISMA 2020 adaptado para estudos em engenharia de software, uma vez que o PRISMA 2020 foi inicialmente proposto para o contexto médico e área de saúde.
Kitchenham, Barbara, Lech Madeyski, e David Budgen. 2023. “SEGRESS: Software Engineering Guidelines for REporting Secondary Studies”. IEEE Transactions on Software Engineering 49 (3): 1273–98. https://doi.org/10.1109/TSE.2022.3174092.
| Base de dados e busca | Número de resultados |
|---|---|
| ScienceDirect | 109 resultados |
| Web of Science | 275 results |
| Scopus | 473 results |
| SpringerLink | 16 resultados |
| ACM Digital Library | 75 resultados |
| IEEE Xplore | 145 resultados |
| Compendex (Engineering Village) | 397 resultados |
| PubMed | 30 results |
| Total | 1389 resultados |
Coleta realizada em 23 de Maio de 2025.
Calculam o número de linhas físicas de código SLOC do Debian 2.2, mostram que o modelo de desenvolvimento do Debian baseado em trabalho voluntario de um grande grupo de desenvolvedores ao redor do mundo é ao menos tão capaz do que outros metodos de desenvolvimento como em empresas e metodos mais centralizados.
Analisa aspectos éticos do Debian em momentos vividos pelo projeto mostrando como na prática tais questoes eticas sao resolvidas dentro da comunidade, demonstra como a comunidade evolui de forma sustentavel mantendo-se aderentes aos principios do software livre.
Calculam o tamanho em linhas de codigo e mostram que o Debian dobra seu tamanho a cada 2 anos, observações sobre o tamanho dos pacotes, pacotes grandes crescem com o tempo, uma grande maioria de pacotes sao muito pequenos (menos que 1 mil linhas de codigo), pequenos (menos que 10 mil linhas de codigo), e medio (entre 10 mil e 50 mil linhas).
Formaliza matematicamente pacotes, repositorio de pacotes e seus relacionamentos de dependencias, incluindo versoes. O trabalho feito é relacionado ao que tem sido chamado de Software Release Management, o processo pelo qual software é disponibilizado aos usuarios finais.
Define package upgrade e investiga o problema de falhas de atualizacao (upgrade), propõe uma linguagem DSL para upgrade e rollback de pacotes, usam Debian para experimentar o desenvolvimento da DSL.
Reconstrui o grafo de dependencias entre pacotes, compila uma rede de pacotes e suas dependencias para entender a estabilidade do sistema a partir das inter-relacoes entre os pacotes.
Analisa todas versoes estaveis Debian entre 1994 ate 2009, conclui introduzindo a nocao de strong dependencies entre componentes de software.
Analisa o tamanho do Debian versao 5 (Lenny), em linhas de código SLOC, apresenta estatisticas por linguagem, maiores pacotes, comparam total de linhas com outros sistemas como Windows, e outros.
Estuda evolucao de software de ponto macro, analisando o ecossistema Debian como um conjunto de produtos de software distintos. Uma das principais achados do estudo é que o tamanho em numero de pacotes e em linhas de codigo do Debian dobra a cada 2 anos. C eh a linguagem predominante.
Descreve o desafio de rebuildar 12 mil pacotes Debian, apresentam a solucao construida para tal, o Grid’5000, uma infraestrutura experimental.
Artigo descreve a construcao do UDD e as licoes aprendidas, o Debian possui dados espalhados em multiplos locais devido ao fato de nao adotar uma infraestrutura de desenvolvimento centralizada.
Coletam dados de bugs do Debian BTS, conclui que ha correlacao entre bugs e numero de uploads no sistema como um todo, Debian Bug Tracking system oferece um interessante topico de pesquisa.
Apresentam Taverna workflow workbench, ferramenta de workflow distribuida, e myExperiment site para compartilhar workflows do Taverna. Descreve Debian Blend, um sabor temático da distribuicao, permite agrupar pessoas em torno de colaborar com o Debian em temas de interesse comum.
Os autores propoem uma plataforma aberta e gerenciada pela comunidade capaz de prover facilidade de instalacao e manutencao para qualquer software para pesquisa. A estratégia do NeuroDebian é trabalhar com cientistas e desenvolvedores, ajudando-os diretamente em integrar os seus softwares com o sistema operacional Debian.
A tese investiga a evolucao e arquitetura de open source software collections, e usa Debian como estudo de caso para descrever como o sistema tem evoluido ao longo do tempo.
Descreve arquitetura do Debsources, contendo mirror do repositorio Debian, banco postgresql e codigo fonte dos pacotes descompactados, banco de dados guarda metricas extraidas do codigo fonte, como sloccount, ctags, checksums etc,
Mostra um caso de sucesso em desenvolver Research Software e transferir a tecnologia para a comunidade no mundo real, neste caso foi criado ferramentas a partir do campo de pesquisa sobre instalabilidade e resolucao de dependencias.
Autores avaliam a relacao entre underproduction e formality focando em estrutura formal, responsabilidade do desenvolvedor, e gestao de processo de trabalho.
joenio@joenio.me
Esta apresentação está disponível em:
http://joenio.me/pgcomp-fundamentos-workshop-revisao-literatura
(código-fonte: https://gitlab.com/joenio/joenio.gitlab.io)
Onde e quando esta apresentação foi realizada