Fundamentos de Pesquisa em Ciência da Computação II

Seminários: leitura crítica de artigos científicos

Por: Alan Soares e Joenio Marques da Costa
Prof.: Cassio Vinicius Serafim Prazeres

Convite

Treinamento teórico & prático sobre Análise Qualitativa com a ferramenta Cortext Manager no IC-UFBA dias 27, 28 e 29 de Abril 2026

Inscrição:

https://grist.numerique.gouv.fr/o/docs/forms/prdoSSDvnoceRrdCiqk9nA/4

A escolha do artigo:

Título Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [1]
Ano de publicação 2021
CAPES Qualis A1
Publicado em International Conference on Computer Vision (ICCV)
Autores Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo
Instituição Microsoft Research Asia
Alguns números 25582 citações; 17 citações em patentes; 30 referências

[1] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”, em 2021 IEEE/CVF International Conference on Computer Vision (ICCV), out. 2021, p. 9992–10002. doi: 10.1109/ICCV48922.2021.00986.

👍 Abstract

  • Tema bem definido: Swin Transformer
  • Proposta de arquitetura para redes neurais artificiais
  • Modelo de propósito geral para visão computacional
  • Disponibilizam código-fonte no Github

👎 Abstract

  • Risco de decaimento da URL Github
  • Seria esperado arquivamento no Software Heritage ou Zenodo, incluindo identificador persistente

Swin Transformer = Shifted windows

👍 Introdução

  • Sucesso do Transformer com linguagem ⇒ Visão computacional
  • Problema de escala ⇒ Complexidade computacional
  • Swin Transformer atingiu bons resultados com complexidade linear
  • Descreve arquiteturas de redes neurais convolucionais (CNN)
  • Contraponto com arquiteturas de processamento de linguagem natural (NLP)

👎 Introdução

  • Falta detalhes de implementação, quais linguagens, frameworks ou bibliotecas foram utilizadas
  • O código-fonte é um artefato e uma contribuição científica e poderia ter algum espaço no texto

👍 Trabalhos relacionados

  • Apresenta uma boa compreensão do campo, modelos e arquiteturas, como VGG e GoogleNet
  • Traz o ViT como um dos modelos similares ao modelo implementado
  • O ViT foi pioneiro no uso de fragmentos de imagens não sobrepostas para classificação de imagens
    • Isto proporcionou melhorias de velocidade em comparação com redes convolucionais

👍 Método

  • Compara-se a implementação Swin Transformer com o modelo ViT
  • Boas descrição dos estágios de transformação dos dados
  • Formalização matemática e comparação de modelos
  • Mostram a diferença entre o crescimento quadrático de alguns modelos, com o crescimento linear do modelo Swin Transformer

👍 Método

  • Constroem variações Swin-B, Swin-T, Swin-L, Swin-S
  • Comparam com outros modelos, como ViT-B/DeiT-B
  • Apresentam dados em tabela, incluindo tamanho, complexidade computacional e vazão

👍 Experimentos

  • Conduzem experimentos com os datasets ImageNet-1K, ImageNet-22K, ADE20K e COCO object detection
  • Comparam o Swin Transformer com o estado da arte, eficiência em termos de tradeoff acurácia-velocidade
  • Fazem benchmarks para classificação de imagens, detecção de objetos, e segmentação semântica
  • Descrevem detalhadamente os experimentos em apêndice com informações adicionais

👍👍👍

  • Apresenta adequadamente os conceitos teóricos
  • Compara o modelo Swin Transformer com outros modelos
  • Benchmarks ⇒ Reportam resultados
  • Código-fonte disponível no Github

👎👎👎

  • Faltam detalhes sobre linguagens ou bibliotecas usadas na implementação
  • Identificador e arquivo permanente como alternativa adicional a URL do Github

Obrigado!

joenio@joenio.me


Esta apresentação está disponível em:

http://joenio.me/pgcomp-fundamentos-seminario-artigo

(código-fonte: https://gitlab.com/joenio/joenio.gitlab.io)

Licença Creative Commons

Histórico de apresentações

Onde e quando esta apresentação foi realizada

  • 19 de Março de 2026, Salvador-Bahia, IC-UFBA