Fundamentos de Pesquisa em Ciência da Computação II
Seminários: leitura crítica de artigos científicos

Por: Alan Soares e Joenio Marques da Costa
Prof.: Cassio Vinicius Serafim Prazeres
A escolha do artigo:
| Título |
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [1] |
| Ano de publicação |
2021 |
| CAPES Qualis |
A1 |
| Publicado em |
International Conference on Computer Vision (ICCV) |
| Autores |
Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo |
| Instituição |
Microsoft Research Asia |
| Alguns números |
25582 citações; 17 citações em patentes; 30 referências |
[1] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”, em 2021 IEEE/CVF International Conference on Computer Vision (ICCV), out. 2021, p. 9992–10002. doi: 10.1109/ICCV48922.2021.00986.
👍 Abstract
- Tema bem definido: Swin Transformer
- Proposta de arquitetura para redes neurais artificiais
- Modelo de propósito geral para visão computacional
- Disponibilizam código-fonte no Github
👎 Abstract
- Risco de decaimento da URL Github
- Seria esperado arquivamento no Software Heritage ou Zenodo, incluindo
identificador persistente
Swin Transformer = Shifted windows

👍 Introdução
- Sucesso do Transformer com linguagem ⇒ Visão computacional
- Problema de escala ⇒ Complexidade computacional
- Swin Transformer atingiu bons resultados com complexidade linear
- Descreve arquiteturas de redes neurais convolucionais (CNN)
- Contraponto com arquiteturas de processamento de linguagem natural (NLP)
👎 Introdução
- Falta detalhes de implementação, quais linguagens, frameworks ou bibliotecas
foram utilizadas
- O código-fonte é um artefato e uma contribuição científica e poderia ter algum
espaço no texto
👍 Trabalhos relacionados
- Apresenta uma boa compreensão do campo, modelos e arquiteturas, como VGG e
GoogleNet
- Traz o ViT como um dos modelos similares ao modelo implementado
- O ViT foi pioneiro no uso de fragmentos de imagens não sobrepostas para
classificação de imagens
- Isto proporcionou melhorias de velocidade em comparação com
redes convolucionais
👍 Método
- Compara-se a implementação Swin Transformer com o modelo ViT
- Boas descrição dos estágios de transformação dos dados
- Formalização matemática e comparação de modelos
- Mostram a diferença entre o crescimento quadrático de alguns modelos, com o
crescimento linear do modelo Swin Transformer
👍 Método
- Constroem variações Swin-B, Swin-T, Swin-L, Swin-S
- Comparam com outros modelos, como ViT-B/DeiT-B
- Apresentam dados em tabela, incluindo tamanho, complexidade computacional e
vazão
👍 Experimentos
- Conduzem experimentos com os datasets ImageNet-1K, ImageNet-22K, ADE20K e
COCO object detection
- Comparam o Swin Transformer com o estado da arte, eficiência em termos de
tradeoff acurácia-velocidade
- Fazem benchmarks para classificação de imagens, detecção de objetos, e
segmentação semântica
- Descrevem detalhadamente os experimentos em apêndice com informações
adicionais
👍👍👍
- Apresenta adequadamente os conceitos teóricos
- Compara o modelo Swin Transformer com outros modelos
- Benchmarks ⇒ Reportam resultados
- Código-fonte disponível no Github
👎👎👎
- Faltam detalhes sobre linguagens ou bibliotecas usadas na implementação
- Identificador e arquivo permanente como alternativa adicional a URL do Github
Histórico de apresentações
Onde e quando esta apresentação foi realizada
- 19 de Março de 2026, Salvador-Bahia, IC-UFBA