딥러닝3 [컴퓨터 비전] iBOT - ViT에서 [MASK] 사용하는 방법 "iBOT: Image BERT Pre-Training with Online Tokenizer"ICLR 2022, 27 Jan 2022 1. Vision Transformer도 BERT처럼 Mask로 학습할 수 있을까?NLP에서는 BERT와 같은 Transformer 모델이 MLM (Masked Language Modeling)를 통해 엄청난 성과를 냈습니다. 즉 모델에게 가려진 부분(mask)이 무엇인지 맞추는 방식으로 학습하여 성능을 높혔습니다. ViT (Vision Transformer)가 이미지 분야에서 떠오르면서 BERT와 비슷하게 Mask를 이용한 학습 방법에 아이디어를 차용했습니다. “이미지의 일부 조각을 가리고 맞추는 식으로 학습하면 더 잘하지 않을까?”이런 시도가 MIM (Masked I.. 2025. 6. 25. [컴퓨터 비전] DINO v1 "Emerging Properties in Self-Supervised Vision Transformers"ICCV 2021, 29 Apr 2021 1. Self Supervised Learning을 통한 ViT 학습 최근 NLP 분야에서 "Transformer" 모델을 통해서 휼롱한 성능을 보여주고, AI가 크게 주목받게 되어 있습니다. 이처럼 이미지 분야에서도 Vision Transformer(ViT)가 등장하면서 CNN(합성곱 신경망)의 대안을 제시하고 있었습니다. 하지만 이 논문이 나오기 전까지는 ViT를 Supervised Learning통해 학습을 진행했지만, 기존 CNN에 대비해서 놀라만한 성능을 보여주지 못했습니다. 저자는 Supervised Learning이 특정 카테고리만 분류하는 학습.. 2025. 6. 18. [컴퓨터 비전] Vision Transformers "An Image is Worth 16 x 16 words : Transformers for Image recognition At scale" 1. Vision Transformer 란? ViT는 Google Research 팀이 제안한 모델로, 기존 자연어 처리(NLP) 분야에서 성공한 Transformer 구조를 이미지 인식에 그대로 적용하는 방식입니다. 이 논문의 핵심 아이디어 중 하나는 "이미지를 여러 개의 작은 패치(Patch)로 나누고 이를 토큰처럼 처리하여 Transformer로 학습하는 것"입니다. 이미지 패치를 토큰 처리하여 기존의 Transformer를 최소한으로 수정으로 이미지 분야에 적용시켰습니다. ViT를 이용해서 기존 CNN 기반 네트워크가 아니라 컴퓨터 비전 분야에서 Tra.. 2025. 3. 21. 이전 1 다음