컴퓨터 비전7 [컴퓨터 비전] iBOT - ViT에서 [MASK] 사용하는 방법 "iBOT: Image BERT Pre-Training with Online Tokenizer"ICLR 2022, 27 Jan 2022 1. Vision Transformer도 BERT처럼 Mask로 학습할 수 있을까?NLP에서는 BERT와 같은 Transformer 모델이 MLM (Masked Language Modeling)를 통해 엄청난 성과를 냈습니다. 즉 모델에게 가려진 부분(mask)이 무엇인지 맞추는 방식으로 학습하여 성능을 높혔습니다. ViT (Vision Transformer)가 이미지 분야에서 떠오르면서 BERT와 비슷하게 Mask를 이용한 학습 방법에 아이디어를 차용했습니다. “이미지의 일부 조각을 가리고 맞추는 식으로 학습하면 더 잘하지 않을까?”이런 시도가 MIM (Masked I.. 2025. 6. 25. [컴퓨터 비전] DINO v1 "Emerging Properties in Self-Supervised Vision Transformers"ICCV 2021, 29 Apr 2021 1. Self Supervised Learning을 통한 ViT 학습 최근 NLP 분야에서 "Transformer" 모델을 통해서 휼롱한 성능을 보여주고, AI가 크게 주목받게 되어 있습니다. 이처럼 이미지 분야에서도 Vision Transformer(ViT)가 등장하면서 CNN(합성곱 신경망)의 대안을 제시하고 있었습니다. 하지만 이 논문이 나오기 전까지는 ViT를 Supervised Learning통해 학습을 진행했지만, 기존 CNN에 대비해서 놀라만한 성능을 보여주지 못했습니다. 저자는 Supervised Learning이 특정 카테고리만 분류하는 학습.. 2025. 6. 18. [컴퓨터 비전] Vision Transformers "An Image is Worth 16 x 16 words : Transformers for Image recognition At scale" 1. Vision Transformer 란? ViT는 Google Research 팀이 제안한 모델로, 기존 자연어 처리(NLP) 분야에서 성공한 Transformer 구조를 이미지 인식에 그대로 적용하는 방식입니다. 이 논문의 핵심 아이디어 중 하나는 "이미지를 여러 개의 작은 패치(Patch)로 나누고 이를 토큰처럼 처리하여 Transformer로 학습하는 것"입니다. 이미지 패치를 토큰 처리하여 기존의 Transformer를 최소한으로 수정으로 이미지 분야에 적용시켰습니다. ViT를 이용해서 기존 CNN 기반 네트워크가 아니라 컴퓨터 비전 분야에서 Tra.. 2025. 3. 21. [컴퓨터 비전] MAP 관점에서 이해하는 칼만 필터 - 수학적인 표현 (1) 1. 칼만 필터란?칼만 필터는 루돌프 칼만(Rudolf E. Kalman)이 개발한 필터라고 할 수 있다. 그럼 필터란 무엇일까? 필터란?필터는 노이즈가 섞인 측정 값에서 정확한 값을 찾기 위해서 사용되는 도구이다. 예를 들어서 실제 GPS나 IMU 센서의 경우, 센서 값을 측정할 때 기계적 진동이나 외부 환경(빛, 전파)의 간섭으로 노이즈가 무조건 발생하게 된다. 그렇기 때문에 해당 센서 값을 제대로 사용하기 위해서는 노이즈를 걷어내고 정확한 값을 추정해야 된다. 이를 위해서 칼만필터를 사용하는 것이다. 그러기에 이름 또한 필터라고 붙혀졌다. 이런 이유로 칼만 필터는 위치 추정 (GPS), 객체 추정 등 다양한 분야에서 사용된다. 특히나 내가 있는 3차원 비전 분야나 SLAM 분야에서는 IMU 센.. 2025. 3. 12. [컴퓨터 비전] Rodrigues' Rotatoin Formula 1. Rodrigues' Rotation Formula 란?계산이 어려운 Exponential Map 저번 글을 통해서 Lie Algebra의 적분을 Exponential Map을 이용해서 구할 수 있음을 알 수 있었다. 그럼 어떻게 Exponential Map을 수행해 3 x 3 Matrix 인 Lie Group으로 표현할 수 있을까? Expoential Map의 정의를 알아보자. 해당 연산은 멱급수의 형태로 구성되어 있다. 컴퓨터 비전에서는 이런 계산을 한정된 자원을 가지고 있는 컴퓨터에서 계산해야 된다. 그렇기에 무한대의 덧셈으로 이루어진 식 계산도 어렵고, 또한 해당 급수는 행렬식이다. 스칼라 계산보다 더 많은 계산이 필요하는 문제를 가지고 있다. 이런 문제를 해결하기 위해서 Rodrigue.. 2025. 3. 7. [컴퓨터 비전] Lie Algebra 1. Lie Algebra 란?Lie Algebra는 Lie Group의 "미소 변화"를 표현하는 도구이다.3차원 비전에서 회전을 Lie Group으로 표현한다고 했다. Lie Algebra는 각속도를 표현하기 위한 도구라고 생각하면 좋다. Lie Group : 회전 Lie Algebra : 각속도 회전을 Lie Group을 사용하는 이유가 Manifold 즉, 미분 가능하기 위해서 사용한다고 했기 때문에 당연히 자연스럽게 Lie Algebra가 나와야 되는 것 아니겠는가? 수학적으로 보면 Lie Group의 항등원에서 미분한 것이라 보면 된다. 어렵게 말하면 접공간 (Tangent Space)의 집합이라고 보면 된다. 해당 공간에서 각속도에 대한 벡터들이 속해 있다고 보면 된다. 2. SO(3)의 L.. 2025. 3. 7. 이전 1 2 다음