본문 바로가기

전체 글10

[알고리즘] Sinkhorn-Knopp 알고리즘 : 이중 확률 행렬 정규화 딥러닝 논문을 읽다보면 이름부터 낯선 Sinkhorn-Knopp 알고리즘을 종종 마주하게 됩니다. 저 같은 경우에는 처음에는 특징점 매칭 알고리즘인 LoFTR 논문에서 접했습니다. 당시엔 Optimal Transport 등과 같은 설명이 직관적이지 않아서 대략적으로 이해하고 넘어갔습니다. 그런데 최근 DINO v2 논문을 읽으면서 또 다시 이 알고리즘과 마주쳤습니다. 그래서 이번 기회를 빌어 블로그로 쓰고 Sinkhorn-Knopp 알고리즘을 한번 제대로 정리하고 넘어가려고 합니다. 1. Sinkhorn-Knopp 알고리즘 넌 누구냐?이중 확률 행렬을 만들기 위한 알고리즘 Sinkhorn-Knopp 알고리즘은 "임의의 양의 값을 가진 행렬을, 이중 확률 행렬(Doubly Stochastic Matri.. 2025. 7. 8.
[컴퓨터 비전] iBOT - ViT에서 [MASK] 사용하는 방법 "iBOT: Image BERT Pre-Training with Online Tokenizer"ICLR 2022, 27 Jan 2022 1. Vision Transformer도 BERT처럼 Mask로 학습할 수 있을까?NLP에서는 BERT와 같은 Transformer 모델이 MLM (Masked Language Modeling)를 통해 엄청난 성과를 냈습니다. 즉 모델에게 가려진 부분(mask)이 무엇인지 맞추는 방식으로 학습하여 성능을 높혔습니다. ViT (Vision Transformer)가 이미지 분야에서 떠오르면서 BERT와 비슷하게 Mask를 이용한 학습 방법에 아이디어를 차용했습니다. “이미지의 일부 조각을 가리고 맞추는 식으로 학습하면 더 잘하지 않을까?”이런 시도가 MIM (Masked I.. 2025. 6. 25.
[컴퓨터 비전] DINO v1 "Emerging Properties in Self-Supervised Vision Transformers"ICCV 2021, 29 Apr 2021 1. Self Supervised Learning을 통한 ViT 학습 최근 NLP 분야에서 "Transformer" 모델을 통해서 휼롱한 성능을 보여주고, AI가 크게 주목받게 되어 있습니다. 이처럼 이미지 분야에서도 Vision Transformer(ViT)가 등장하면서 CNN(합성곱 신경망)의 대안을 제시하고 있었습니다. 하지만 이 논문이 나오기 전까지는 ViT를 Supervised Learning통해 학습을 진행했지만, 기존 CNN에 대비해서 놀라만한 성능을 보여주지 못했습니다. 저자는 Supervised Learning이 특정 카테고리만 분류하는 학습.. 2025. 6. 18.
Chocolatey (Choco) 패키지 매니저 1. Chocolatey 란?Chocolatey는 PowerShell을 기반으로 동작하는 Windows 전용 패키지 매니저로, 명령어 한 줄로 다양한 소프트웨어를 설치, 업그레이드, 제거할 수 있게 해줍니다. 기존의 GUI 기반 설치 방식에서 발생할 수 있는 반복적이고 비효율적인 작업을 자동화하여, 프로비저닝, CI/CD, 개발 환경 셋업 등에 적합한 도구입니다. 2. Chocolatey의 주요 특징 기능설명CLI 기반 설치명령어 한 줄로 설치 가능다양한 패키지다양한 종류의 패키지 지원자동 업데이트패키지 버전 업데이트 자동화 기능스크립트 통합PowerShell 스크립트 및 배치 파일에 쉽게 통합 가능DevOps 친화Vagrant, Ansible 등과 연계 가능 3. 설치 1. Window Powershe.. 2025. 4. 8.
[컴퓨터 비전] Vision Transformers "An Image is Worth 16 x 16 words : Transformers for Image recognition At scale"  1. Vision Transformer 란? ViT는 Google Research 팀이 제안한 모델로, 기존 자연어 처리(NLP) 분야에서 성공한 Transformer 구조를 이미지 인식에 그대로 적용하는 방식입니다.  이 논문의 핵심 아이디어 중 하나는 "이미지를 여러 개의 작은 패치(Patch)로 나누고 이를 토큰처럼 처리하여 Transformer로 학습하는 것"입니다. 이미지 패치를 토큰 처리하여 기존의 Transformer를 최소한으로 수정으로 이미지 분야에 적용시켰습니다. ViT를 이용해서 기존 CNN 기반 네트워크가 아니라 컴퓨터 비전 분야에서 Tra.. 2025. 3. 21.
[컴퓨터 비전] MAP 관점에서 이해하는 칼만 필터 - 수학적인 표현 (1) 1. 칼만 필터란?칼만 필터는 루돌프 칼만(Rudolf E. Kalman)이 개발한 필터라고 할 수 있다. 그럼 필터란 무엇일까?  필터란?필터는 노이즈가 섞인 측정 값에서 정확한 값을 찾기 위해서 사용되는 도구이다.  예를 들어서 실제 GPS나 IMU 센서의 경우, 센서 값을 측정할 때 기계적 진동이나 외부 환경(빛, 전파)의 간섭으로 노이즈가 무조건 발생하게 된다. 그렇기 때문에 해당 센서 값을 제대로 사용하기 위해서는 노이즈를 걷어내고 정확한 값을 추정해야 된다. 이를 위해서 칼만필터를 사용하는 것이다. 그러기에 이름 또한 필터라고 붙혀졌다.  이런 이유로 칼만 필터는 위치 추정 (GPS), 객체 추정 등 다양한 분야에서 사용된다. 특히나 내가 있는 3차원 비전 분야나 SLAM 분야에서는 IMU 센.. 2025. 3. 12.