F-VLM: 동결된 비전-언어 모델 기반의 개방형 어휘 객체 탐지
(dev.to)
F-VLM은 대규모 비전-언어 모델(VLM)의 가중치를 고정(Frozen)한 상태에서 새로운 객체를 탐지할 수 있는 개방형 어휘 객체 탐지(Open-Vocabulary Object Detection) 기술입니다. 모델 전체를 재학습시키는 막대한 비용 없이도, 텍스트 설명만으로 학습 데이터에 없던 새로운 물체를 식별할 수 있는 효율적인 접근법을 제시합니다.
이 글의 핵심 포인트
- 1모델 가중치를 동결(Frozen)하여 재학습에 필요한 막대한 컴퓨팅 비용 및 시간 최소화
- 2학습 데이터에 포함되지 않은 새로운 객체도 텍스트 설명만으로 탐지 가능한 Open-Vocabulary 기능 구현
- 3