TIPSv2: 향상된 패치-텍스트 정렬을 통한 비전-언어 사전 훈련 발전
(gdm-tipsv2.github.io)
TIPSv2는 패치-텍스트 정렬을 강화한 차세대 비전-언어 모델로, Head-only EMA 기술로 파라미터를 42% 줄이면서도 정밀한 시각적 이해도를 확보해 자율주행 및 의료 AI 분야의 고효율·고성능 비전 솔루션 구축을 가속화할 전망입니다.
이 글의 핵심 포인트
- 1iBOT++ 도입을 통해 패치 수준의 self-distillation loss를 확장하여 ADE150 데이터셋에서 mIoU 14.1% 상승 달성
- 2Head-only EMA 적용으로 전체 모델이 아닌 프로젝터 헤드에만 EMA를 적용하여 학습 파라미터 42% 절감
- 3