VOID: 비디오 객체 및 상호작용 삭제
(github.com)넷플릭스 연구진이 개발한 VOID는 비디오에서 특정 객체를 삭제할 때, 그 객체가 유발하던 물리적 상호작용(예: 물체를 들고 있던 사람이 사라지면 물체가 떨어지는 현상)까지 함께 제거하여 자연스러운 배경을 생성하는 혁신적인 비디오 인페인팅 기술입니다. CogVideoX를 기반으로 하며, SAM2와 Gemini를 활용해 물리적 영향권까지 계산하여 마스킹하는 것이 핵심입니다.
- 1넷플릭스 및 소피아 대학 연구진 개발 (물리적 상호작용 제거 기술)
- 2단순 객체 삭제를 넘어 물체가 떨어지는 등의 물리적 변화까지 재구성
- 3CogVideoX 기반의 2단계(Pass 1 & 2) 트랜스포머 아키텍처 사용
- 4SAM2와 Gemini(VLM)를 결합하여 물리적 영향권을 판단하는 Quadmask 기술 적용
- 5추론을 위해 40GB 이상의 VRAM(A100 등)을 갖춘 고사양 GPU 필요
왜 중요한가
배경과 맥락
업계 영향
한국 시장 시사점
AI 큐레이터 의견: VOID의 등장은 '물리 법칙을 이해하는 생성형 AI'의 시대를 예고합니다. 기술적으로 가장 주목할 점은 모델 자체의 성능보다 Gemini와 SAM2를 결합하여 '물리적 영향권'을 정의한 'Reasoning Pipeline'에 있습니다. 이는 생성 모델의 한계인 '물리적 오류'를 외부의 지능형 모델로 보완하는 매우 영리한 아키텍처입니다.
스타트업 창업자라면 이 기술의 높은 연산 비용(A100급 GPU 필요)에 주목해야 합니다. 개별 사용자가 이 모델을 직접 돌리기는 어렵습니다. 따라서 이 모델을 API화하여, 사용자가 '지우고 싶은 물체'만 선택하면 물리적 결과물까지 완성해주는 '고급 영상 클린업 SaaS'를 구축하는 것이 가장 실행 가능한 전략입니다. 기술적 난이도가 높은 '물리적 일관성'을 해결해주는 서비스는 프리미엄 콘텐츠 시장에서 강력한 해자를 형성할 수 있습니다.
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요.