Google의 제미니 옴니, 이미지, 오디오, 텍스트를 비디오로 변환하다 — 그리고 이건 시작에 불과하다
(techcrunch.com)
구글이 텍스트, 이미지, 오디오 등 다양한 입력을 통합적으로 이해하고 비디오로 변환하는 새로운 멀티모달 모델 '제미니 옴니(Gemini Omni)'를 공개하며, 단순한 콘텐츠 생성을 넘어 현실을 시뮬레이션하는 '월드 모델' 시대로의 진입을 선언했습니다.
이 글의 핵심 포인트
- 1구글의 새로운 멀티모달 모델 '제미니 옴니(Gemini Omni)' 공개
- 2텍스트, 이미지, 오디오, 비디오를 통합적으로 추론하여 일관성 있는 비디오 생성 가능
- 3