GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 기반 모델으로의 진전
(arxiv.org)
GLM-5V-Turbo는 시각 인지 능력을 추론과 실행 프로세스에 내재화한 차세대 네이티브 기반 모델로, 이미지와 GUI 등 다양한 시각적 컨텍스트를 직접 이해하고 조작하는 자율형 멀티모달 에이전트 구현을 가속화할 핵심 기술입니다.
이 글의 핵심 포인트
- 1멀티모달 인지를 추론, 계획, 실행의 핵심 구성 요소로 통합한 네이티브 설계
- 2이미지, 비디오, 웹페이지, 문서, GUI 등 이기종 컨텍스트에 대한 통합적 이해 능력
- 3멀티모달 코딩 및 시각적 도구 사용(Visual Tool Use) 분야에서의 강력한 성능 입증