네이버, 로봇용 인코더 '디바인'에 언어·오디오 접목한다…피지컬 AI 승부수

(etnews.com)

네이버가 로봇의 시각, 언어, 오디오 정보를 통합 처리하는 범용 인코더 '디바인(DIVINE)'을 고도화하여, 하드웨어 의존도를 낮추면서도 지능적인 물리적 AI(Physical AI) 생태계를 구축하려는 전략을 본격화한다.

이 글의 핵심 포인트

1네이버랩스 유럽은 로봇용 범용 인코더 '디바인(DIVINE)'에 언어 및 오디오 인식 기능을 연내 추가할 계획임
2디바인은 2D 이미지 이해, 3D 공간 재구성, 사람 인식 등 시각 AI 기능을 이미 지원하고 있음
3통합 인코더 방식을 통해 기존 방식 대비 로봇의 연산량과 메모리 사용량을 절감하는 것이 강점임
4구글(RT-2), 엔비디아(Project GR00T), 테슬라 등 글로벌 빅테크와 로봇 파운데이션 모델(RFM) 경쟁 중임
5네이버랩스 유럽은 관련 분야 특허 13건 보유 및 다수의 고인용 연구자를 확보하고 있음

이 글에 대한 공공지능 분석

왜 중요한가?

단순한 인지 기능을 넘어 언어와 청각을 결합한 멀티모달 인코더 개발은 로봇이 인간과 상호작용하며 복잡한 명령을 수행할 수 있는 '물리적 AI'의 핵심 기반이기 때문이다. 특히 연산 효율성을 높인 통합 인코더 방식은 자원 제한적인 로봇 하드웨어 환경에서 실질적인 상용화를 가능케 하는 결정적인 경쟁력이 된다.

어떤 배경과 맥락이 있나?

현재 글로벌 빅테크들은 구글(DeepMind), 엔비디아, 테슬라를 중심으로 로봇 파운데션 모델(RFM) 개발 경쟁을 벌이고 있으며, 이는 자율주행 기술을 넘어 로봇의 두뇌 역할을 하는 범용 AI로 확장되는 추세다. 네이버는 이러한 흐름에 맞춰 시각 정보를 넘어선 멀티모달 통합 인지 기술 확보에 집중하고 있다.

업계에 어떤 영향을 주나?

로봇 하드웨어 제조사들은 고가의 컴퓨팅 자원 없이도 고성능 지능을 탑재할 수 있는 소프트웨어 솔루션의 기회를 맞이하게 되며, 이는 로봇 산업의 진입 장벽을 낮추는 촉매제가 될 것이다. 또한, 인코더 통합 기술은 로봇의 연산 효율성을 극대화하여 저사양 하드웨어에서도 고지능 구현을 가능케 한다.

한국 시장에 어떤 시사점이 있나?

국내 스타트업들은 하드웨어 제조 자체보다는 네이버와 같은 플랫폼 기업이 구축하는 RFM 생태계 위에서 특정 도메인(물류, 서비스 등)에 특화된 애플리케이션이나 고품질의 멀티모달 데이터셋을 개발하여 가치를 창출하는 전략이 유효할 수 있다.

이 글에 대한 큐레이터 의견

네이버의 이번 행보는 'Physical AI'라는 거대한 흐름 속에서 하드웨어가 아닌 소프트웨어(두뇌) 중심의 플랫폼 지배력을 확보하려는 영리한 전략이다. 특히 서로 다른 시각 정보를 하나의 인코더로 통합하여 연산 효율을 높인 기술적 접근은, 전력과 메모리가 제한된 로봇 환경에서 실질적인 상용화를 가능케 하는 핵심 차별화 요소다.

하지만 로봇 지능의 고도화는 필연적으로 막대한 데이터와 컴퓨팅 파워를 요구한다. 따라서 네이버가 글로벌 빅테크와의 경쟁에서 승리하기 위해서는 모델의 성능뿐만 아니라, 실제 로봇 환경에서 수집되는 양질의 멀티모달 데이터를 어떻게 지속적으로 확보하고 학습 루프(Data Flywheel)를 구축할 것인가라는 과제를 해결해야 한다. 스타트업 창업자들은 이러한 거대 모델의 생태계 변화를 주시하며, 범용 모델이 커버하지 못하는 엣지 케이스(Edge Case)나 특정 산업군에 특화된 미세 조정(Fine-tuning) 기술 및 데이터 서비스에 집중할 필요가 있다.

원문 보기 →