“손의 감각까지 학습했다”… 리얼월드, 로보틱스 AI 모델 ‘RLDX-1’ 공개

(venturesquare.net)

벤처스퀘어2026년 5월 7일AI 산업

“손의 감각까지 학습했다”… 리얼월드, 로보틱스 AI 모델 ‘RLDX-1’ 공개

피지컬 AI 스타트업 리얼월드가 시각을 넘어 촉각, 토크, 작업 기억까지 처리하는 로보틱스 파운데이션 모델 'RLDX-1'을 공개했습니다. 이 모델은 엔비디아의 GR00T 등 글로벌 선두 모델들을 벤치마크에서 앞서며, 정교한 손 조작이 가능한 'Dexterity-First' 구조를 구현해냈습니다.

이 글의 핵심 포인트

1RLDX-1은 엔비디아 GR00T 및 피지컬 인텔리전스 π0를 포함한 8종의 글로벌 벤치마크에서 최고 성능 기록
2RoboCasa Kitchen 벤치마크에서 70.6점을 기록하며 VLA 모델 최초로 70점대 돌파
3MSAT(Multi-Stream Action Transformer) 구조를 통해 시각, 언어, 행동, 촉각, 메모리를 통합 처리
4위로보틱스 ALLEX 활용 커피 따르기 과제에서 경쟁 모델 대비 약 2배 높은 70.8% 성공률 달성
5향후 촉각, 토크, 로봇 상태를 시간 축에서 통합 예측하는 '4D+ 월드 모델' 개발 계획

이 글에 대한 공공지능 분석

왜 중요한가

기존 로보틱스 AI가 시각 정보(Vision)에 의존해 '보는 것'에 집중했다면, RLDX-1은 촉각과 물리적 힘(Torque)을 통합하여 '느끼는 것'의 영역으로 패러다임을 전환했습니다. 이는 로봇이 단순한 이동을 넘어 인간 수준의 정교한 물체 조작(Manipulation)을 수행할 수 있는 기술적 토대를 마련했다는 점에서 매우 중요합니다.

배경과 맥락

현재 로보틱스 AI 시장은 VLA(Vision-Language-Action) 모델이 주도하고 있으나, 픽셀 데이터만으로는 물리적 접촉이나 힘의 변화를 완벽히 학습하기 어렵다는 한계가 있었습니다. 리얼월드는 이러한 한계를 극복하기 위해 시각, 언어, 행동, 촉각, 메모리를 각각 독립된 스트림으로 처리하는 MSAT(Multi-Stream Action Transformer) 구조를 도입했습니다.

업계 영향

엔비디아와 피지컬 인텔리전스 같은 글로벌 빅테크의 모델을 벤치마크에서 압도함으로써, 로보틱스 분야의 기술 주도권이 '거대 모델 규모'에서 '물리적 정밀도(Dexterity)'로 이동할 수 있음을 시사합니다. 또한, 자체 벤치마크인 'DexBench'를 공개하며 생태계 표준을 선점하려는 전략적 움직임을 보여주고 있습니다.

한국 시장 시사점

SKT, LG전자, CJ대한통운 등 국내 주요 기업들과의 협력 사례는 로보틱스 AI 기술이 제조 및 물류 현장의 'RX(Robotics Transformation)'로 직결될 수 있음을 보여줍니다. 한국의 강점인 제조/물류 인프라와 이러한 고도화된 AI 모델이 결합될 경우, 글로벌 로보틱스 시장에서 강력한 수직적 통합 경쟁력을 확보할 수 있습니다.

이 글에 대한 큐레이터 의견

이번 리얼월드의 발표는 로보틱스 AI의 핵심 경쟁력이 '시각적 이해'에서 '물리적 상호작용의 정밀도'로 이동하고 있음을 보여주는 결정적인 사례입니다. 특히 'Dexterity-First'라는 접근 방식은 단순히 데이터를 많이 넣는 것이 아니라, 물리 세계의 본질적인 요소인 촉각과 토크를 모델 구조(MSAT)에 어떻게 녹여낼 것인가에 대한 명확한 해답을 제시하고 있습니다.

스타트업 창업자들에게 주는 인사이트는 명확합니다. 거대 언어 모델(LLM)의 범용성을 따라잡기 어려운 상황에서, 특정 도메인(예: 정밀 제조, 물류 조작)의 물리적 특성을 깊게 파고드는 '특화된 데이터와 구조'가 강력한 해자(Moat)가 될 수 있다는 점입니다. 리얼월드가 모델 가중치와 코드를 공개하며 생태계를 확장하려는 전략은, 기술적 우위를 바탕으로 표준(DexBench)을 장악하여 후발 주자의 진입 장동을 높이려는 고도의 전략으로 평가됩니다.

원문 보기 →