XPENG, 더욱 인간적인 자율 주행 제공

(cleantechnica.com)

CleanTechnica2026년 5월 24일AI 산업

XPENG가 공개한 VLA 2.0은 언어 번역 단계를 생략하고 시각 신호를 즉각 행동으로 변환하는 엔드투엔드 기술과 자체 개발한 Turing AI 칩을 통해, 기존의 기계적 자율주행을 넘어 인간의 직관과 판단력을 모사하는 혁신적인 '피지컬 AI' 시대를 열고 있습니다.

이 글의 핵심 포인트

1XPENG의 자체 개발 Turing AI 칩은 최대 3000 TOPS의 연산 능력을 제공하며 모델 실행 효율을 12배 향상시킴
2VLA 2.0은 언어 번역 단계를 제거하여 시각 신호에서 행동 명령으로 직접 생성하는 엔드투엔드(End-to-End) 구조 채택
3기존 방식 대비 예측 오차를 33% 감소시키고, 칩과 모델의 공동 최적화를 통해 정보 처리 용량을 145% 증대
4‘Physical AI’ 구현을 통해 복잡한 롱테일(Long-tail) 시나리오에서도 인간과 유사한 직관적 주행 가능
5차량 내 추론 토큰 소비량이 중국 내 일일 디지털 AI 볼륨의 약 80배에 달할 정도로 방대한 데이터 처리 역량 확보

이 글에 대한 공공지능 분석

왜 중요한가?

자율주행의 패러다임이 단순한 규칙 기반(Rule-based)에서 데이터 기반의 '피지컬 AI'로 전환됨을 의미하며, 이는 기존 자율주행의 난제였던 예측 불가능한 도로 상황(Long-tail) 해결의 핵심 열쇠가 될 것입니다.

어떤 배경과 맥락이 있나?

기존의 대규모 언어 모델(LLM) 방식은 물리적 행동을 언어로 번역하는 과정에서 지연이 발생하지만, XPENG는 이를 생략하고 시각 신호에서 행동으로 직접 연결하는 '근육 기억' 방식의 아키텍처를 채택했습니다.

업계에 어떤 영향을 주나?

하드웨어(Turing AI 칩)와 소프트웨어(VLA 2.0)의 수직적 통합이 자율주행 경쟁력의 핵심이 될 것이며, 이는 테슬라와 같은 강력한 하드웨어-소프트웨어 통합 기업과의 경쟁 구도를 더욱 심화시킬 것입니다.

한국 시장에 어떤 시사점이 있나?

자율주행 및 로보틱스 분야의 한국 스타트업들은 범용 모델 개발을 넘어, 특정 물리적 환경에서 얼마나 '빠르고 효율적으로' 작동할 수 있는지를 결정하는 하드웨어-소프트웨어 통합 최적화 및 경량화 기술 확보에 집중해야 합니다.

이 글에 대한 큐레이터 의견

XPENG의 이번 발표는 AI의 적용 영역이 디지털 세계를 넘어 물리적 실체(Physical World)로 확장되는 'Physical AI'의 정수를 보여줍니다. 특히 언어적 추론 단계를 생략하고 시각 신호를 행동으로 즉시 연결하는 엔드투엔드 방식은, 자율주행뿐만 아니라 휴머노이드 로봇 산업에도 직접적인 영향을 미칠 수 있는 파괴적 혁신입니다.

스타트업 창업자들은 주목해야 합니다. 이제는 단순히 '똑똑한 모델'을 만드는 것을 넘어, 그 모델이 물리적 환경에서 얼마나 '빠르고 효율적으로' 작동할 수 있는지를 결정하는 하드웨어-소프트웨어 통합 최적화 능력이 생존의 핵심이 될 것입니다. 칩 설계부터 모델 실행 효율까지 아우르는 수직적 통합 역량은 막대한 자본이 필요하지만, 특정 물리적 과업에 특화된 경량화된 '근육 기억(Muscle Memory)'형 AI 아키텍처 설계는 기술 중심 스타트업에 큰 기회가 될 수 있습니다.

원문 보기 →