GPU 독주 흔든다…모레, 텐스토렌트 기반 LLM 추론 성능 ‘DGX급’ 입증 성공
(venturesquare.net)
AI 인프라 기업 모레가 텐스토렌트 기반 시스템으로 NVIDIA DGX A100을 상회하는 LLM 추론 성능을 입증하며, GPU와 NPU를 결합한 이종 분산 서빙 기술로 HBM 의존도를 낮추고 AI 인프라 비용을 혁신적으로 절감할 기술적 돌파구를 제시했다.
이 글의 핵심 포인트
- 1텐스토렌트 '갤럭시 웜홀' 시스템에서 엔비디아 DGX A100급 이상의 LLM 추론 성능 달성
- 2GPT-OSS, Qwen, DeepSeek 등 최신 MoE(Mixture of Experts) 모델 기준 테스트 완료
- 3'이종 분산 서빙' 전략을 통해 텐스토렌트 칩을 prefill 전용 가속기로 활용, HBM 비용 절감
- 4모레의 'MoAI 프레임워크'는 NVIDIA, AMD, 텐스토렌트 등 다양한 칩셋을 단일 클러스터에서 통합 운영 가능
- 5특정 벤더에 종속되지 않는 유연한 AI 인프라 구축 및 실제 데이터센터 적용 가능성 확인
이 글에 대한 공공지능 분석
왜 중요한가?
엔비디아 GPU 중심의 독점적 AI 인프라 구조에 균열을 낼 수 있는 실질적인 기술적 근거를 제시했기 때문입니다. 단순히 성능을 높인 것을 넘어, 고가의 HBM(고대역폭 메모리) 비용 문제를 해결할 수 있는 아키텍처적 돌파구를 보여주었습니다.
어떤 배경과 맥락이 있나?
현재 LLM 서비스 운영의 최대 병목은 GPU 수급과 막대한 인프라 비용입니다. 텐스토렌트와 같은 NPU(신경망처리장치) 플레이어들이 부상하는 가운데, 기존 GPU 인프라를 완전히 대체하기보다는 GPU와 NPU를 효율적으로 섞어 쓰는 '하이브리드' 전략이 대두되고 있는 시점입니다.
업계에 어떤 영향을 주나?
LLM 서비스 스타트업들에게 '컴퓨팅 비용 최적화'라는 새로운 무기를 제공합니다. 특정 벤더(NVIDIA)에 종속되지 않고 AMD나 텐스토렌트 등 다양한 칩셋을 활용할 수 있는 프레임워크가 확산되면, AI 모델 서비스의 유닛 이코노믹스(Unit Economics)가 획기적으로 개선될 수 있습니다.
한국 시장에 어떤 시사점이 있나?
GPU 자원 확보 전쟁을 벌이고 있는 한국의 AI 모델 및 서비스 기업들에게 '인프라 유연성' 확보가 생존 전략임을 시사합니다. 하드웨어 종속성을 탈피하고, 모레의 MoAI 프레임워크와 같이 이종 칩셋을 통합 운영할 수 있는 소프트웨어 기술력 확보가 필수적입니다.
이 글에 대한 큐레이터 의견
AI 스타트업 창업자들에게 이번 소식은 '컴퓨팅 비용의 탈(脫) 엔비디아' 가능성을 보여주는 매우 고무적인 신호입니다. 지금까지 대부분의 AI 기업은 엔비디아 GPU의 높은 가격과 수급 불안정이라는 '컴퓨팅 장벽'에 가로막혀 있었습니다. 하지만 모레가 보여준 것처럼 GPU의 연산 능력과 NPU의 효율성을 결합한 '이종 분량 서빙'이 실무 수준(Production-grade)에서 가능하다면, 이는 곧 모델 서비스의 수익성(Margin)과 직결되는 문제입니다.
창업자들은 이제 단순히 '어떤 모델을 만드느냐'를 넘어, '어떤 인프라 아키텍처 위에서 모델을 서빙하느냐'를 핵심 경쟁력으로 고려해야 합니다. 특히 prefill(입력 처리)과 decoding(출력 생성) 단계를 분리하여 각각에 최적화된 칩을 배치하는 식의 전략적 인프라 설계는, 자본력이 부족한 스타트업이 거대 빅테크와 경쟁할 수 있는 중요한 '비용적 해자(Cost Moat)'가 될 것입니다. 향후 텐스토렌트나 AMD 기반의 에코시스템 확장을 예의주시하며, 자사 서비스에 적용 가능한 하이브리드 추론 프레임워크 도입을 검토해야 할 시점입니다.
관련 뉴스
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요.