모델 서빙에서의 라우팅 현황

(netflixtechblog.com)

Netflix Tech Blog2026년 5월 1일AI 모델

넷플릭스가 초당 100만 건의 요청을 처리하기 위해 구축한 ML 모델 서빙 인프라의 핵심 기술인 'API 추상화'와 '라우팅' 전략을 다룹니다. 단순한 모델 추론(Inference)을 넘어 전처리, 특징 추출, 후처리를 포함한 전체 워크플로우를 하나의 서비스 단위로 관리하여, 클라이언트 서비스의 복잡성을 낮추고 모델 업데이트 속도를 극대화한 사례를 설명합니다.

이 글의 핵심 포인트

1넷플릭스 ML 플랫폼은 2025년 기준 초당 100만 건(1M RPS)의 요청을 처리함
2단순 '모델 추론(Inference)'과 전/후처리를 포함한 '모델 서빙(Serving)'을 명확히 구분하여 관리함
3클라이언트 서비스가 모델의 내부 복잡성을 알 필요 없도록 도메인 독립적인 API 추상화를 구현함
4모델 정의 내에 특징 추출(Feature computation) 로직을 포함하여 엔드 투 엔드 워크플로우를 표준화함
5Switchboard(중앙 라우팅 서비스)를 통해 적절한 모델 인스턴스로 트래픽을 효율적으로 분산함

이 글에 대한 공공지능 분석

왜 중요한가

단순히 모델의 정확도를 높이는 것을 넘어, 수천 개의 모델과 수백 개의 마이크로서비스가 얽힌 거대 생태계에서 어떻게 '운영 효율성'과 '혁신 속도'를 동시에 달성할 수 있는지에 대한 해답을 제시하기 때문입니다.

배경과 맥락

현대 ML 시스템은 단순한 점수 산출(Scoring)을 넘어 데이터 전처리 및 특징 추출(Feature Engineering)을 포함한 복잡한 파이프라인을 요구합니다. 넷플릭스는 이러한 복잡성을 클라이언트 서비스로부터 분리하여, 연구자가 모델을 변경해도 서비스 코드 수정 없이 즉시 배포할 수 있는 구조를 지향합니다.

업계 영향

모델 서빙을 '단일 함수 호출'이 아닌 '엔드 투 엔드 워크플로우'로 정의함으로써, ML 엔지니어링의 범위를 인프라 수준으로 확장시켰습니다. 이는 대규모 트래픽을 다루는 테크 기업들이 모델 배포의 병목 현상을 해결하는 표준적인 아키텍처 모델을 제시합니다.

한국 시장 시사점

개인화 추천이나 이상 탐지(Fraud Detection)를 핵심 비즈니스로 하는 한국의 커머스, 콘텐츠 스타트업들에게 시사하는 바가 큽니다. 모델의 성능 개선이 실제 서비스 반영까지 긴 시간이 걸리는 구조적 문제를 해결하기 위해, 초기 단계부터 모델과 서비스 간의 인터페이스를 추상화하는 설계가 필수적임을 보여줍니다.

이 글에 대한 큐레이터 의견

스타트업 창업자 관점에서 이 글은 '기술적 부채를 관리하며 확장하는 법'에 대한 교과서적인 사례를 보여줍니다. 많은 AI 스타트업이 모델의 성능(Accuracy)에만 매몰되어, 정작 모델을 서비스에 통합하는 과정에서 발생하는 엔지니어링 비용(Integration Cost)을 간과하곤 합니다. 넷플릭스처럼 모델 서빙을 하나의 '워크플로우'로 정의하고 API를 추상화하는 구조를 갖춘다면, 모델 업데이트가 곧 제품의 기능 업데이트로 이어지는 강력한 제품 반복(Iteration) 사이클을 구축할 수 있습니다.

다만, 실행 측면에서는 주의가 필요합니다. 넷플릭스 수준의 100만 RPS를 처리하기 위한 'Switchboard'나 'Lightbulb' 같은 고도화된 라우팅 인프라는 막대한 엔지니어링 리소스를 필요로 합니다. 초기 단계의 스타트업은 넷플릭스의 아키텍처를 그대로 복제하기보다는, '모델의 로직과 서비스의 로직을 분리한다'는 원칙을 먼저 적용하여, 모델 실험이 서비스 코드의 수정 없이도 가능하도록 하는 '추상화 계층'을 설계하는 데 집중해야 합니다. 이것이 곧 AI 제품의 시장 대응 속도(Time-to-Market)를 결정짓는 핵심 경쟁력이 될 것입니다.

원문 보기 →