1000만 WebSocket 이벤트 이후 발생한 문제점 (그리고 실시간 AI 오케스트레이션 복구 과정)
(dev.to)
1,000만 건 이상의 WebSocket 이벤트가 발생하는 대규모 실시간 AI 서비스에서 발생한 시스템 붕괴 사례를 통해, 단순한 Redis pub/sub를 넘어 계층화된 이벤트 기반 아키텍처와 백프레셔 제어가 대규모 트래픽 환경에서 왜 필수적인지 분석합니다.
이 글의 핵심 포인트
- 11,000만 건 이상의 일일 WebSocket 이벤트 처리 중 발생한 지연 및 메시지 유실 문제 해결
- 2Redis pub/sub와 Kafka의 한계를 극복하기 위한 계층화된 이벤트 기반 아키텍처 도입
- 3