결제 서비스 다운시킨 Spot Instance (그리고 47분 만에 찾은 이유)
(dev.to)
Spot Instance의 노드 교체 과정에서 과도하게 짧은 Kubernetes Liveness Probe 설정이 결제 서비스의 연쇄 장애를 유발한 사례를 분석하며, 인프라의 변동성을 고려한 탄력적인 설정과 시스템 간 상호 의존성을 반영한 관측성 확보의 중요성을 강조합니다.
이 글의 핵심 포인트
- 12줄의 YAML 수정으로 해결되었으나 원인 파악에 47분 소요
- 2Spot Instance의 노드 교체로 인한 Redis 재시작이 근본 원인
- 3