GKE 업그레이드로 인해 45분간 프로덕션 Pod 중단 발생
(dev.to)
GKE의 자동 노드 업그레이드 과정에서 Pod Disruption Budget(PDB)과 부적절한 Readiness Probe 설정 미비로 인해 45분간 프로덕션 서비스가 중단된 사례를 분석합니다. 인프라 자동화의 편리함에 안주할 때 발생할 수 있는 운영상의 허점과 이를 방지하기 위한 구체적인 기술적 해결책을 제시합니다.
이 글의 핵심 포인트
- 1GKE 자동 노드 업그레이드 중 설정 미비로 인해 45분간 프로덕션 서비스 중단 발생
- 2Pod Disruption Budget(PDB) 미설정으로 인해 노드 드레인 시 최소 가용량 보장 실패
- 3