SRE의 기초: 실질적으로 작동하는 SLO, SLI, Error Budget 정의하기
(dev.to)이 기사는 SRE(Site Reliability Engineering)의 핵심 프레임워크인 SLO, SLI, Error Budget의 개념과 정의 방법을 설명합니다. 서비스의 신뢰성을 측정하는 지표를 설정하고, 이를 통해 개발 속도와 시스템 안정성 사이의 최적의 균형을 찾는 방법을 제시합니다.
이 글의 핵심 포인트
- 1SRE의 핵심 계층: SLA(외부 계약), SLO(내부 목표), SLI(측정 지표)의 명확한 구분
- 2모니터링의 4대 황금 신호(Four Golden Signals): Latency, Traffic, Errors, Saturation
- 3가용성 목표에 따른 월간 허용 장애 시간 차이: 99% (7.2시간) vs 99.9% (43.8분) vs 99.99% (4.38분)