production 환경의 디스크 공간 부족
(alt-romes.github.io)
대규모 파일 다운로드 트래픽 급증으로 인해 40GB 디스크 공간이 가득 차 서버가 마비된 장애 사례를 다룹니다. Nginx 프록시의 버퍼링 문제와 NixOS 환경에서의 긴급 복구 과정을 통해 인프라 설계 및 모니터링의 중요성을 강조합니다.
이 글의 핵심 포인트
- 140GB 디스크 용량 중 100% 사용으로 인한 서비스 전체 마비 발생
- 22.2GB 대용량 파일 다운로드 트래픽 급증이 장애의 트리거
- 3NixOS의 /nix/store와 Clickhouse 로그가 주요 디스크 점유 원인으로 확인