결제 파이프라인이 갑자기 느려졌다. 원인은 ClickHouse에 숨겨진 병목 현상이었다.
(blog.cloudflare.com)
Cloudflare의 ClickHouse 파티션 키 변경으로 인한 결제 파이프라인 지연 사례는, 데이터 스캔량이나 I/O가 정상이라도 파티션 수 증가에 따른 쿼리 계획 단계의 메타데이터 부하가 숨겨진 병목이 될 수 있음을 보여줍니다.
이 글의 핵심 포인트
- 1Cloudflare는 100PB 이상의 데이터를 관리하는 ClickHouse 클러스터 운영 중
- 2테넌트별 데이터 보존을 위해 파티션 키를 (day)에서 (namespace, day)로 변경
- 3