블랙프라이데이 긴급 호출: 벡터 검색 튜닝 오류로 인한 트레저 헌트 인프라 구축 과정
(dev.to)
블랙프pi데이 트래픽 폭주 상황에서 발생한 벡터 검색 인덱스의 샤딩 오류와 HNSW 파라미터 미비 문제를 해결하여 초당 120만 건의 쿼리를 안정화한 엔지니어링 사례를 분석합니다.
이 글의 핵심 포인트
- 1무작위 해시 샤딩 사용으로 인해 특정 파티션에 데이터가 쏠리며 인덱스 불일치 및 데이터 유실 발생
- 2샤드 수를 4개에서 16개로 늘렸으나 파일 디스크립터 제한(16,384)에 걸려 프로세스가 SIGKILL로 종료됨
- 3Ketama 기반의 일관된 해싱(Consistent Hashing)과 결정론적 파티셔닝 도입으로 데이터 분산 안정화