2주 만에 Gzip를 능가하는 압축 알고리즘을 만들었습니다. A+ 자격증 보유
(dev.to)
LLM(대규모 언어 모델) 데이터의 특성을 활용하여 기존 Gzip나 Brotli보다 뛰어난 압축률을 보이는 새로운 알고리즘 'GN(Glasik Notation)'의 개발 사례를 다룹니다. 이 알고리즘은 LLM 대화 패턴에 특화된 패턴 매칭과 분리 스트림 구조를 통해 토큰 비용을 획기적으로 절감할 수 있는 가능성을 보여줍니다.
이 글의 핵심 포인트
- 1GN 알고리즘은 실제 Claude 대화 데이터에서 Brotli 대비 최대 62% 높은 압축률 달성
- 2Aho-Corasick 알고리즘을 활용하여 20,000개의 LLM 특화 패턴을 선형 시간 내에 매칭
- 3