Show HN: 크레스포 - LLM을 위한 원시 코드가 아닌 Tree-sitter AST 청사진

(github.com)

크레스포(Crespo)는 Tree-sitter AST 파싱 기술을 활용해 코드베이스의 구조적 DNA만을 추출하여 LLM에 전달함으로써, 토큰 사용량을 최대 96%까지 절감하면서도 대규모 프로젝트의 아키텍처 이해도를 유지하는 혁신적인 도구입니다.

이 글의 핵심 포인트

1Tree-sitter AST 파싱을 통해 코드의 구조적 정보(클래스, 함수, 임포트 등)만 추출하여 XML 형태의 청사진 생성
2평균 약 86%의 토큰 사용량 절감 효과를 입증 (최대 96%까지 감소)
3Structure, Summary, Concat 세 가지 모드를 통해 용도에 맞는 데이터 압축 수준 조절 가능
4API 키 및 민감한 보안 정보(Secrets)를 자동으로 탐지하여 마스킹하는 보안 기능 탑재
5Python, JS/TS, Rust, Go 등 10개 이상의 주요 프로그래밍 언어 지원

이 글에 대한 공공지능 분석

왜 중요한가?

LLM의 컨텍스트 윈도우 확장은 계속되고 있지만, 방대한 코드를 그대로 입력하는 것은 막대한 비용과 모델의 집중력 저하(Lost in the middle)를 초래합니다. Crespo는 데이터의 양이 아닌 '밀도'에 집중하여 경제적이고 효율적인 AI 코딩 환경을 제시합니다.

어떤 배경과 맥락이 있나?

최근 개발자들은 대규모 코드베이스를 LLM에 학습시키거나 프롬프트로 전달하기 위해 소스 코드를 통째로 복사하는 방식을 사용해 왔습니다. 이는 토큰 비용 급증과 모델의 아키텍처 파악 오류라는 기술적 부채를 야기했으며, 이를 해결하기 위한 추상화된 데이터 구조가 필요해진 시점입니다.

업계에 어떤 영향을 주나?

이 도구는 '데이터 전처리(Pre-processing) 레이어'의 중요성을 부각시킵니다. 향후 AI 에이전트나 코딩 어시스턴트 개발 시, 원시 데이터를 그대로 모델에 던지는 것이 아니라 AST와 같은 구조적 정보를 정제하여 전달하는 미들웨어 기술이 핵심 경쟁력이 될 것입니다.

한국 시장에 어떤 시사점이 있나?

글로벌 수준의 높은 API 비용을 지불해야 하는 한국 AI 스타트업들에게 이러한 토큰 최적화 기술은 운영 비용(OPEX) 절감의 직접적인 해법이 됩니다. 단순한 모델 활용을 넘어, 도메인 특화된 코드 압축 및 구조화 엔진을 구축하는 것이 차별화 포인트가 될 수 있습니다.

이 글에 대한 큐레이터 의견

Crespo는 '브루트 포스(Brute-force)' 방식의 컨텍스트 주입에서 벗어나 '지능적 추상화'로 패러다임을 전환하려는 시도로 평가됩니다. 스타트업 창업자 관점에서 이는 LLM 기반 서비스를 구축할 때 모델의 성능을 극대화하면서도 비용 구조를 혁신적으로 개선할 수 있는 중요한 힌트를 제공합니다.

물론 트레이드오프는 명확합니다. 'Structure' 모드처럼 코드의 뼈대만 남길 경우, 함수 내부의 구체적인 로직이나 알고리즘적 디테일이 소실되어 복잡한 버그 수정(Debugging) 작업에는 한계가 있을 수 있습니다. 즉, 아키텍처 설계에는 탁월하지만 세부 구현 단계에서는 다시 원시 코드가 필요할 수 있다는 점을 유념해야 합니다.

결론적으로 개발자들은 이 도구를 '대체재'가 아닌 '보완재'로 활용해야 합니다. 프로젝트의 전체 구조를 파악하는 초기 단계와 코드 요약에는 Crespo를 사용하고, 정밀한 로직 수정 시에는 선별된 컨텍스트를 제공하는 하이브리드 전략이 가장 효율적인 AI 개발 워크플로우가 될 것입니다.

원문 보기 →