LLM 라이브러리에 물결선 제거 기능을 거의 추가하려다, 로컬 모델이 실제로 물결선을 생성하는지 확인하게 되었다.
(dev.to)
LLM 출력 데이터 정제 라이브러리인 llmclean의 최신 업데이트는 로컬 모델과 클라우드 모델 간의 텍표그래피 생성 특성 차이를 실험적으로 검증하여, 불필요한 연산을 줄이고 특정 환경에 최적화된 효율적인 전처리 접근법을 제시합니다.
이 글의 핵심 포인트
- 1로컬 7B-8B 모델은 클라우드 모델(ChatGPT, Claude 등)과 달리 스마트 따옴표나 대시 같은 타이포그래피 노이즈를 거의 생성하지 않음
- 2Qwen 등 중국어 기반 모델의 전각 문자는 JSON 파싱 오류가 아닌 산문(propre) 정제 차원의 문제임
- 3