놀라울 정도로 간단한 self-distillation, code generation을 향상시키다
(arxiv.org)
새로운 연구 논문은 '놀라울 정도로 간단한 Self-Distillation (SSD)' 기법을 통해 대규모 언어 모델(LLM)의 코드 생성 능력을 획기적으로 향상시켰습니다. 이 방법은 별도의 검증기나 교사 모델, 강화 학습 없이 오직 모델 자체의 출력만으로 미세 조정을 수행하며, Qwen3-30B-Instruct 모델의 LiveCodeBench v6 pass@1 점수를 42.4%에서 55.3%로 크게 끌어올렸습니다. 특히 난이도 높은 문제에서 큰 개선을 보이며, 다양한 Qwen 및 Llama 모델에도 보편적으로 적용 가능함을 입증했습니다.
이 글의 핵심 포인트
- 1LLM 코드 생성 능력 향상을 위한 '놀라울 정도로 간단한 Self-Distillation (SSD)' 방법론 제안.
- 2SSD는 외부 검증기, 교사 모델, 강화 학습 없이 오직 모델 자체 출력만을 사용해 미세 조정을 수행.