Mr. Chatterbox는 빅토리아 시대의 윤리적으로 훈련된 model이다
(simonwillison.net)
트립 벤투렐라가 개발한 'Mr. Chatterbox'는 1837년에서 1899년 사이 영국 도서관의 저작권 만료 텍스트 28,000여 권(약 29.3억 토큰)으로만 학습된 빅토리아 시대 스타일의 언어 모델입니다. 이 모델은 3.4억 개의 매개변수로 GPT-2-Medium과 유사한 크기이며 로컬에서 실행 가능하지만, 현재로서는 대화 성능이 매우 제한적입니다. 하지만 저작권 문제가 없는 데이터로 LLM을 학습시킬 수 있다는 가능성을 보여주는 중요한 첫걸음으로 평가됩니다.
이 글의 핵심 포인트
- 1Trip Venturella가 1837년~1899년 영국 도서관의 저작권 만료 텍스트 28,035권으로 'Mr. Chatterbox' LLM을 개발했습니다.
- 2모델은 약 3.4억 개의 매개변수(GPT-2-Medium과 유사)와 2.93억 개의 훈련 토큰을 사용했습니다.
- 3