연구 논문에서 4B 모델이 70B 모델을 이겼습니다.
(dev.to)Dev.to OpenSourceLLM/모델
저는 ML 대회(OpenAI Parameter Golf, WorldQuant IQC)에 참가하면서 계속 같은 벽에 부딪혔습니다. 논문을 읽고 개념적으로는 이해했지만, 실제 학습률이 14페이지에 있거나, 보충 설명에 숨겨진 교정 절차, 표 제목에 한 번 언급된 실패 모드를 찾느라 몇 시간을 허비하는 일이 반복되었습니다. 그래서 저는 그런 모든 정보를 구조화된 파일로 추출하는 CLI 도구를 만들었습니다. 한 번의 명령어로, 논문당 약 2분 정도 소요됩니다. 이 부분은 놀랍지 않습니다. 놀라웠던 것은 그 다음 일입니다.
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요.