학습 가능성의 격차, 성능의 격차가 아니다: 353 파라미터 vs 3-파라미터 휴리스틱
(dev.to)
소형 신경망과 단순 휴리스틱의 프레임 스케줄링 성능 비교를 통해 모델의 표현력이 아닌 온라인 학습 과정에서의 '학습 가능성' 격차가 성능 차이의 원인임을 밝혀내며, 실시간 환경을 위한 AI 설계는 모델 크기보다 적응력에 집중해야 함을 시사합니다.
이 글의 핵심 포인트
- 1353개 파라미터 MLP가 3개 파라미터 EMA 휴리스틱보다 sawtooth/scroll 워크로드에서 약 10%p 높은 Jank rate 발생
- 2문제의 본질은 모델의 표현력(Capacity) 부족이 아닌, 온라인 SGD의 학습 방향 불일치(Learnability Gap)임
- 3