커널 최적화의 함정: 왜 2.2배 빠른 커널이 훈련을 3배 느리게 만들었나? | 스타트업스쿨