HackerRank 오픈소스 ATS, 같은 이력서 점수가 90점·74점·88점으로 흔들림

(news.hada.io)

HackerRank의 오픈소스 채용 에이전트 테스트 결과, LLM 기반 이력서 스크리닝이 동일한 데이터에 대해서도 점수가 크게 변동하는 비결정성을 보이며 채용 과정에서 운에 의한 탈락 위험을 초래할 수 있음이 밝혀졌습니다.

이 글의 핵심 포인트

1HackerRank 오픈소스 ATS 실행 시 동일 이력서 점수가 66~99점으로 크게 변동함
2기술 스킬 점수는 비교적 일정했으나, 프로젝트 평가 항목에서 높은 변동성이 관찰됨
3Temperature를 0으로 설정하거나 모델을 Gemini로 교체해도 비결정성 문제는 지속됨
4경력 점수 산정 기준이 모호하여 인턴십 경험만으로도 만점을 받는 등 변별력 부족 문제 발생
5AI 스크리닝이 지원자의 품질을 가리기보다 운에 의한 필터링 장치로 작동할 위험 존재

이 글에 대한 공공지능 분석

왜 중요한가?

채용의 핵심 가치인 '공정성'과 '일관성'이 AI 도입으로 인해 오히려 훼손될 수 있다는 기술적 한계를 보여줍니다. LLM 기반 자동화 도구가 단순한 효율화를 넘어, 지원자의 역량을 왜곡할 수 있는 구조적 리스크를 내포하고 있음을 경고합니다.

어떤 배경과 맥락이 있나?

최근 기업들은 대량의 지원자를 처리하기 위해 LLM을 활용한 ATS(채용 관리 시스템) 도입을 가속화하고 있습니다. 하지만 LLM 특유의 확률적 추론 방식은 입력값이 같더라도 출력값의 변동성을 유발하는 비결정성 문제를 안고 있습니다.

업계에 어떤 영향을 주나?

개발자 채용 시장에서 AI 스크리닝에 대한 불신이 커질 수 있으며, 기업들은 단순 점수화보다는 다각도의 검증 프로세스를 재설계해야 하는 과제에 직면하게 될 것입니다. 특히 프로젝트의 질을 평가하는 기준이 모호할 경우 우수한 인력 유실로 이어질 수 있습니다.

한국 시장에 어떤 시사점이 있나?

AI 기반 채용 솔루션을 개발하거나 도입하려는 한국 스타트업들은 모델의 결정성(Determinism) 확보와 평가 지표의 정교화에 집중해야 합니다. 단순한 'vibe-check'식 평가를 넘어, 결과의 재현성을 보장할 수 있는 프롬프트 엔지니어링과 검증 로직이 필수적입니다.

이 글에 대한 큐레이터 의견

AI 기반 채용 자동화는 운영 비용을 획기적으로 줄여주는 강력한 기회이지만, 현재의 기술 수준으로는 '효율적인 필터'가 아닌 '불확실한 도박'이 될 위험이 큽니다. 특히 프로젝트 경험이나 경력의 깊이를 판단하는 영역에서 발생하는 높은 변동성은 채용 담당자에게 심각한 신뢰도 문제를 야기할 수 있습니다.

창업자들은 AI 스크리닝을 도입할 때, 이를 최종 결정 도구가 아닌 '1차 분류를 위한 보조 도구'로 한정 짓는 전략적 접근이 필요합니다. 기술 스킬 체크와 같은 정형화된 데이터 추출에는 적극 활용하되, 주관적 판단이 개입되는 프로젝트 평가 등은 인간의 검토나 더 정교한 구조화된 테스트를 병행하는 트레이드오프를 고려해야 합니다. 만약 AI의 변동성을 제어하지 못한 채 이를 전적으로 신뢰한다면, 기업은 장기적으로 최고의 인재를 놓치는 '역선택'의 비용을 치르게 될 것입니다.

원문 보기 →