더러운 데이터: 어떻게 찾고 무엇을 해야 할까
(dev.to)AI 모델의 신뢰성을 결정하는 데이터 품질을 위해 head()로 포착되지 않는 중복과 결측치 등 숨겨진 오류를 체계적으로 찾아 정제하는 방법을 제시하며, 초기 단계의 데이터 거버넌스 구축이 기술 부채와 서비스 붕괴를 막는 필수 과제임을 강조합니다.
이 글의 핵심 포인트
- 1`head()` 함수는 데이터의 상단 일부만 보여주므로 깊숙이 숨겨진 오류를 발견하기 어렵다
- 2데이터 감사(Audit)의 첫 단계는 Shape, Dtypes, Null counts, Duplicates를 확인하는 것이다
- 3중복 데이터 제거는 다른 정제 작업보다 우선적으로 수행되어야 데이터 오염을 막을 수 있다