바이드우, '언리미티드 OCR' 오픈 소스 공개: 임의 길이 문서 처리를 위한 원샷 파싱
(dev.to)바이두가 문서 길이에 상관없이 단 한 번의 연산으로 구조를 파악하는 'Unlimited OCR'을 오픈 소스로 공개하며, 기존 OCR 방식의 고질적 문제였던 페이지 분할 및 병합 과정에서의 오류와 지연 시간을 획기적으로 해결할 수 있는 새로운 기술적 이정표를 제시했습니다.
이 글의 핵심 포인트
- 1바이두가 단일 패스로 무제한 길이의 문서를 처리하는 'Unlimited OCR' 오픈 소스 공개
- 2기존의 청킹(chunking) 및 스티칭(stitching) 과정 없이 긴 컨텍스트 비전 인코더 사용
- 3기존 2단계 파이프라인 대비 레이아웃 정확도 향상 및 약 3배 빠른 처리 속도 구현