Paperless-ngx: API를 원하는 개발자를 위한 자체 호스팅 문서 관리
(dev.to)
Paperless-ngx는 강력한 API와 OCR 기능을 갖춘 자체 호스팅 문서 관리 시스템으로, 비정형 문서를 기계가 읽을 수 있는 데이터로 변환하여 LLM 기반의 RAG 워크플로우를 위한 핵심 인프라를 제공함으로써 데이터 주권과 자동화된 AI 파이프라인 구축을 가능하게 합니다.
이 글의 핵심 포인트
- 1Docker Compose 기반의 5개 컨테렉너 스택(Django, Redis, Postgres, Gotenberg, Tika) 운영
- 2ocrmypdf 및 Tesseract를 활용하여 텍스트 선택이 가능한 검색 가능한 PDF 생성
- 3