Marginalia 검색용 NSFW 필터
(marginalia.nu)
Marginalia Search는 API 소비자를 위해 빠르고 CPU 친화적인 NSFW 필터를 개발 중이다. 최신 트랜스포머 모델은 속도 제약으로 배제하고, Fasttext로 시도했으나 학습 데이터의 편향 문제로 초기 성능이 미흡했다. 현재는 오픈소스 LLM을 활용해 수만 개의 샘플 데이터를 자동 라벨링하고, 이를 바탕으로 경량 모델을 구축하려는 실용적인 접근 방식을 택하고 있다.
이 글의 핵심 포인트
- 1Marginalia Search는 실시간 검색 엔진을 위한 NSFW 필터 개발 중이며, 속도와 CPU 친화성이 핵심 제약 조건이다.
- 2최신 트랜스포머 모델 및 대규모 LLM은 속도 문제로 프로덕션 적용이 어렵다고 판단했다.
- 3데이터 라벨링을 위해 오픈소스 LLM (ollama, qwen3.5)을 사용하여 약 10,000개의 샘플을 자동 생성했다.