ERNIE-Image: 포스터, 만화, 텍스트 풍부한 시각 콘텐츠에 최적화된 텍스트-이미지 모델
(dev.to)
바이두가 공개한 ERNIE-Image는 단순한 실사 이미지 생성을 넘어, 텍스트 렌더링, 레이아웃 구조, 다중 패널 구성 등 '사용 가능한 시각 콘텐츠' 생성에 최적화된 모델입니다. Diffusion Transformer(DiT) 아키텍처를 기반으로 포스터, 만화, 인포그래픽 등 구조적 정보가 중요한 디자인 영역에서 압도적인 성능을 보여줍니다.
이 글의 핵심 포인트
- 1단순 실사화를 넘어 텍스트 렌더링, 레이아웃, 구조적 콘텐츠 생성에 최적화
- 2약 8B 파라미터 규모의 DiT(Diffusion Transformer) 아키텍처 및 프롬프트 인핸서 탑재
- 3