LLM이 TLA+로 현실 세계 시스템을 모델링할 수 있을까?
(sigops.org)
SysMoBench 연구 결과, LLM은 TLA+를 이용한 분산 시스템 모델링 시 문법은 통과하나 실제 로직의 일치성과 불변성 검증에서는 40%대의 낮은 정확도를 보이며 '텍스트북 환각'에 따른 자동화된 검증 도구로서의 신뢰성 한계를 드러냈다.
이 글의 핵심 포인트
- 1LLM은 TLA+ 문법 및 실행 단계는 잘 통과하지만, 일치성(46%)과 불변성(41%) 점수는 매우 낮음
- 2LLM의 주요 실패 패턴: 실제 시스템에 없는 상태를 생성하거나(Hallucination), 실제 가능한 상태를 누락함
- 3ZooKeeper 사례: LLM이 맵(Map) 구조를 집합(Set)으로 잘못 모델링하여 실제와 다른 상태를 생성함