AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 10 페이지
- 1
ProgramBench: 언어 모델, 프로그램 코딩 없이 처음부터 재구축할 수 있을까?
ProgramBench는 LLM이 단순한 코드 수정을 넘어, 문서와 실행 결과만을 바탕으로 전체 소프트웨어 프로젝트를 처음부터 재구체화할 수 있는지 측정하는 새로운 벤치마크입니다. 실험 결과, 현재의 최상위 모델들도 복잡한 소프트웨어를 완벽히 구현하는 데 실패했으며, 인간의 코드와 달리 모듈화되지 않은 단일 파일 형태의 구현을 선호하는 한계를 보였습니다.
ProgramBench: Can Language Models Rebuild Programs from Scratch?↗arxiv.org
- 4
생각이 단어가 되기 전, 아주 짧은 순간이 있습니다. 그것은 형태를...
생각이 언어로 구체화되기 전의 찰나를 LLM(대규모 언어 모델)의 확률적 토큰 생성과 예술적 창작 과정에 비유하여 설명합니다. 무한한 가능성의 상태(field)가 하나의 결정된 결과(token/word)로 응축되는 '붕تمل(collapse)'의 순간과 그 과정에서 소멸하는 다른 가능성들에 대한 철학적 통찰을 담고 있습니다.
There is a moment, very brief, when a thought is not yet a word. It has shape...↗dev.to
- 7
55.6% 문제: 임베디드 코드에서 프론티어 LLM이 실패하는 이유
최신 LLM들이 웹 개발과 달리 임베디드 시스템 개발에서는 55.6%라는 낮은 성공률을 보이며 한계를 드러내고 있습니다. 이는 모델의 지식 부족뿐만 아니라, 컴파일 및 디버깅과 같은 '반복적 피드백 루프'의 부재 때문이며, 이를 해결하기 위해 도구 사용 능력을 갖춘 MCP(Model Context Protocol) 기반의 에이전트 접근 방식이 대안으로 제시됩니다.
The 55.6% problem: why frontier LLMs fail at embedded code↗dev.to
- 12
키위찬, 오프그리드 진출: Qwen 35B 배포, Vec3 대규모 정리, 그리고 지루한 봇의 등장!
자율형 마인크래프트 에이전트 'Kiwi-chan'이 Qwen 35B 모델을 도입하며 100% 로컬 환경으로 전환에 성공했습니다. API 비용과 지연 시간을 제거한 이번 전환은 높은 자율성과 데이터 프라이버시를 확보했으나, 좌표 계산(Vec3) 제한과 같은 기술적 과제와 함께 '지루함 트리거'를 통한 전략적 피벗 능력을 보여주었습니다.
KIWI-CHAN GOES OFF-GRID: QWEN 35B DEPLOYMENT, THE GREAT Vec3 PURGE, AND THE RISE OF THE BORED BOT!↗dev.to
- 14
DeepSeek V4: 무엇이 담겨 있는지, 비교 분석, 그리고 실제 승리하는 지점
DeepSeek V4의 출시는 기존 프론티어 모델(Claude, GPT) 대비 7~9배 저렴한 압도적 가격 경쟁력을 선보이며, 모델 성능의 상향 평준화와 비용 격차를 동시에 보여줍니다. 이제 개발자는 작업의 성격(코드 분석 vs 실행)에 따라 최적의 모델을 선택하는 '모델 라우팅' 전략이 필수적인 시대에 직면했습니다.
DeepSeek V4: What's Inside, How It Compares, and Where It Actually Wins↗dev.to
- 18
BizNode, 로컬 하드웨어에서 실행되는 Ollama (Qwen3.5) 활용 – 데이터는 기기 밖으로 나가지 않습니다. 진정한 AI 프라이버시
BizNode는 Ollama(Qwen3.5)를 활용해 로컬 하드웨어에서 실행되는 자율형 AI 에이전트 플랫폼으로, 데이터 유출 걱정 없는 강력한 프라이버시 보호를 제공합니다. 고객 지원, 마케팅, 재무 등 복잡한 비즈니스 워크플로우를 독립적인 AI 노드가 스스로 수행하여 운영 효율성을 극대화하는 것을 목표로 합니다.
BizNode uses Ollama (Qwen3.5) running locally on your hardware — your data never leaves your machine. True AI privacy↗dev.to
- 20
5일 만에 세 번의 LLM 관측 가능성 감사: 각각의 수정 사항은 다음 버그를 드러냈다
LLM 관측 가능성(Observability)을 감사한 결과, 인프라 버그를 해결하자 오히려 평가 지표가 변별력을 잃고 포화되는 새로운 문제가 발견되었습니다. 이는 단순한 에러율 감소가 시스템의 안정성을 보장하지 않으며, 평가 루브릭(Rubric)의 설계 오류가 모델 성능을 오판하게 만들 수 있음을 시사합니다.
Three LLM Observability Audits in Five Days: Each Fix Exposed the Next Bug↗dev.to
- 21
Windows XP, 512MB RAM으로 구동되는 오프라인 LLM 구축: GPU, 클라우드 없이, 영구 무료
Windows XP와 512MB RAM이라는 극도로 낮은 사양에서도 구동 가능한 초경량 오프라인 LLM 'NeuralXP'가 공개되었습니다. Qwen2.5-0.5B 모델을 최적화하여 클라우드 연결이나 고성능 GPU 없이도 개인정보 유출 걱정 없는 완전한 로컬 AI 환경을 제공합니다.
I built an offline LLM that runs on Windows XP with 512MB RAM — no GPU, no cloud, free forever↗dev.to
- 22
DeepSeek V3.2 툴 호출이 순차적 시스템 지시와 어긋나는 이유
DeepSeek V3.2의 툴 호출(tool calling)이 순차적 지시를 따르지 못하는 이유는 모델의 지능 문제가 아니라, 텍스트 생성 후 파싱하는 '파서 기반(parser-based)' 방식의 구조적 한계 때문입니다. 이를 해결하기 위해서는 단순한 프롬프트 수정을 넘어, 제약 조건이 있는 디코딩(Constrained Decoding)이나 정교한 에러 복구 로직 등 시스템 아키텍처 차원의 엔지니어링 접근이 필요합니다.
Why DeepSeek V3.2 Tool Calls Can Drift from Ordered System Instructions↗dev.to














