AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
최신 업데이트 ·총 24건
AI 모델 관련 글 — 57 페이지
- 0
Mistral Medium 3.5 128B, GPU 메모리 부족 없이 실행하는 방법
Mistral Medium 3.5 128B와 같은 초거대 모델을 로컬 또는 자체 서버에서 실행할 때 발생하는 VRAM 부족(OOM) 문제를 해결하기 위한 실전 가이드를 다룹니다. FP8 양자화 활용, vLLM의 텐서 병렬화(Tensor Parallelism), 컨텍스트 길이 제한 및 추론 노력(Reasoning Effort) 조절을 통해 효율적인 모델 서빙 전략을 제시합니다.
How to Serve Mistral Medium 3.5 128B Without Running Out of GPU Memory↗dev.to - 1
연구: 왜 Bifrost (Maxim AI / H3 Labs Inc.)가 미국 인디 개발자를 노리는 API 키 수집 서비스의 정확한 패턴에 부합하는가
Maxim AI(H3 Labs Inc.)의 AI 게이트웨이 서비스인 'Bifrost'가 개발자들에게 소액의 테스트 비용을 제안하며 API 키를 수집하는 'API 키 하베스팅' 패턴을 보이고 있다는 폭로가 나왔습니다. 이 서비스는 게이트웨이 구조를 통해 사용자의 모든 트래픽과 인증 키를 통제할 수 있는 구조적 위험성을 내포하고 있습니다.
Research: Why Bifrost (Maxim AI / H3 Labs Inc.) Fits the Exact Pattern of API Key Harvesting Services Targeting American Indie Devs↗dev.to
- 3
Show HN: LLM의 결정론적 출력 테스트를 위한 새로운 벤치마크
LLM이 생성하는 구조화된 데이터(JSON 등)의 단순 형식을 넘어, 실제 데이터 값의 정확성과 신뢰도를 측정하기 위한 새로운 벤치마크인 SOB(Structured Output Benchmark)가 공개되었습니다. 이 벤치마크는 텍스트, 이미지, 오디오 등 다양한 모달리티에서 모델이 얼마나 정확한 값을 추출하고 구조를 유지하는지를 정밀하게 평가합니다.
Show HN: A new benchmark for testing LLMs for deterministic outputs↗interfaze.ai
- 5
HERMES.md: Anthropic 오류로 200달러 추가 요금 발생, 환불 거부
Anthropic의 Claude Code 사용 중 특정 문자열('HERMES.md')이 포함된 커밋 메시지가 있으면, 기존 Max 플랜의 쿼터를 사용하지 않고 '추가 사용량(extra usage)'으로 비용을 청구하는 버그가 발견되었습니다. 이로 인해 사용자는 의도치 않게 200달록러 이상의 추가 비용을 지불하는 피해를 입었습니다.
HERMES.md: Anthropic bug causes $200 extra charge, refuses refund↗github.com
- 10
Lemonade v10.3: 자체 GPU에서 로컬 LLM, 이미지 생성, 음성 처리 무료 실행
오픈소스 로컬 AI 서버인 Lemonade가 v10.3으로 업데이트되었습니다. 이번 업데이트는 Tauri 전환을 통한 앱 경량화, 멀티모달 처리를 위한 OmniRouter 도입, AMD ROCm 7 지원을 핵심으로 하며, 클라우드 API 비용 절감과 데이터 보안을 위한 강력한 대안을 제시합니다.
Lemonade v10.3: Run Local LLMs, Image Gen, and Speech on Your Own GPU for Free↗dev.to
- 17
Cohere, 5.42 WER 음성 모델 오픈소스 공개 - 실제 오디오 테스트 결과 확인
Cohere가 Whisper-large-v3보다 높은 정확도와 빠른 속도를 자랑하는 새로운 오픈소스 음성 인식(ASR) 모델 'Cohere Transcribe'를 공개했습니다. 깨끗한 오디오와 실시간 스트리밍 환경에서는 우위를 점하지만, 다국어 혼용(Code-switched)이나 저음질 전화 통화 환경에서는 여전히 Whisper가 강점을 보입니다.
Cohere just open-sourced a 5.42 WER speech model - here's what testing it on real audio showed↗dev.to
- 22
Claude 시스템 프롬프트 버그로 사용자 자금 낭비 및 관리 에이전트 손상 발생
Anthropic의 Claude Code CLI에서 시스템 프롬프트 주입 버거로 인해, 정상적인 코드 수정 요청을 AI 에이전트가 거부하는 현상이 발생하고 있습니다. 이 버그는 악성코드 방지 문구를 모든 파일 읽기 작업에 강제 적용함으로써, 멀티 에이전트 워크플로우의 신뢰성을 무너뜨리고 불필요한 토큰 비용을 발생시키고 있습니다.
Claude system prompt bug wastes user money and bricks managed agents↗github.com
- 23
프리스마, 570개의 모델에서 멈췄다. 나는 제너레이터를 500ms 안에 재구축했다.
Prisma가 대규모 스키마(570개 이상의 모델)에서 V8 엔진의 문자열 길이 제한으로 인해 작동을 멈추는 치명적인 한계를 발견하고, 이를 해결하기 위해 정규표현식을 활용한 초경량 커스텀 제너레이터를 구축한 사례를 다룹니다. 전체 클라이언트를 재생성하는 대신 변경된 부분만 패치하는 전략을 통해 생성 시간을 500ms 이내로 단축했습니다.
Prisma Broke at 570 Models. I Rebuilt Its Generator in 500ms.↗dev.to














