AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
최신 업데이트 ·총 24건
AI 모델 관련 글 — 79 페이지
- 9
MegaTrain: 단일 GPU에서 100B+ 파라미터 LLM의 Full Precision 학습
MegaTrain은 단일 GPU 환경에서 100B(1,000억 개) 이상의 파라미터를 가진 대규모 언어 모델(LLM)을 Full Precision(전정밀도)으로 학습할 수 있는 메모리 중심 시스템입니다. GPU를 연산 엔진으로만 활용하고 파라미터와 옵티마이저 상태를 CPU 메모리에 저장하는 방식을 통해 GPU VRAM의 한계를 극복합니다.
MegaTrain: Full Precision Training of 100B+ Parameter LLMs on a Single GPU↗arxiv.org
- 12
Karpathy의 LLM Wiki가 옳았다. 단지 로컬에서 실행하고 싶지 않았을 뿐이다.
단순히 문서를 검색하는 RAG(검색 증강 생성)를 넘어, LLM 에이전트가 스스로 지식을 업데이트하고 관리하는 'LLM Wiki' 패턴의 가치를 조명합니다. 또한, 로컬 환경의 한계(동기화 및 접근성 문제)를 극복하기 위해 MCP(Model Context Protocol)를 활용하여 모든 LLM 클라이언트가 공유할 수 있는 클라우드 기반 지식 저장소인 'Hjarni'의 등장을 설명합니다.
Karpathy's LLM Wiki is right. I just didn't want to run it locally.↗dev.to
- 13
Meta의 Superintelligence Lab, 첫 공개 모델 Muse Spark 공개
메타가 새로운 'Superintelligence Lab'의 첫 모델인 'Muse Spark'를 공개하며, 기존 Llama 중심의 오픈 소스 전략에서 벗어나 독자적인(Proprietary) 모델 개발로의 대전환을 선언했습니다. 이 모델은 멀티 에이전트 추론 기술인 'Contemplating' 모드와 메타의 방대한 소셜 미디어 데이터를 결합하여 개인화된 초지능을 구현하는 것을 목표로 합니다.
Meta's Superintelligence Lab unveils its first public model, Muse Spark↗arstechnica.com
- 17
LLM의 비정형 응답을 신뢰할 수 있는 JSON 데이터로 변환하기 위한 두 가지 핵심 전략인 OpenAI Structured Outputs와 Zod를 비교 분석합니다. 또한, Vercrypt AI SDK를 통해 모델별 최적의 검증 방식을 자동으로 적용하는 하이브리드 접근법을 제시합니다.
LLM의 비정형 응답을 신뢰할 수 있는 JSON 데이터로 변환하기 위한 두 가지 핵심 전략인 OpenAI Structured Outputs와 Zod를 비교 분석합니다. 또한, Vercrypt AI SDK를 통해 모델별 최적의 검증 방식을 자동으로 적용하는 하이브리드 접근법을 제시합니다.
OpenAI Structured Outputs vs Zod: which to use for LLM response validation in 2026↗dev.to
- 19
Show HN: Apple Silicon용 Gemma 4 Multimodal Fine-Tuner
Apple Silicon(Mac) 환경에서 Gemma 4 모델을 텍스트, 이미지, 오디오 등 멀티모달 데이터로 미세 조정(Fine-tuning)할 수 있는 전용 툴킷이 공개되었습니다. NVIDIA GPU 없이도 로컬 Mac에서 LoRA를 활용해 효율적인 학습이 가능하며, 클라우드(GCS/BiglarQuery) 데이터를 스트리밍하여 로컬 저장 공간의 한계를 극복할 수 있습니다.
Show HN: Gemma 4 Multimodal Fine-Tuner for Apple Silicon↗github.com
- 22
새로운 Anthropic 모델, 모든 주요 운영 체제와 웹 브라우저에서 보안 문제 발견
Anthropic이 주요 운영 체제와 웹 브라우저에서 수천 개의 고위험 보안 취약점을 자율적으로 찾아낸 새로운 AI 모델 'Claude Mythos Preview'를 공개했습니다. 이 모델은 'Project Glasswing'의 일환으로, 보안 공격 방어를 위해 선정된 글로벌 테크 기업 및 파트너사들에게만 제한적으로 제공됩니다.
A new Anthropic model found security problems ‘in every major operating system and web browser’↗theverge.com

















