AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

AI 모델 관련 글 — 18 페이지

0
Show HN: "Be horse." – M2 Air에서 구동하는 디퓨전 언어 모델
M2 MacBook Air라는 제한된 하드웨어 환경에서 단 2시간 만에 학습된 디퓨전 언어 모델(DLM)의 구현 사례를 소개합니다. 기존 GPT와 같은 자기회귀(Autoregressive) 방식의 순차적 디코딩 한계를 넘어, 병렬 처리를 통한 추론 속도 혁신의 가능성을 보여줍니다.
Show HN: "Be horse." – a diffusion language model on an M2 Air↗boesch.dev
Hacker News Show14일 전공공지능 분석AI 모델
1
Show HN: Phase Router – MoE를 위한 용량 인지 라우팅
MoE(Miستure-of-Experts) 모델의 효율성을 극대화하기 위해, 전문가(Expert)의 용량을 인지하여 토큰 손실을 최소화하는 Rust 기반의 'Phase Router' 알고리즘이 공개되었습니다. 기존 해시 라우팅 대비 토큰 드롭을 10~19% 줄여 연산 자원의 낭비를 방지하고 모델의 품질을 높이는 것이 핵심입니다.
Show HN: Phase Router – capacity-aware routing for MoE↗github.com
Hacker News Show14일 전공공지능 분석AI 모델
2
인간 창의성 벤치마크: 창의적 작업에서 생성형 AI 평가하기
인간 창의성 벤치마크(HCB)는 생성형 AI 평가 시 전문가들의 의견 일치(수렴)와 불일치(발산)를 구분하여, AI의 '취향'과 '조절 가능성'을 측정하는 새로운 프레임워크를 제시합니다. 기존 벤치마크가 전문가의 이견을 오류로 취급하여 AI를 평균적인 결과물로 수렴시키는 '모드 붕괴(Mode Collapse)' 문제를 지적하며, 진정한 창의적 도구는 기술적 정확도를 넘어 다양한 미적 방향성을 제어할 수 있어야 한다고 강조합니다.
The Human Creativity Benchmark – Evaluating Generative AI in Creative Work↗contralabs.com
Hacker News14일 전공공지능 분석AI 모델
3
Granite 4.1: IBM의 8B 모델, 32B MoE와 일치
IBM이 출시한 Granite 4.1 모델은 8B 파라미터의 단순한 구조만으로 기존 32B MoE(Mixture of Experts) 모델의 성능을 압도하며 효율성의 새로운 기준을 제시했습니다. 이는 모델의 크기를 키우는 대신 15조 개의 토큰에 대한 정교한 데이터 품질 관리와 5단계에 걸친 전략적 학습 파이프라인에 집중한 결과입니다.
Granite 4.1: IBM's 8B Model Matching 32B MoE↗firethering.com
Hacker News14일 전공공지능 분석AI 모델
4
올라마 vs LM Studio vs Jan: 2026년, 어떤 로컬 AI 러너가 승리할까?
로컬 환경에서 LLM을 실행하기 위한 세 가지 핵심 도구인 Ollama, LM Studio, Jan의 설계 철학과 성능을 비교 분석합니다. 개발자 중심의 Ollama, 연구자용 LM Studio, 오픈소스 지향적 Jan의 차이점을 통해 사용자의 목적에 맞는 최적의 도구 선택 가이드를 제공합니다.
Ollama vs LM Studio vs Jan: Which Local AI Runner Wins in 2026?↗dev.to
Dev.to AI14일 전공공지능 분석AI 모델
5
일론 머스크, Grok 학습에 OpenAI 모델 사용 확인
일론 머스크는 법정 증언을 통해 xAI의 Grok 모델 성능을 개선하기 위해 OpenAI의 모델을 활용한 '모델 증기(Model Distillation)' 기술을 사용했음을 일부 인정했습니다. 이는 대형 모델의 지식을 소형 모델로 전이하는 기술적 관행과 이를 둘러싼 지식재산권 침해 논란 사이의 법적 경계가 핵심 쟁점입니다.
Elon Musk confirms xAI used OpenAI’s models to train Grok↗theverge.com
The Verge14일 전공공지능 분석AI 모델
6
일론 머스크, xAI가 Grok 훈련에 OpenAI 모델 사용했다고 증언
일론 머스크가 xAI의 Grok 훈련 과정에서 OpenAI의 모델을 활용한 '증류(Distillation)' 기술을 사용했음을 법정에서 시인했습니다. 이는 AI 업계 내에서 상위 모델의 출력을 활용해 효율적인 모델을 만드는 기술이 공공연한 관행임을 시사하며, 빅테크 간의 기술적 경계가 모호해지고 있음을 보여줍니다.
Elon Musk testifies that xAI trained Grok on OpenAI models↗techcrunch.com
TechCrunch14일 전공공지능 분석AI 모델
7
장기적인 혜택, Trust가 제공하는 가치
앤스로픽(Anthropic)이 AI의 거대한 사회적 외부 효과(Externalities)에 대응하기 위해 '장기적 혜택 신탁(LTBT)'이라는 새로운 거버넌스 구조를 도입합니다. 이 독립 기구는 이사회 일부를 선임하거나 해임할 권한을 가지며, 기업의 상업적 성공과 인류의 장기적 안전 사이의 균형을 맞추는 것을 목표로 합니다.
The Long-Term Benefit Trust↗anthropic.com
Anthropic Blog14일 전공공지능 분석AI 모델
8
2초 분량의 샘플을 둘러싼 25년간의 싸움
독일 밴드 크라프트베르크의 2초 분량 샘플 사용을 둘러싼 25년간의 저작권 분쟁이 유럽 사법재판소(ECJ)의 '파스티슈(pastiche)' 예외 인정 판결로 종지부를 찍을 전망입니다. 이번 판결은 음악 샘플링과 창작물의 재사용에 대한 유럽 저작권법의 새로운 기준을 제시합니다.
A 25-Year-Fight over a 2-Second Sample↗plagiarismtoday.com
Hacker News15일 전공공지능 분석AI 모델
9
내 경고를 이제 들으시겠습니까?
미국 국립과학아카데미(NAS)에 선정된 Scott Aaronson 교수가 2029년경 결함 허용 양자 컴퓨터가 기존 암호 체계를 무력화할 수 있다는 강력한 경고를 전달하며, 양자 기술 패권 경쟁의 전략적·윤리적 쟁점을 다룹니다.
Will you heed my warnings now?↗scottaaronson.blog
Hacker News15일 전공공지능 분석AI 모델
10
정렬 whack-a-mole: Finetuning 과정에서 LLM에 저작권 도서 내용이 떠오르다
LLM 파인튜닝 과정에서 특정 저자의 문체를 학습시키려 할 때, 의도치 않게 저작권이 있는 도서의 내용이 그대로 출력되는 '문구 암기(Verbatim Recall)' 현상이 발생한다는 연구 결과가 발표되었습니다. 이는 모델의 정렬(Alignment)을 위한 학습이 저작권 침해라는 새로운 법적 리스크를 유발할 수 있음을 경고합니다.
Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs↗github.com
Hacker News15일 전공공지능 분석AI 모델
11
DeepSeek V4 공개: 1.6T 파라미터, 1M 컨텍스트, 그리고 기록적인 가격
DeepSeek가 1.6T 파라미터 규모의 차세대 모델인 DeepSeek V4를 공개했습니다. 하이브리드 어텐션 아키텍처와 FP4 양자화 기술을 통해 100만 토큰의 초장문 컨텍스트를 지원하면서도 추론 비용과 VRAM 사용량을 획기적으로 낮춘 것이 핵심입니다.
DeepSeek V4 Released: 1.6T Parameters, 1M Context, and Floor-Shattering Prices↗dev.to
Dev.to AI15일 전공공지능 분석AI 모델
12
내 작업의 안전을 AI 플랫폼에 맡기지 않는 이유
AI 플랫폼의 데이터 보유 정책 변경으로 인해 사용자의 소중한 작업 기록(코드 리뷰, 전략 등)이 삭제될 위험이 있습니다. 따라서 AI와의 대화 내용을 플랫폼에만 의존하지 말고, 즉시 로컬 환경으로 내보내어 데이터 소유권을 확보하는 전략이 필요합니다.
Why I Don't Trust AI Platforms to Keep My Work Safe↗dev.to
Dev.to AI15일 전공공지능 분석AI 모델
13
2026년 최고의 LLM 관측 플랫폼 10선
LLM 서비스가 실험 단계를 넘어 실제 운영 단계로 진입함에 따라, 환각(Hallucination)과 비용 급증을 관리할 수 있는 'LLM 옵저버빌리티(Observability)'가 필수적인 요소로 부상하고 있습니다. 본 기사는 단순 모니터링을 넘어 실시간 제어와 비용 관리가 가능한 차세대 플랫폼들의 트렌드와 주요 솔루션을 분석합니다.
Top 10 LLM Observability Platforms in 2026↗dev.to
Dev.to DevOps15일 전공공지능 분석AI 모델
14
오늘 이미지 생성하다가 미처 발견하지 못했던 사실을 알아차렸습니다: 저는...
AI 이미지 생성의 본질은 모델의 렌더링에서 끝나는 것이 아니라, 사용자의 시각적 경험과 물리적 맥락을 통해 완성된다는 철학적 통찰을 담고 있습니다. 생성된 데이터는 수치와 픽셀의 집합일 뿐이며, 인간의 감정과 환경이 결합될 때 비로소 하나의 완성된 작품이 된다는 점을 강조합니다.
I generated an image today and noticed something I'd missed before: I will ne...↗dev.to
Dev.to OpenSource15일 전공공지능 분석AI 모델
15
2026년 최고의 로컬 LLM 툴: Ollama vs LM Studio vs Jan vs KoboldCpp — AI를 비공개로 실행하기
2026년 로컬 LLM 실행 도구인 Ollama, LM Studio, Jan, KoboldCpp 등을 비교 분석하며, 비용 절감과 데이터 보안을 위해 로컬 AI 활용이 필수적인 시대임을 강조합니다. 사용자의 목적(개발자, 일반인, 파워 유저)에 따른 최적의 도구 선택 가이드와 하드웨어 요구사항을 제시합니다.
Best Local LLM Tools in 2026: Ollama vs LM Studio vs Jan vs KoboldCpp — Run AI Privately↗dev.to
Dev.to OpenSource15일 전공공지능 분석AI 모델
16
Claude.ai 및 API 접속 불가 [해결 완료]
Anthropic의 Claude.ai 및 API 서비스가 일시적으로 중단되었다가 복구되었습니다. 이번 장애는 Claude API, Console, Claude Code 등 Claude 생태계 전반에 영향을 미쳤으며, 현재는 패치가 적용되어 정상화된 상태입니다.
Claude.ai and API unavailable [fixed]↗status.claude.com
Hacker News15일 전공공지능 분석AI 모델
17
2026년 코딩에 가장 적합한 LLM: 실제 사용 기반 순위
2026년 개발 워크플로우에 최적화된 LLM별 용도와 비용 효율성을 분석한 가이드입니다. 복잡한 리팩토링은 Claude Opus 4.7, 신규 프로젝트는 GPT-5.5, 비용 절감은 DeepSeek V4 Pro, 멀티모멀 디버깅은 Gemini 3.1 Pro가 각각의 강점을 가집니다.
Best LLM for Coding in 2026: Ranked by Real Use↗dev.to
Dev.to AI15일 전공공지능 분석AI 모델
18
시그맵 생태계 완성
SigMap 프로젝트가 컨텍스트 추출 도구, 상세 문서, 그리고 대규모 벤치마크 스위트를 모두 갖춘 완전한 생태계로 완성되었습니다. 이 생태계는 30개 이상의 언어를 지원하며, 405개의 저장소 분석 데이터를 통해 AI 모델의 코드 이해 능력을 정밀하게 평가할 수 있는 표준을 제시합니다.
Complete SigMap Ecosystem↗dev.to
Dev.to OpenSource15일 전공공지능 분석AI 모델
19
Mistral Medium 3.5 128B, GPU 메모리 부족 없이 실행하는 방법
Mistral Medium 3.5 128B와 같은 초거대 모델을 로컬 또는 자체 서버에서 실행할 때 발생하는 VRAM 부족(OOM) 문제를 해결하기 위한 실전 가이드를 다룹니다. FP8 양자화 활용, vLLM의 텐서 병렬화(Tensor Parallelism), 컨텍스트 길이 제한 및 추론 노력(Reasoning Effort) 조절을 통해 효율적인 모델 서빙 전략을 제시합니다.
How to Serve Mistral Medium 3.5 128B Without Running Out of GPU Memory↗dev.to
Dev.to DevOps15일 전공공지능 분석AI 모델
20
연구: 왜 Bifrost (Maxim AI / H3 Labs Inc.)가 미국 인디 개발자를 노리는 API 키 수집 서비스의 정확한 패턴에 부합하는가
Maxim AI(H3 Labs Inc.)의 AI 게이트웨이 서비스인 'Bifrost'가 개발자들에게 소액의 테스트 비용을 제안하며 API 키를 수집하는 'API 키 하베스팅' 패턴을 보이고 있다는 폭로가 나왔습니다. 이 서비스는 게이트웨이 구조를 통해 사용자의 모든 트래픽과 인증 키를 통제할 수 있는 구조적 위험성을 내포하고 있습니다.
Research: Why Bifrost (Maxim AI / H3 Labs Inc.) Fits the Exact Pattern of API Key Harvesting Services Targeting American Indie Devs↗dev.to
Dev.to OpenSource15일 전공공지능 분석AI 모델
21
CCmeter: 클로드 성능을 정확히 분석하는 오픈소스 대시보드
CCmeter는 Anthropic의 Claude Code 사용 중 발생하는 비용 누수와 캐시 효율성을 분석하는 오픈소스 로컬 대시보드입니다. 최근 Anthropic의 프롬프트 캐시 TTL(유지 시간) 단축으로 인해 발생할 수 있는 30~60%의 비용 상승 문제를 정밀하게 추적하고 해결책을 제시합니다.
CCmeter: The Open-Source Dashboard That Reveals Exactly Why Your Claude↗dev.to
Dev.to OpenSource15일 전공공지능 분석AI 모델
22
Show HN: LLM의 결정론적 출력 테스트를 위한 새로운 벤치마크
LLM이 생성하는 구조화된 데이터(JSON 등)의 단순 형식을 넘어, 실제 데이터 값의 정확성과 신뢰도를 측정하기 위한 새로운 벤치마크인 SOB(Structured Output Benchmark)가 공개되었습니다. 이 벤치마크는 텍스트, 이미지, 오디오 등 다양한 모달리티에서 모델이 얼마나 정확한 값을 추출하고 구조를 유지하는지를 정밀하게 평가합니다.
Show HN: A new benchmark for testing LLMs for deterministic outputs↗interfaze.ai
Hacker News15일 전공공지능 분석AI 모델
23
미스트랄 미디엄 3.5
미스트랄(Mistral)이 새로운 플래그십 모델인 'Mistral Medium 3.5'와 클라우드 기반의 원격 코딩 에이전트 시스템인 'Vibe'를 공개했습니다. 이번 발표의 핵심은 코딩 작업을 로컬 환경에서 클라우드로 옮겨, 개발자가 자리를 비운 사이에도 에이전트가 병렬로 복잡한 코딩 작업을 수행하고 완료 시 알림을 주는 '비동기적 개발 환경'의 구축입니다.
Mistral Medium 3.5↗mistral.ai
Hacker News15일 전공공지능 분석AI 모델