AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
AI 모델 관련 글 — 18 페이지
- 2
인간 창의성 벤치마크: 창의적 작업에서 생성형 AI 평가하기
인간 창의성 벤치마크(HCB)는 생성형 AI 평가 시 전문가들의 의견 일치(수렴)와 불일치(발산)를 구분하여, AI의 '취향'과 '조절 가능성'을 측정하는 새로운 프레임워크를 제시합니다. 기존 벤치마크가 전문가의 이견을 오류로 취급하여 AI를 평균적인 결과물로 수렴시키는 '모드 붕괴(Mode Collapse)' 문제를 지적하며, 진정한 창의적 도구는 기술적 정확도를 넘어 다양한 미적 방향성을 제어할 수 있어야 한다고 강조합니다.
The Human Creativity Benchmark – Evaluating Generative AI in Creative Work↗contralabs.com
- 10
정렬 whack-a-mole: Finetuning 과정에서 LLM에 저작권 도서 내용이 떠오르다
LLM 파인튜닝 과정에서 특정 저자의 문체를 학습시키려 할 때, 의도치 않게 저작권이 있는 도서의 내용이 그대로 출력되는 '문구 암기(Verbatim Recall)' 현상이 발생한다는 연구 결과가 발표되었습니다. 이는 모델의 정렬(Alignment)을 위한 학습이 저작권 침해라는 새로운 법적 리스크를 유발할 수 있음을 경고합니다.
Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs↗github.com
- 15
2026년 최고의 로컬 LLM 툴: Ollama vs LM Studio vs Jan vs KoboldCpp — AI를 비공개로 실행하기
2026년 로컬 LLM 실행 도구인 Ollama, LM Studio, Jan, KoboldCpp 등을 비교 분석하며, 비용 절감과 데이터 보안을 위해 로컬 AI 활용이 필수적인 시대임을 강조합니다. 사용자의 목적(개발자, 일반인, 파워 유저)에 따른 최적의 도구 선택 가이드와 하드웨어 요구사항을 제시합니다.
Best Local LLM Tools in 2026: Ollama vs LM Studio vs Jan vs KoboldCpp — Run AI Privately↗dev.to
- 19
Mistral Medium 3.5 128B, GPU 메모리 부족 없이 실행하는 방법
Mistral Medium 3.5 128B와 같은 초거대 모델을 로컬 또는 자체 서버에서 실행할 때 발생하는 VRAM 부족(OOM) 문제를 해결하기 위한 실전 가이드를 다룹니다. FP8 양자화 활용, vLLM의 텐서 병렬화(Tensor Parallelism), 컨텍스트 길이 제한 및 추론 노력(Reasoning Effort) 조절을 통해 효율적인 모델 서빙 전략을 제시합니다.
How to Serve Mistral Medium 3.5 128B Without Running Out of GPU Memory↗dev.to - 20
연구: 왜 Bifrost (Maxim AI / H3 Labs Inc.)가 미국 인디 개발자를 노리는 API 키 수집 서비스의 정확한 패턴에 부합하는가
Maxim AI(H3 Labs Inc.)의 AI 게이트웨이 서비스인 'Bifrost'가 개발자들에게 소액의 테스트 비용을 제안하며 API 키를 수집하는 'API 키 하베스팅' 패턴을 보이고 있다는 폭로가 나왔습니다. 이 서비스는 게이트웨이 구조를 통해 사용자의 모든 트래픽과 인증 키를 통제할 수 있는 구조적 위험성을 내포하고 있습니다.
Research: Why Bifrost (Maxim AI / H3 Labs Inc.) Fits the Exact Pattern of API Key Harvesting Services Targeting American Indie Devs↗dev.to
- 22
Show HN: LLM의 결정론적 출력 테스트를 위한 새로운 벤치마크
LLM이 생성하는 구조화된 데이터(JSON 등)의 단순 형식을 넘어, 실제 데이터 값의 정확성과 신뢰도를 측정하기 위한 새로운 벤치마크인 SOB(Structured Output Benchmark)가 공개되었습니다. 이 벤치마크는 텍스트, 이미지, 오디오 등 다양한 모달리티에서 모델이 얼마나 정확한 값을 추출하고 구조를 유지하는지를 정밀하게 평가합니다.
Show HN: A new benchmark for testing LLMs for deterministic outputs↗interfaze.ai













![Claude.ai 및 API 접속 불가 [해결 완료]](https://startupschool.cc/og/claudeai-and-api-unavailable-fixed-4039fe.jpg)


