스타트업스쿨StartupSchool

AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

최신 업데이트 2026. 06. 29. 오전 07:44 KST·총 24건

AI 모델 관련 글 — 11 페이지

0
아시아 AI 스타트업들, Anthropic Mythos 대체 모델 출시
미국 정부의 Anthropic 보안 모델 수출 제한 조치 이후, 일본의 Sakana AI와 중국의 360이 각각 Fugu와 Tulongfeng 등 대체 모델을 출시하며 시장 진입을 시도하고 있습니다. 이들은 미국의 기술 통제 리스크를 피하기 위해 현지 언어와 산업 맥락에 최적화된 지역 특화 AI 솔루션을 내세우고 있습니다.
GeekNews↗news.hada.io
GeekNews3일 전공공지능 분석AI 모델
1
중국의 Z.ai, 사이버 보안에서 Mythos에 필적한다고 주장
중국 Zhip점 AI의 신규 모델 GLM-5.2가 일반적인 작업에서는 미국의 선도 모델에 뒤처지지만, 버그 탐지 및 사이버 보안 시나리오에서는 Anthropic의 Mythos와 대등한 수준에 도달했습니다. 특히 오픈 웨이트 방식으로 공개되어 누구나 활용 가능하기 때문에 기술 오남용에 대한 국가 안보 차원의 논란이 예상됩니다.
China’s Z.ai claims it can match Mythos on cybersecurity↗theverge.com
The Verge3일 전공공지능 분석AI 모델
2
LLM은 '거울 테스트'를 통과할까?
기존 LLM의 거울 테스트가 단순히 자신의 출력물을 식별하는 방식이었다면, 이 글은 개가 변형된 냄새를 통해 자신을 인식하듯 모델이 자신의 텍스트 변형을 감지할 수 있는지 실험하는 새로운 접근법을 제시한다. 저자는 대화 맥락 중 모델의 이전 응답을 미세하게 수정했을 때 모델이 이를 인지하는지를 통해 AI의 내부적 기준점과 이상 탐지 능력을 측정할 수 있다고 주장한다.
Do LLMs pass the mirror test?↗blog.pascalschuster.de
Hacker News3일 전공공지능 분석AI 모델
3
토큰맥싱은 죽고, 토큰맥싱 만세
기업들이 AI 활용을 강제하기 위해 토큰 사용량을 성과 지표로 삼던 '토큰맥싱' 전략이 비용 부담으로 인해 종료되는 추세입니다. 하지만 이는 단순한 퇴보가 아니라, 인간의 개입 없이도 오류 없이 장기간 실행 가능한 자율 에이전트 기술을 구현하기 위한 새로운 국면의 시작을 의미합니다.
Tokenmaxxing is dead, long live tokenmaxxing↗12gramsofcarbon.com
Hacker News3일 전공공지능 분석AI 모델
4
ISC’26 TOP500: 새로운 1위가 나왔다 - 조지 코즈마
독일 함부르크에서 열린 ISC'26 TOP500 발표에서 중국의 LineShine 시스템이 새로운 세계 1위로 등극했습니다. 이 시스템은 CPU 중심 설계임에도 불구하고 LINPACK과 HPCG 벤치마크 모두에서 압도적인 성능을 보여주며, 글로벌 슈퍼컴퓨팅 경쟁의 새로운 국면을 예고했습니다.
TOP500 at ISC'26: We Have a New Number 1 – By George Cozma↗chipsandcheese.com
Hacker News3일 전공공지능 분석AI 모델
5
1960-2026년 역사 속 메모리 가격 변동 추이
1957년부터 현재까지 DRAM과 NAND 플래시의 기가바이트(GB)당 가격 하락 추이를 추적하고, 최신 AI 가속기의 제조 원가 구조를 모델링했습니다. 특히 HBM 세대별 발전과 AI 가속기 비용에서 HBM 및 패키징 기술이 차지하는 비중을 상세히 다룹니다.
Historical memory prices 1960-2026↗dam.stanford.edu
Hacker News3일 전공공지능 분석AI 모델
6
GLM 5.2, 자체 벤치마크에서 Claude 능가
Zhip점 AI의 최신 모델 GLM 5.2가 IDOR 취약점 탐지 테스트에서 Claude Code보다 높은 F1 점수를 기록하며 강력한 코딩 능력을 입증했습니다. 이 모델은 오픈 웨이트 방식과 압도적인 가성비를 갖추고 있어, 보안 자동화 분야에서 기존 폐쇄형 모델의 강력한 대안으로 주목받고 있습니다.
GLM 5.2 beats Claude in our benchmarks↗semgrep.dev
Hacker News3일 전공공지능 분석AI 모델
7
MiniMax M3 사용 가이드: 활용법, 최고의 프롬프트 및 활용 사례 (2026)
MiniMax M3는 100만 토큰의 컨텍스트 창과 멀티모달 기능을 갖춘 오픈 웨이트 모델로, SWE-Bench Pro에서 GPT-5.5를 능가하는 코딩 성능을 입증했습니다. 혁신적인 Sparse Attention 기술을 통해 기존 모델 대비 훨씬 저렴한 비용으로 대규모 문서 및 코드베이스 분석이 가능합니다.
MiniMax M3 Guide: How to Use It, Best Prompts & Use Cases (2026)↗dev.to
Dev.to AI3일 전공공지능 분석AI 모델
8
이미 AI 분야에서 일하고 있음에도 불구하고 스크리바의 AI 엔지니어 학습 경로를 선택한 이유
우주 연구 기관의 ML 엔지니어가 겪는 AI 기술 발전 속도의 압박과 학습의 어려움을 다루며, Scrimba의 인터랙티브 코딩 플랫폼을 통한 효과적인 학습 경험을 공유합니다. 기존의 수동적인 영상 강의와 달리 실시간으로 코드를 수정하며 배우는 방식이 기술적 이해도와 기억력을 높이는 데 기여함을 강조합니다.
Why I'm Taking Scrimba's AI Engineer Path Even Though I Already Work in AI↗dev.to
Dev.to AI3일 전공공지능 분석AI 모델
9
제미니 3.5 프로 출시 7월로 연기, 구글 소속 선임 연구원 4명 안트로픽으로 이탈
구글이 Gemini 3.5 Pro의 출시를 2026년 7월로 연기하며 품질 개선에 나선 가운데, 구글 딥마인드의 핵심 연구원들이 앤스로픽으로 이직하는 등 인재 유출 사태가 심화되고 있습니다. 이번 인력 이탈은 구글 시가총액의 약 2,700억 달러 증발로 이어지며 시장의 불안감을 키우고 있습니다.
Gemini 3.5 Pro Delayed to July, 4 Senior Google Researchers Defect to Anthropic↗dev.to
Dev.to AI3일 전공공지능 분석AI 모델
10
크레스트: AI 개발자를 위한 강력한 API 플랫폼 등장
Crest는 맥북의 노치 부분을 활용해 음악 재생 정보, 시스템 상태, 캘린더, 번역 등 다양한 정보를 제공하는 macOS 전용 생산성 도구입니다. 무료 버전과 함께 $19.99의 Pro 버전을 통해 더욱 확장된 기능을 제공하며, 데스크톱 환경의 효율성을 극대화하는 것을 목표로 합니다.
Crest↗producthunt.com
Product Hunt3일 전공공지능 분석AI 모델
11
GPT-5.6 출시 취소, Anthropic의 9650억 달러 돌파, 그리고 오픈소스 왕좌는 중국의 것
OpenAI는 GPT-5.6 출시로 비용 효율성을 높이는 한편 법적 리스크에 직면했으며, Anthropic은 천문학적인 기업 가치를 기록하며 IPO를 준비 중입니다. 동시에 중국의 오픈소스 모델들이 글로벌 성능 지표 상위권을 점령하며 AI 기술 패권의 판도가 재편되고 있습니다.
GPT-5.6 Dropped, Anthropic Hit $965B, and the Open-Source Crown Is Now Chinese↗dev.to
Dev.to OpenSource3일 전공공지능 분석AI 모델
12
맥스 플랑크의 1940년대 논문 두 편, 왜 철회되었을까?
현대적인 디지털 아카이빙 과정에서 도입된 알고리즘이 막스 플랑크의 과거 논문을 중복 출판 및 저작권 위반으로 오인하여 학술지에서 삭제했습니다. 이는 과학적 오류가 아닌, 현대적 기준을 과거의 관행에 소급 적용하며 발생한 기술적·법률적 판단 오류로 분석됩니다.
Why did this journal retract two 1940s papers by Max Planck?↗arstechnica.com
Ars Technica3일 전공공지능 분석AI 모델
13
프롬프트 인젝션이 에이전트, RAG 파이프라인 및 모델 라우터를 노려 기업 AI의 가장 큰 설계 결함을 악용
사이버 범죄자들이 LLM의 작동 특성과 실제 구현 방식 간의 차이를 이용해 프롬프트 인젝션 공격을 강화하고 있습니다. 특히 에이전트, RAG 파이프라인, 모델 라우터와 같은 기업용 AI 아키텍처의 구조적 취약점이 주요 타겟이 되고 있습니다.
Prompt injection is exploiting enterprise AI's biggest design flaws by targeting agents, RAG pipelines and model routers↗venturebeat.com
VentureBeat AI3일 전공공지능 분석AI 모델
14
검찰, 패리사이즈 화재 재판에서 ChatGPT 로그를 증거로 활용
2025년 LA 대형 산불 방화 혐의를 받는 피고인의 재판에서 검찰은 ChatGPT와의 대화 기록을 범행 의도를 입증할 핵심 증거로 활용했습니다. 그러나 배심원들은 AI와의 상호작용을 개인의 성격 결함이나 범죄 의도와 직접 연결 짓는 데 회의적인 반응을 보였고, 결국 재판은 의견 불일치로 종료되었습니다.
Prosecutors used ChatGPT logs as evidence in the Palisades fire trial↗theverge.com
The Verge3일 전공공지능 분석AI 모델
15
장시간 컴퓨터 사용 능력 벤치마크 'OS월드 2.0' 공개…클로드 오퍼스 4.8 최고점
AI 연구소 X랭(XLolog)이 장시간에 걸친 실제 컴퓨터 업무 수행 능력을 측정하는 새로운 벤치마크 'OS월드 2.0'을 공개했습니다. 이 도구는 기존의 단기 작업 평가를 넘어, 숙련된 사람이 약 1.6시간 소요되는 복잡한 업무를 AI 에이전트가 얼마나 잘 완수하는지 측정합니다.
AI타임스↗aitimes.com
AI타임스3일 전공공지능 분석AI 모델
16
딥시크, LLM 추론 속도 최대 85% 높이는 ‘D스파크’ 오픈소스 공개
딥시크가 추측형 디코딩(Speculative Decoding) 기술을 활용해 LLM의 추론 속도와 서비스 효율을 극대화하는 'D스파크' 프레임워크를 오픈소스로 공개했습니다. 이 기술은 토큰 생성 후 문맥에 맞게 보완하고 GPU 부하에 따라 검증 토큰 수를 자동 조절하여 기존 대비 최대 85%의 속도 향상을 구현합니다.
AI타임스↗aitimes.com
AI타임스3일 전공공지능 분석AI 모델
17
에포크 AI, '장기 개발 능력' 검증 벤치마크 공개...“코드 암기론 통과 못해”
에포크 AI와 METR이 협력하여 AI 모델의 실제 소프트웨어 엔지니어링 능력을 측정하는 '미러코드' 벤치마크를 발표했습니다. 이 벤치마크는 기존의 단기적 작업 중심 평가에서 벗어나, 외부 참조 없이 전체 프로그램을 처음부터 다시 구현하는 능력을 통해 AI의 논리적 설계 및 개발 역량을 검증합니다.
AI타임스↗aitimes.com
AI타임스3일 전공공지능 분석AI 모델
18
KAIST, AI의 '디지털 연령차별' 정량 분석...
KAIST 최문정 교수 연구팀은 오픈AI의 GPT-4o가 생성하는 문장 속에 노인에 대한 연령 관련 고정관념이 내재되어 있음을 정량적으로 분석해냈습니다. 이번 연구는 AI의 편향성이 사회적 인식에 미칠 부정적 영향을 조명하며, 보다 공정한 AI 개발을 위한 근거를 마련했습니다.
AI타임스↗aitimes.com
AI타임스3일 전공공지능 분석AI 모델
19
제한적 인지 능력을 위한 엔지니어링
인간의 뇌는 동시에 약 4개의 정보만을 유지할 수 있을 만큼 매우 제한적인 인지 능력을 가지고 있으며, 이는 거대한 소프트웨어 시스템을 다루기에 턱없이 부족합니다. 따라서 엔지니어링은 '인간의 실수'를 개인의 책임으로 돌리는 대신, 인지적 한계를 전제로 한 시스템 설계와 자동화에 집중해야 합니다.
Engineering for Bounded Cognition↗shapeofthesystem.com
Hacker News4일 전공공지능 분석AI 모델
20
웨이파인더 라우터: 로컬 및 호스팅된 LLM 간의 결정적 질의 라우팅
Wayfinder는 프롬프트의 길이, 구조, 어키 패턴을 분석하여 저렴한 로컬 모델과 고성능 클라우드 모델로 작업을 분배하는 오프라인 라우팅 도구입니다. 별도의 LLM 호출 없이 마이크로초 단위로 판단하므로 비용과 지연 시간을 획기적으로 줄일 수 있습니다.
Wayfinder Router: deterministic routing of queries between local and hosted LLM↗github.com
Hacker News4일 전공공지능 분석AI 모델
21
몇 분 만에 잠들다: 마르파 퍼블릭 라디오의 수면 유도 방송 뒤 숨겨진 놀라운 AI, API, GPU 과학
마르파 퍼블릭 라디오는 특정 소리 요소를 활용해 수면을 유도하는 방송을 진행하며, Promphy AI는 이러한 오디오 콘텐츠의 정밀한 분석 및 최적화를 지원합니다. 이 도구는 톤, 페이스, 볼륨 등을 분석하여 청취자가 빠르게 잠들 수 있는 환경을 조성하도록 돕습니다.
Fall Asleep in Minutes: The Surprising Science Behind Marfa Public Radio's Snooze-Inducing Broadcasts↗dev.to
Dev.to AI4일 전공공지능 분석AI 모델
22
LLM 게이트웨이 라우팅은 하지만, 검증하긴 할까요?
현재 널리 쓰이는 LLM 게이트웨이들은 API 호출 성공 여부만 판단할 뿐, 모델의 환각이나 품질 저하와 같은 의미적 오류를 잡아내지 못하는 한계가 있습니다. Correctover는 출력값의 스키마, 사실 관계, 언어 등을 실시간 검증하여 신뢰할 수 있는 '검증된 페일오버(Verified Failover)' 환경을 구축합니다.
Your LLM Gateway Routes. But Does It Verify?↗dev.to
Dev.to OpenSource4일 전공공지능 분석AI 모델
23
Bedrock 지식 베이스로 일반적인 언어로 AWS 런북 쿼리하기
운영 문서가 여러 플랫폼에 파편화되고 최신 상태를 유지하지 못해 장애 복구 시간(MTTR)이 늘어나는 문제를 지적합니다. Amazon Bedrock Knowledge Bases의 벡터 검색 기능을 활용해 흩어진 문서를 통합하고, 자연어로 정확한 가이드를 추출하는 자동화된 해결책을 제시합니다.
Query AWS Runbooks in Plain English with Bedrock Knowledge Bases↗dev.to
Dev.to DevOps4일 전공공지능 분석AI 모델