AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
최신 업데이트 ·총 24건
단순한 모델 출시 소식을 넘어, 생성형 AI를 실제 서비스로 구현하기 위한 엔지니어링 과제를 추적합니다. LLM 비용 최적화, 에이전트 워크플로우, 그리고 신뢰할 수 있는 평가(Evaluation) 설계까지 실무에 직결된 변화를 다룹니다.
오픈소스 모델의 로컬 배포, 검색 증강 생성(RAG) 기반 거버넌스, 자율형 에이전트(Agentic AI)로의 전환을 주요 축으로 삼습니다. 비용 효율적인 모델 라우팅과 하드웨어 제약을 극복하는 최적화 사례를 살핍니다.
Hacker News와 Dev.to 등 글로벌 개발자 커뮤니티의 밀도 높은 정보를 선별합니다. 거대 자본 중심의 모델 경쟁 속에서, 한국 스타트업이 비용 효율적 인프라와 특화된 에이전트로 생존할 단초를 찾는 데 집중합니다.
AI 모델 주요 출처
AI 모델 관련 최신 글
- 0
Claude Fable 5 AI Gateway 접근 재개
미국 정부의 수출 통제 해제 결정에 따라 AI Gateway에서 Claude Fable 5 (Mythos-class 모델) 접근이 복구되었습니다. Fable 5는 6월 9일부터 6월 12일까지 사용 가능했던 동일한 모델입니다. 변경된 점은 안전 분류기(safety classifiers)로, 현재 업데이트되어 더욱 강력해졌습니다. 단기적으로 코딩 및 디버깅과 같은 일부 일반적인 작업이 안전 분류기를 트리거할 수 있습니다. 안전 분류기가 작동하더라도 요청 처리가 원활하게 이루어지도록 model fal
Claude Fable 5 access restored on AI Gateway↗vercel.comVercel BlogAI 모델
- 2
토큰 보안 표면: 에이전트 AI, 기업 배포 환경에서의 ID 위험 초기 분석
법의학적 요약 토큰 보안(Token Security)은 기업 환경에서 에이전트형 AI 시스템이 확산됨에 따라 발생하는 ID 및 접근 관리(IAM) 실패에 대한 상세 분석을 발표했습니다. 이 분석에서는 AI 에이전트가 인증하고, 자격 증명을 보유하며, 적절한 감독 없이 프로덕션 시스템에서 자율적으로 작동하는 방식을 강조합니다. 기존의 머신 아이덴티티와 달리, AI 에이전트는 인간과 유사한 목표 지향적 행동과 기계 수준의 실행 속도를 결합하여 기존 IAM으로는 관리하기 어려울 정도의 자격 증명 확산을 야기합니다.
First Look: Token Security Surfaces Agentic AI Identity Risks Across Enterprise Deployments↗dev.toDev.to AIAI 모델
- 3
사용자 대상 AI 지출 제한, 제대로 걸려면: 놓치기 쉬운 세 가지 예외 상황
첫 번째 AI 프로젝트의 예산 제한은 단순히 Anthropic API 키에 대한 제한이었습니다. 사용자들이 여러분의 제한을 찾지 않기를 바라고, 또 그 제한이 사용량만큼 충분하기를 간절히 바라면서 기다리는 것은 진정한 제어 계층이 필요하다는 신호입니다. AI 지출 통제는 간단한 문제가 아닙니다. 보기에는 쉽겠지요? 사용자당 미터기와 몇 개의 if 문으로 끝날 것 같습니다. 하지만 질문과 예외 상황들이 시작되고, 정말 멈추지 않습니다. 그 미터기는 크레딧 잔액이 소진되는 것을 측정하는 것일까요, 아니면 raw spend를 나타내는 것일까요?
How to Actually Cap AI Spend for Your Users: 3 Edge Cases Everyone Misses↗dev.toDev.to AIAI 모델 - 4
오픈 소스 AI API가 이렇게 저렴할 줄 알았으면 좋았을 텐데
오픈 소스 AI API가 이렇게 저렴할 줄 알았으면 좋았을 텐데. 6개월 전만 해도 개인 프로젝트를 위해 쿠버네티스 클러스터를 구축하는 데 주말을 보냈습니다. 오픈 소스 LLM의 양자화 버전을 실행하기 위해서였죠. 일요일 밤이 되어서야 CUDA 드라이버와 노드 오토스케일러와 씨름한 끝에 제 인생 20시간은 날려버렸고, 트래픽이 조금이라도 늘면 프로그램은 계속 다운되었습니다. 그런데 지난 화요일, 동일 계열의 모델들을 단일 API 엔드포인트로 연결했을 때...
I Wish I Knew Open Source AI APIs Were This Affordable Sooner↗dev.toDev.to WebDevAI 모델 - 5
AI 모델 크기 때문에 네이티브 리액트 네이티브 다운로더 직접 만들었어요
Orb라는 안드로이드용 비공개 오프라인 AI 앱을 개발하던 중 이 문제를 발견했습니다. Orb은 휴대폰에서 로컬 모델을 실행합니다. 이는 개인 정보 보호에는 매우 좋지만, 실질적인 모바일 문제점을 야기합니다: 앱이 여러 기가바이트에 달하는 모델 파일을 다운로드해야 합니다. 네트워크 연결이 끊어지거나 앱이 백그라운드로 전환되거나 사용자가 앱을 강제 종료하면 처음부터 다시 시작하는 것은 끔찍한 경험입니다. 그래서 다운로더를 작은 오픈 소스 패키지로 분리했습니다: GitHub: https://github.com/zraisan/react-native-client
I built a native React Native downloader because AI models are huge↗dev.toDev.to OpenSourceAI 모델 - 6
페이블 5 vs 솔 5.6
자, 시작하기 전에 부끄러운 사실을 하나 고백해야겠어요. 저는 원래 클로드 페이블 5가 "내일 출시될 예정"이라고 생각했습니다. 제 메모장에 그렇게 적혀 있었고, 그걸 바탕으로 이 글을 쓰려고 준비하고 있었죠. 그런데 글을 쓰기 전에 검색해 보자는 생각을 하고 실제로 찾아보니 (최근에는 잘못된 정보나 오래된 소문이 대학생 왓츠앱 그룹에 넘쳐다니는 것을 보니, 확인하는 습관을 들여야겠다는 생각에), 페이블 5가 오늘, 2026년 7월 1일에 다시 출시됩니다. 내일이 아니라 오늘입니다.
Fable 5 vs Sol 5.6↗dev.toDev.to WebDevAI 모델 - 8
LLM 비용 최적화: 품질 저하 없이 추론 비용 절감하기
LLM API 비용을 모델 변경이나 출력 품질 저하 없이 50~90%까지 줄일 수 있습니다. 기술은 존재하며, 관련 문서는 공개되어 있지만 대부분의 팀은 이를 활용하지 못하고 있습니다. 실제로 효과를 보는 것은 다음과 같습니다. **LLM 요금이 어디에서 발생하는가** 모든 API 호출 시에는 입력 토큰과 출력 토큰에 대한 비용이 발생합니다. 간단한 계산이지만, "입력 토큰"은 생각보다 큰 함정입니다. 대부분의 프로덕션 워크로드에서는 동일한 시스템 프롬프트, 지시사항 또는 검색 컨텍스트를 매번 전송합니다.
LLM Cost Optimization: Cutting Inference Bills Without Killing Quality↗dev.toDev.to WebDevAI 모델 - 9
메이투안, 코딩 모델 '롱캣-2.0' 출시..."중국산 칩으로 고성능 달성"
중국 배달 플랫폼 메이투안이 총 1조6000억개의 매개변수를 갖춘 초대형 오픈소스 언어모델 '롱캣(LongCat)-2.0'을 공개했다. 특히 이 모델은 중국산 AI 전용 칩 5만개 이상으로 구성된 클러스터에서 사전학습부터 추론까지 전 과정을 완료한 것이 특징이다. 메이투안은 30일(현지시간) 깃허브와 허깅페이스를 통해 롱캣-2.0을 MIT 라이선스로 오픈소스 공개했다고 밝혔다. 모델 가중치는 "곧 제공될 예정"이라고 안내했다.롱캣-2.0이 지난 두 달 동안 '아울 알파(Owl Alpha)'라는 이름으로 오픈라우터에서 서비스됐다는 사
AI타임스↗aitimes.comAI타임스AI 모델 - 10
오픈AI, '컴퓨트 멀티플라이어’로 추론 비용 절반으로 줄여
오픈AI가 AI 모델 추론(inference) 비용을 절반 이상 줄일 수 있는 새로운 최적화 기술을 개발한 것으로 알려졌다. AI 업계가 데이터센터와 GPU 확보 경쟁에 집중하는 가운데, 기존 인프라의 효율을 극대화하는 '컴퓨트 멀티플라이어(Compute Multiplier)' 전략이 차세대 경쟁력으로 부상하고 있다는 평가가 나온다.30일(현지시간) 디 인포메이션에 따르면, 오픈AI 엔지니어들은 이달 초 내부에서 새로운 추론 최적화 기법을 적용한 결과 AI 모델 실행 비용을 절반 이상 절감하는 데 성공했다고 공유했다.특히 로그인하지
AI타임스↗aitimes.comAI타임스AI 모델 - 12
AWS GovCloud (US)에서 Amazon Bedrock에 NVIDIA Nemotron 및 OpenAI GPT OSS 모델 실행
AWS GovCloud (US)에 기반한 선도적인 오픈 웨이트 모델을 소개하게 되어 기쁩니다. 이번 출시를 통해 Amazon Bedrock은 OpenAI의 오픈 웨이트 GPT OSS 모델(120B 및 20B)과 NVIDIA Nemotron (Nano 9B v2, Nano 12B v2, Nano 30B, Super 120B) 모델을 지원하게 되었습니다. 이 게시글에서는 이러한 모델과 기능, 데이터 레지던시를 위한 inference 옵션, 사용 가능한 서비스 티어 및 시작 방법을 다룹니다.
Run NVIDIA Nemotron and OpenAI GPT OSS models on Amazon Bedrock in AWS GovCloud (US)↗aws.amazon.com - 13
HippoRAG: 아마존 Bedrock, 아마존 Neptune 및 개인화된 PageRank를 활용한 신경생물학적 영감 RAG
이번 게시글에서는 포괄적인 AWS 스택을 활용하여 HippoRAG를 구현하는 방법을 보여줍니다. LLM 기능으로는 Amazon Bedrock, 그래프 데이터베이스 기능으로는 Amazon Neptune, 고급 그래프 알고리즘(개인화된 PageRank 포함)으로는 Amazon Neptune Analytics, 그리고 벡터 표현에는 Amazon Titan Embeddings을 사용합니다. 이 구현은 엔터프라이즈 규모의 애플리케이션을 위해 AWS 인프라 내에서 HippoRAG를 구축하고 배포하는 방법을 보여줍니다.
HippoRAG: Neurobiologically inspired RAG using Amazon Bedrock, Amazon Neptune, and personalized PageRank↗aws.amazon.com - 14
인스크라이브, 아마존 베드락 활용하여 문서 사기 적발 시간을 단축
이번 글에서는 Inscribe가 Amazon Bedrock을 활용하여 전문가 사기 분석가가 문서 전체를 검토하는 방식과 유사하게 추론하는 에이전트형 AI 시스템을 어떻게 개발했는지 알아보겠습니다. 이 새로운 에이전트형 AI 시스템 덕분에 Inscribe는 이제 90초 미만으로 변조, 위조, 그리고 AI가 생성한 금융 문서를 탐지할 수 있습니다. 이는 기존의 수동 검토 방식보다 20배 빠른 속도이며, 금융 서비스 규제가 요구하는 정확성과 설명 가능성을 유지합니다.
How Inscribe uses Amazon Bedrock to stop document fraud in seconds↗aws.amazon.com - 15
Claude Desktop이 이제 Linux에서 사용 가능합니다
Claude 데스크톱이 이제 리눅스에서 사용할 수 있습니다. Anthropic은 베타 버전으로 Linux용 Claude Desktop을 출시했습니다. 현재 Ubuntu와 Debian 운영체정이 지원됩니다. 앱에는 모든 유료 플랜에서 Claude Code, Claude Cowork, 일반 채팅 기능이 포함되어 있습니다. Computer Use 기능은 이번 릴리스에 아직 포함되지 않았습니다. Anthropic에 따르면 곧 추가될 예정입니다.
Claude Desktop is now on Linux↗dev.toDev.to DevOpsAI 모델 - 16
Amazon Bedrock에서 오픈 소스 Model Profiler로 모델 선택 간소화하기
Amazon Bedrock 모델 프로파일러는 여러 AWS API 및 외부 소스에서 모델 메타데이터를 수집하여 단일 검색 인터페이스로 통합하는 오픈소스 도구입니다. 이 글에서는 모델 프로파일러가 제공하는 기능, 지원하는 실제 시나리오, 그리고 5분 안에 자신의 환경에 배포하는 방법을 알아보겠습니다.
Simplify model selection in Amazon Bedrock with the open source Model Profiler↗aws.amazon.com - 17
Amazon SageMaker AI에서 BoltzGen으로 단백질 설계 가속화
이번 게시글에서는 SageMaker AI에 BoltzGen을 배포하고 단편적인 단백질 설계 실험을 실행하는 방법을 보여줍니다. 이 가이드의 마지막까지, 여러분은 빠른 검증 실행부터 프로덕션 배치 처리까지 확장 가능한 작동 환경을 갖추게 됩니다. 이 환경은 연구의 다양한 단계에 맞춰 두 가지 실행 모드를 제공하며, 반복적인 워크플로우에서 컴퓨팅 비용을 줄이기 위해 단계별 캐싱을 사용합니다.
Accelerate protein design with BoltzGen on Amazon SageMaker AI↗aws.amazon.com - 20
Anthropic, 미국 수출 통제 해제 후 Claude Fable 5를 전 세계 출시… 기업은 어디서 접속할 수 있을까?
앤스로픽은 오늘, 미국 상무부의 이전 수출 통제 명령 철회에 따라 현재까지 공개된 가장 강력한 AI 모델인 클로드 페이블 5(Claude Fable 5)에 대한 글로벌 접근을 재개합니다. 2026년 6월 12일에 발표된 미국의 수출 통제 명령으로 인해 앤스로픽은 페이블 5와 보안 기능이 제한적인 모델인 클로드 미토스 5(Claude Mythos 5)의 모든 글로벌 접근을 중단한 바 있습니다. 이제, 페이블 5는
Anthropic is bringing back Claude Fable 5 globally after US lifts export control order — where can enterprises access it?↗venturebeat.comVentureBeat AIAI 모델
자주 묻는 질문
- 이 카테고리의 핵심 기술 영역은 무엇인가요?
- LLM 비용 최적화와 모델 라우팅, 에이전트 워크플로우 설계, RAG 기반 데이터 거버넌스, 오픈소스 모델의 로컬·엣지 배포 등 AI 엔지니어링 실무를 중점적으로 다룹니다.
- 최근 '에이전트' 뉴스의 핵심은 무엇인가요?
- 단순 질의응답을 넘어 모델이 스스로 도구를 사용하고 복잡한 작업을 수행하는 'Agentic Workflow'로의 전환입니다. 목적을 위해 자율적으로 움직이는 AI 시스템 구축 방법론이 핵심입니다.
- 운영 비용을 줄이는 기술적 대안도 다루나요?
- 네. 효율적인 모델 라우팅, 로컬 실행을 통한 저비용 추론, 토큰 소모를 최적화하는 RAG 아키텍처 등 엔지니어링 관점의 비용 절감 방안을 다룹니다.
- 글로벌 AI 트렌드가 한국 스타트업에 주는 시사점은?
- 흐름이 '모델 크기'에서 '운영 효율과 에이전트 기능'으로 이동하고 있습니다. 빅테크와 규모로 경쟁하기보다 특정 도메인에 특화된 고효율 에이전트와 최적화된 인프라가 현실적 전략입니다.
- 이 페이지는 어떤 출처를 다루나요?
- Dev.to(AI·OpenSource·WebDev), Hacker News, TechCrunch, Product Hunt, Indie Hackers 등 개발자와 창업가가 기술 인사이트를 공유하는 검증된 커뮤니티·매체를 기반으로 합니다.



