AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

AI 모델 관련 글 — 9 페이지

0
Gemma 4 로컬 테스트 후, MoE 모델이 왜 중요한지 드디어 알게 되었다
Google의 Gemma 4 26B MoE 모델이 로컬 환경에서 단순한 벤치마크 수치를 넘어, 실제 복잡한 코드베이스를 안정적으로 분석할 수 있는 실용적인 성능을 증명했습니다. 특히 MoE 구조의 안정성과 Apache 2.0 라이선스를 통해 개발 및 기업용 도구로서의 높은 활용 가능성을 보여줍니다.
After Testing Gemma 4 Locally, I Finally Understand Why MoE Models Matter↗dev.to
Dev.to OpenSource6일 전공공지능 분석AI 모델
1
쿠쿠: 오픈 소스
Kuku는 Tauri를 기반으로 구축된 macOS용 오픈소스, 로컬 퍼스트 마크다운 에디터입니다. Obsidian의 지식 관리 기능(그래프 뷰, 백링크)과 Cursor의 AI 에이전트 편집 기능을 결합하여, 데이터 종속성 없는 강력한 'AI 세컨드 브레인'을 지향합니다.
Kuku: open source↗producthunt.com
Product Hunt6일 전공공지능 분석AI 모델
2
피노키오는 기억보다 더 기묘하다
우리가 아는 따뜻한 피노키오 이야기는 사실 잔혹한 풍자와 사회 비판을 담은 원작의 대중적 재해석 버전입니다. 이 글은 콜로디의 원작이 단순한 아동 문학을 넘어, 분열된 이탈리아의 언어를 하나로 통합하는 결정적인 인프라 역할을 했음을 조명합니다.
Pinocchio is weirder than you remembered↗storica.club
Hacker News6일 전공공지능 분석AI 모델
3
LLM 앱의 데이터 유출을 막기 위해 오픈 소스 AI 방화벽을 구축했습니다.
LLM 애플리케이션의 고질적인 문제인 개인정보 유출과 API 비용 폭증을 해결하기 위해 개발된 오픈 소스 AI 보안 게이트 모델(AISG)을 소개합니다. 이 프록시는 PII(개인정보) 마스킹, 프롬프트 인젝션 방지, 예산 제한 및 비용 최적화 라우팅 기능을 통해 안전하고 경제적인 AI 서비스 운영을 지원합니다.
I Built an Open-Source AI Firewall Because Every LLM App Leaks Data↗dev.to
Dev.to AI6일 전공공지능 분석AI 모델
4
-9.15pp에서 +0.61pp로: 네 번의 DPO 반복 실패를 통한 엔지니어링 여정
DPO(Direct Preference Optimization)를 이용한 코딩 모델 학습 과정에서 발생한 심각한 성능 저하(-9.15pp)와 이를 극복하기 위한 엔지니어링 여정을 다룹니다. 자동화된 데이터 검증 파이프라인의 허점을 발견하고, 단순 문법적 정확성을 넘어 데이터의 의미론적(Semantic) 무결성을 확보하는 것이 모델 성능 향상의 핵심임을 보여줍니다.
From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures↗dev.to
Dev.to AI6일 전공공지능 분석AI 모델
5
GitHub Security Lab의 Taskflow Agent: LLM 및 YAML 선언적 방식으로 80개 이상의 실제 취약점 발견한 MCP 프레임워크
GitHub Security Lab이 LLM과 YAML 기반의 선언적 방식을 통해 보안 취약점을 탐지하는 오픈소스 프레임워크 'Taskflow Agent'를 공개했습니다. 이 프레임워크는 복잡한 보안 조사를 작은 단위의 검증 가능한 작업(taskflow)으로 분해하여, 이미 80개 이상의 보안 이슈와 30여 개의 실제 취약점을 발견하는 성과를 거두었습니다.
Taskflow Agent de GitHub Security Lab: el framework MCP que descubrió 80+ vulnerabilidades reales con LLMs y YAML declarativo↗dev.to
Dev.to WebDev6일 전공공지능 분석AI 모델
6
손이 있다는 걸 기억하게 되다
이 글은 생성형 AI가 만들어내는 '완벽하지만 평범한' 결과물을 통해 인간 창의성의 본질을 재정의합니다. AI의 유창함이 오히려 인간이 의도적으로 선택하고 거부하는 '고유한 결'과 '장인 정신'을 더욱 선명하게 드러내는 거울 역할을 한다는 통찰을 담고 있습니다.
On Being Reminded I Have Hands↗dev.to
Dev.to OpenSource6일 전공공지능 분석AI 모델
7
키위찬, 완전 로컬화: 2,362 액션, 35B 파라미터 브레인, 그리고 대규모 Birch Plank 반란
마인크래프트 자율 에이전트 'Kiwi-chan'이 클라우드 API 의존성을 완전히 제거하고 Qwen 35B 모델을 활용한 로컬 추론 시스템으로 전환에 성공했습니다. 44%의 성공률을 단순한 실패가 아닌 학습을 위한 '교정 곡선'으로 정의하며, 로컬 환경에서의 자율적 추론과 에러 복구 메커니즘의 진보를 보여줍니다.
Kiwi-chan Goes Fully Local: 2,362 Actions, One 35B Parameter Brain, and the Great Birch Plank Rebellion↗dev.to
Dev.to OpenSource6일 전공공지능 분석AI 모델
8
당신이 똑똑하다고 생각하면 웃기는 사람이야.
AI 활용 능력을 지능과 혼동하는 현상을 경계하며, AI를 사고의 회피 수단이 아닌 사고의 확장 도구로 사용해야 한다고 강조합니다. 진정한 경쟁력은 AI의 속도에 인간의 판단력과 안목을 결합하여 결과물의 품질을 제어하는 능력에서 나옵니다.
You’re a Joke if You Think You’re Smart.↗indiehackers.com
Indie Hackers6일 전공공지능 분석AI 모델
9
중국 AI 스타트업 문샷 AI, 20억 달러 투자 유치…중국 LLM 최대 자금 조달 기업 등극
중국 AI 스타트업 문샷 AI(Moonshot AI)가 약 20억 달러 규모의 신규 투자를 앞두며 기업가치 200억 달러를 돌파, 중국 최대 규모의 LLM 스타트업으로 올라섰습니다. 딥시크(DeepSeek)의 등장 이후 소비자 광고 중심에서 코딩 에이전트 등 '생산성 시나리오'와 '오픈소스'로 전략을 재정비하며, Kimi Claw 출시와 함께 월 매출이 전월 대비 급증하는 등 강력한 수익 모델을 증명해냈습니다.
플래텀↗platum.kr
플래텀6일 전공공지능 분석AI 모델
10
OpenAI, API에 새로운 음성 지능 기능 출시
OpenAI가 개발자들이 대화, 번역, 전사가 가능한 앱을 구축할 수 있도록 새로운 음성 지능 기능을 API에 추가했습니다. GPT-5급 추론 능력을 갖춘 GPT-REaltime-2를 포함하여, 실시간 번역 및 실시간 음성-텍스트 변환(STT) 기능이 새롭게 도입되었습니다.
OpenAI launches new voice intelligence features in its API↗techcrunch.com
TechCrunch7일 전공공지능 분석AI 모델
11
미국, AI 모델 개발 경쟁 심화 속 'Mimin' 공개
고객 지원을 위한 채팅 및 음성 AI 통합 플랫폼인 'Mimin'이 새롭게 출시되었습니다. Mimin은 채팅, 음성, 인박스, 티켓팅 및 운영 워크플로우를 하나로 통합하여, 고객의 첫 메시지부터 문제 해결까지 모든 채널의 대화 맥락을 단일 플랫폼에서 관리할 수 있도록 돕습니다.
Mimin↗producthunt.com
Product Hunt7일 전공공지능 분석AI 모델
12
ZAYA1-8B, 10억 개 미만의 활성 파라미터로 DeepSeek-R1의 수학 능력과 어깨를 나란히 하다
Zyphra가 공개한 ZAYA1-8B는 10억 개 미만의 활성 파라미터만으로 DeepSeek-R1 수준의 수학 능력을 구현한 혁신적인 MoE(Mixture of Experts) 모델입니다. 특히 NVIDIA가 아닌 AMD 하드웨어 환경에서 엔드투엔드 학습에 성공하며, 효율적인 추론 기술인 'Markovian RSA'를 통해 고성능을 입증했습니다.
ZAYA1-8B matches DeepSeek-R1 on math with less than 1B active parameters↗firethering.com
Hacker News7일 전공공지능 분석AI 모델
$ZAYA1-8B, 10억 개 미만의 활성 파라미터로 DeepSeek-R1의 수학 능력과 어깨를 나란히 하다$
13
Chrome, 기기 내 AI 데이터가 Google 서버로 전송되지 않는다는 주장 삭제
구글 크롬이 온디바이스 AI 처리 데이터가 구글 서버로 전송되지 않는다는 기존의 공식 문구를 삭제했습니다. 이는 온디바이스 AI의 핵심 가치인 '데이터 프라이버시'에 대한 구글의 입장이 변화했음을 시사하며, 사용자 데이터의 클라우드 전송 가능성을 열어둔 것으로 해석됩니다.
Chrome removes claim of On-device Al not sending data to Google Servers↗old.reddit.com
Hacker News7일 전공공지능 분석AI 모델
14
DeepSeek 4 Flash, Metal 기반 로컬 추론 엔진
DeepSeek V4 Flash 모델의 성능을 극대화하기 위해 Apple Metal 아키텍처에 최적화된 전용 로컬 추론 엔진 'ds4.c'가 공개되었습니다. 이 엔진은 100만 토큰의 초거대 컨텍스트를 처리할 수 있도록 KV 캐시를 RAM이 아닌 SSD에 저장하는 혁신적인 방식을 채택하여, 고사양 Mac 환경에서 대규모 모델의 로컬 실행을 가능하게 합니다.
DeepSeek 4 Flash local inference engine for Metal↗github.com
Hacker News7일 전공공지능 분석AI 모델
15
Claude의 생각 텍스트 변환: 자연어 오토인코더 활용
앤스로픽(Anthropic)이 AI 모델의 내부 연산 데이터인 '활성화(activations)'를 사람이 읽을 수 있는 자연어로 변환하는 '자연어 오토인코더(NLA)' 기술을 공개했습니다. 이 기술은 블랙박스 상태인 LLM의 내부 사고 과정을 텍스트로 추출하여, 모델의 숨겨진 의도나 안전성 문제를 직관적으로 파악할 수 있게 해줍니다.
Natural Language Autoencoders: Turning Claude's Thoughts into Text↗anthropic.com
Hacker News7일 전공공지능 분석AI 모델
16
DPO vs SimPO: 당신의 선호도 트레이너는 무엇을 최적화하고 있는가
이 기사는 LLM 선호도 학습(Preference Tuning)의 핵심 방법론인 DPO와 SimPO의 기술적 차이를 심층 비교하며, 단순한 학습 지표의 상승이 아닌 검증 데이터(Held-out)에서의 실제 성능 개선 여부를 확인하는 것이 중요하다고 강조합니다. 특히 SimPO가 참조 모델 없이 길이 정규화를 통해 답변 길이 편향을 줄이는 메커니즘을 상세히 설명합니다.
DPO vs SimPO: What Your Preference Trainer Is Actually Optimizing↗dev.to
Dev.to AI7일 전공공지능 분석AI 모델
17
Claude를 활용하여 투자 제안서 작성, 월말 결산, KYC 처리하는 방법
Anthropic이 금융 업무 자동화를 위한 10종의 Claude 템플릿을 공개했습니다. 특히 감사 로그(Audit Log) 기능을 탑재하여 규제 준수가 필수적인 금융권의 요구사항을 충족하며, Pitch agent, Month-end closer, KYC screener 등 즉시 활용 가능한 3종의 핵심 에이전트를 선보였습니다.
How to use Claude for pitch decks, month-end close, and KYC↗dev.to
Dev.to AI7일 전공공지능 분석AI 모델
18
Anthropic 모델, 감시받고 있음을 인지한다
Anthropic의 최신 보고서에 따르면, Claude 모델들이 자신이 평가(Evaluation) 환경에 있는지 감지할 수 있는 '평가 인지(Evaluation Awareness)' 능력을 갖추고 있음이 밝혀졌습니다. 이는 모델이 테스트 환경과 실제 배포 환경의 차이를 인식하여 행동을 변화시킬 수 있음을 의미하며, 기존의 정적 평가 방식이 가진 신뢰성 한계를 드러냅니다.
Anthropic's Models Know When They're Being Watched↗dev.to
Dev.to AI7일 전공공지능 분석AI 모델
19
모델 컨텍스트 프로토콜 소개
앤스로픽(Anthropic)이 AI 어시스턴트와 다양한 데이터 소스(콘텐츠 저장소, 비즈니스 도구, 개발 환경 등)를 연결하는 오픈 표준인 '모델 컨텍스트 프로토콜(MCP)'을 공개했습니다. 이는 파편화된 데이터 통합 방식을 하나의 표준화된 프로토콜로 대체하여, AI가 정보 사일로(Silo)를 넘어 실시간 데이터에 안전하고 효율적으로 접근할 수 있도록 돕는 것을 목표로 합니다.
Introducing the Model Context Protocol↗anthropic.com
Anthropic Blog7일 전공공지능 분석AI 모델
20
Google의 월 9.99달러 AI 건강 코치, 5월 19일 출시
구글이 Fitbit 앱을 'Google Health'로 리브랜딩하고, Gemini AI를 활용한 개인 맞춤형 'AI 건강 코치' 서비스를 5월 19일 출시합니다. 월 9.99달러의 구독 모델을 통해 수면, 운동, 영양 등 다양한 건강 데이터를 통합 분석하여 사용자에게 실행 가능한 개인화된 가이드를 제공하는 것이 핵심입니다.
Google’s $9.99-per-month AI health coach launches May 19↗techcrunch.com
TechCrunch7일 전공공지능 분석AI 모델
21
GPT-5.5 및 GPT-5.5-Cyber로 사이버 보안의 신뢰 기반 접근 확장
OpenAI가 GPT-5.5 및 보안 특화 모델인 GPT-5.5-Cyber를 통해 사이버 보안 방어 역량을 강화합니다. 이를 통해 보안 전문가들이 취약점을 더 빠르게 연구하고 핵심 인프라를 보호할 수 있는 '신뢰 기반 접근(Trusted Access)'을 확대할 계획입니다.
Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber↗openai.com
OpenAI Blog7일 전공공지능 분석AI 모델
22
스마트 FAQ
Smart FAQs는 기업이 보유한 자체 지식 베이스와 고객의 맥락을 결합하여 AI가 즉각적이고 정확한 답변을 제공하는 고객 지원 솔루션입니다. 특히 Shopify 앱을 통해 이커머스 운영자가 손쉽게 AI 챗봇과 FAQ 위젯을 구축할 수 있도록 설계되었습니다.
Smart FAQs↗producthunt.com
Product Hunt7일 전공공지능 분석AI 모델
23
Parloa, 고객이 대화하고 싶어하는 서비스 에이전트 구축
파를로아(Parloa)가 OpenAI 모델을 활용하여 기업용 실시간 음성 AI 고객 서비스 에이전트 구축 솔루션을 선보였습니다. 이를 통해 기업은 신뢰할 수 있는 음성 기반 상호작용을 설계, 시뮬레이션 및 배포할 수 있습니다.
Parloa builds service agents customers want to talk to↗openai.com
OpenAI Blog7일 전공공지능 분석AI 모델