스타트업스쿨StartupSchool

AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

최신 업데이트 2026. 04. 30. 오전 10:09 KST·총 24건

AI 모델 관련 글 — 57 페이지

0
Mistral Medium 3.5 128B, GPU 메모리 부족 없이 실행하는 방법
Mistral Medium 3.5 128B와 같은 초거대 모델을 로컬 또는 자체 서버에서 실행할 때 발생하는 VRAM 부족(OOM) 문제를 해결하기 위한 실전 가이드를 다룹니다. FP8 양자화 활용, vLLM의 텐서 병렬화(Tensor Parallelism), 컨텍스트 길이 제한 및 추론 노력(Reasoning Effort) 조절을 통해 효율적인 모델 서빙 전략을 제시합니다.
How to Serve Mistral Medium 3.5 128B Without Running Out of GPU Memory↗dev.to
Dev.to DevOps1개월 전공공지능 분석AI 모델
1
연구: 왜 Bifrost (Maxim AI / H3 Labs Inc.)가 미국 인디 개발자를 노리는 API 키 수집 서비스의 정확한 패턴에 부합하는가
Maxim AI(H3 Labs Inc.)의 AI 게이트웨이 서비스인 'Bifrost'가 개발자들에게 소액의 테스트 비용을 제안하며 API 키를 수집하는 'API 키 하베스팅' 패턴을 보이고 있다는 폭로가 나왔습니다. 이 서비스는 게이트웨이 구조를 통해 사용자의 모든 트래픽과 인증 키를 통제할 수 있는 구조적 위험성을 내포하고 있습니다.
Research: Why Bifrost (Maxim AI / H3 Labs Inc.) Fits the Exact Pattern of API Key Harvesting Services Targeting American Indie Devs↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
2
CCmeter: 클로드 성능을 정확히 분석하는 오픈소스 대시보드
CCmeter는 Anthropic의 Claude Code 사용 중 발생하는 비용 누수와 캐시 효율성을 분석하는 오픈소스 로컬 대시보드입니다. 최근 Anthropic의 프롬프트 캐시 TTL(유지 시간) 단축으로 인해 발생할 수 있는 30~60%의 비용 상승 문제를 정밀하게 추적하고 해결책을 제시합니다.
CCmeter: The Open-Source Dashboard That Reveals Exactly Why Your Claude↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
3
Show HN: LLM의 결정론적 출력 테스트를 위한 새로운 벤치마크
LLM이 생성하는 구조화된 데이터(JSON 등)의 단순 형식을 넘어, 실제 데이터 값의 정확성과 신뢰도를 측정하기 위한 새로운 벤치마크인 SOB(Structured Output Benchmark)가 공개되었습니다. 이 벤치마크는 텍스트, 이미지, 오디오 등 다양한 모달리티에서 모델이 얼마나 정확한 값을 추출하고 구조를 유지하는지를 정밀하게 평가합니다.
Show HN: A new benchmark for testing LLMs for deterministic outputs↗interfaze.ai
Hacker News1개월 전공공지능 분석AI 모델
4
미스트랄 미디엄 3.5
미스트랄(Mistral)이 새로운 플래그십 모델인 'Mistral Medium 3.5'와 클라우드 기반의 원격 코딩 에이전트 시스템인 'Vibe'를 공개했습니다. 이번 발표의 핵심은 코딩 작업을 로컬 환경에서 클라우드로 옮겨, 개발자가 자리를 비운 사이에도 에이전트가 병렬로 복잡한 코딩 작업을 수행하고 완료 시 알림을 주는 '비동기적 개발 환경'의 구축입니다.
Mistral Medium 3.5↗mistral.ai
Hacker News1개월 전공공지능 분석AI 모델
5
HERMES.md: Anthropic 오류로 200달러 추가 요금 발생, 환불 거부
Anthropic의 Claude Code 사용 중 특정 문자열('HERMES.md')이 포함된 커밋 메시지가 있으면, 기존 Max 플랜의 쿼터를 사용하지 않고 '추가 사용량(extra usage)'으로 비용을 청구하는 버그가 발견되었습니다. 이로 인해 사용자는 의도치 않게 200달록러 이상의 추가 비용을 지불하는 피해를 입었습니다.
HERMES.md: Anthropic bug causes $200 extra charge, refuses refund↗github.com
Hacker News1개월 전공공지능 분석AI 모델
6
LLM이 전화번호를 암기하는 방법 (그리고 Labs가 이를 막는 방법)
LLM은 학습 데이터 중 반복적으로 등장하는 전화번호, 이메일 등 구조화된 개인정보(PII)를 암기하여 외부로 유출할 위험이 있습니다. 이를 방지하기 위해 글로벌 AI 연구소들은 데이터 중복 제거(Deduplication), 카나리 모니터링, 출력 필터링 등 다층적인 방어 체계를 구축하고 있습니다.
How LLMs Memorize Phone Numbers (and How Labs Stop It)↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
7
증명 없이 FHE를 사용하는 것은 위험 부담
완전동형암호(FHE)는 암호화된 상태로 연산을 가능하게 하지만, 어떤 연산이 수행되었는지 증명할 수 없다는 보안 허점이 있습니다. H33은 모든 연산에 대해 74바이트 규모의 양자 내성(PQ) 증명을 제공하여, 연산의 무결성을 독립적으로 검증할 수 있는 솔루션을 제시합니다.
Why FHE Without Attestation Is a Liability↗dev.to
Dev.to WebDev1개월 전공공지능 분석AI 모델
8
새로운 AI 모델, 성능과 효율성 모두 잡다
Liminary는 사용자가 저장한 모든 정보를 AI의 '작업 메모리'로 변환하여, 회의, 연구, 글쓰기 전반에 걸쳐 통합된 지식 맥락을 제공하는 생산성 도구입니다. 단순한 챗봇을 넘어 파편화된 지식을 연결함으로써, 사용자가 별도의 시작점 없이도 출처가 명확한 결과물을 생성할 수 있도록 돕습니다.
Liminary↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
9
istempmail.com을 만들었습니다.
isttempmail.com은 웹사이트 운영자가 일회용(disposable) 이메일 주소를 실시간으로 감지하고 차단할 수 있도록 돕는 보안 도구입니다. API와 워드프레스 플러그인을 제공하여 SaaS 및 마켓플레이스 플랫폼의 가짜 계정 생성과 스팸 어뷰징을 방지합니다.
I built istempmail.com↗dev.to
Dev.to WebDev1개월 전공공지능 분석AI 모델
10
Lemonade v10.3: 자체 GPU에서 로컬 LLM, 이미지 생성, 음성 처리 무료 실행
오픈소스 로컬 AI 서버인 Lemonade가 v10.3으로 업데이트되었습니다. 이번 업데이트는 Tauri 전환을 통한 앱 경량화, 멀티모달 처리를 위한 OmniRouter 도입, AMD ROCm 7 지원을 핵심으로 하며, 클라우드 API 비용 절감과 데이터 보안을 위한 강력한 대안을 제시합니다.
Lemonade v10.3: Run Local LLMs, Image Gen, and Speech on Your Own GPU for Free↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
11
라구나 XS.2 오픈 모델, 2024년 심층 분석: 엔지니어들을 위한 가이드
제공된 기사 내용이 기술적 오류(Liquid syntax error)로 인해 유효한 정보를 포함하고 있지 않아 분석이 불가능합니다. 원문 데이터의 손상으로 인해 '라구나 XS.2' 모델에 대한 어떠한 기술적 분석도 수행할 수 없습니다.
Laguna XS.2 Open Model in 2024: A Deep Dive for Engineers↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
12
Voice Agent API
AssemblyAI가 실시간 음성 에이전트 구축을 위한 'Voice Agent API'를 출시했습니다. 개발자는 복잡한 인프라 구축 없이 오디오 입력만으로 1초 미만의 지연 시간을 가진 고성능 음성 AI 서비스를 구현할 수 있습니다.
Product Hunt↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
13
크린 AI
Crin AI는 텍스트가 토큰과 벡터로 변환되는 과정을 애니메이션 노드 그래프로 시각화하여 보여주는 혁신적인 AI 학습 플랫폼입니다. 기존의 수동적인 영상 강의에서 벗어나, 데이터의 변화 과정을 실시간으로 목격하며 학습할 수 있는 개발자 중심의 인터랙티브 경험을 제공합니다.
Crin AI↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
14
Google TV에 더 많은 Gemini 기능이 추가될 예정
구글이 Google TV에 생성형 AI인 Gemini 기능을 대폭 강화하고, 유튜브 쇼츠(YouTube Shorts) 전용 피드를 도입하여 거실 경험을 혁신합니다. 이미지 생성 모델 'Nano Banana'와 비디오 생성 모델 'Veont'를 통해 사용자가 음성만으로 사진을 편집하거나 영상을 제작할 수 있는 인터랙티브한 환경을 구축하는 것이 핵심입니다.
More Gemini features are coming to Google TV↗techcrunch.com
TechCrunch1개월 전공공지능 분석AI 모델
15
RAG vs Fine-Tuning: 실제로 어느 쪽을 사용해야 할까?
LLM 애플리케이션 구축 시 직면하는 핵심 난제인 RAG와 파인튜닝의 차이점과 선택 기준을 명확히 제시합니다. 데이터의 업데이트 주기, 출처 인식 필요성, 출력 형식의 정밀도에 따라 최적의 아키텍처를 결정하는 실무적인 프레임워크를 제공합니다.
RAG vs Fine-Tuning: Which One Should You Actually Use?↗dev.to
Dev.to WebDev1개월 전공공지능 분석AI 모델
16
AI가 자료를 선택할 때: 구조화된 레코드가 인용 정확도를 높이는 이유
AI 시스템이 정보를 재구성하는 과정에서 출처와 내용 사이의 연결 고리가 약해져 잘못된 인용(Misattribution)이 발생하고 있습니다. 이를 해결하기 위해 단순한 추론이 아닌, 기계가 즉각적으로 인식할 수 있는 구조화된 데이터 레이어인 'AI Citation Registry'의 도입이 필요합니다.
When AI Selects Sources: Why Structured Records Increase Citation Accuracy↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
17
Cohere, 5.42 WER 음성 모델 오픈소스 공개 - 실제 오디오 테스트 결과 확인
Cohere가 Whisper-large-v3보다 높은 정확도와 빠른 속도를 자랑하는 새로운 오픈소스 음성 인식(ASR) 모델 'Cohere Transcribe'를 공개했습니다. 깨끗한 오디오와 실시간 스트리밍 환경에서는 우위를 점하지만, 다국어 혼용(Code-switched)이나 저음질 전화 통화 환경에서는 여전히 Whisper가 강점을 보입니다.
Cohere just open-sourced a 5.42 WER speech model - here's what testing it on real audio showed↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
18
DeepSeek-V4 공개, 드디어 1M 컨텍스트를 모두에게 제공합니다
DeepSeek-V4가 100만(1M) 토큰의 초장문 컨텍스트 윈도우를 오픈 소스로 공개했습니다. 고성능의 Pro 모델과 비용 효율적인 Flash 모델로 이원화하여, 누구나 저렴한 비용으로 방대한 데이터를 처리할 수 있는 시대를 열었습니다.
DeepSeek-V4 is Here, and Yes — 1M Context Is Finally for Everyone↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
19
Claude, 창의적인 작업에 활용하다
Anthropic이 Adobe, Blender, Autodesk 등 주요 크리에이티브 소프트웨어와 직접 연동되는 'Claude 커넥터'를 발표했습니다. 이를 통해 Claude는 단순한 텍텐츠 생성을 넘어, 전문적인 디자인, 3D 모델링, 오디오 편집 워크플로우 내에서 실질적인 작업을 수행하고 자동화하는 '에이전트'로 진화합니다.
Claude for Creative Work↗anthropic.com
Hacker News1개월 전공공지능 분석AI 모델
20
오푸스를 활용하여 LLM 비용을 절감했습니다
대규모 CI 로그 분석 시 발생하는 막대한 LLM 비용 문제를 해결하기 위해, 저렴한 모델(Haiku)이 1차 분류를 담당하고 고성능 모델(Opus)이 복잡한 문제만 해결하는 'Triager' 멀티 에이전트 아키텍처를 도입했습니다. 데이터를 프롬프트에 직접 넣는 대신 에이전트가 SQL을 통해 필요한 데이터만 조회하는 'Pull' 방식을 채택하여 비용 효율성과 분석 정확도를 동시에 높였습니다.
We decreased our LLM costs with Opus↗mendral.com
Hacker News1개월 전공공지능 분석AI 모델
21
ChatGPT가 광고를 어떻게 제공하는가
OpenAI가 ChatGPT 내에 구현한 광고 시스템의 기술적 메커니즘을 분석한 내용입니다. ChatGPT는 SSE(Server-Sent Events)를 통해 대화 흐름에 광고 유닛을 직접 주입하며, OAIQ라는 전용 SDK와 Fernet 암호화 토큰을 사용하여 사용자의 클릭부터 광고주 사이트에서의 전환까지 정밀하게 추적하는 폐쇄형 루프(Closed-loop) 광고 생태계를 구축하고 있습니다.
How ChatGPT serves ads↗buchodi.com
Hacker News1개월 전공공지능 분석AI 모델
22
Claude 시스템 프롬프트 버그로 사용자 자금 낭비 및 관리 에이전트 손상 발생
Anthropic의 Claude Code CLI에서 시스템 프롬프트 주입 버거로 인해, 정상적인 코드 수정 요청을 AI 에이전트가 거부하는 현상이 발생하고 있습니다. 이 버그는 악성코드 방지 문구를 모든 파일 읽기 작업에 강제 적용함으로써, 멀티 에이전트 워크플로우의 신뢰성을 무너뜨리고 불필요한 토큰 비용을 발생시키고 있습니다.
Claude system prompt bug wastes user money and bricks managed agents↗github.com
Hacker News1개월 전공공지능 분석AI 모델
23
프리스마, 570개의 모델에서 멈췄다. 나는 제너레이터를 500ms 안에 재구축했다.
Prisma가 대규모 스키마(570개 이상의 모델)에서 V8 엔진의 문자열 길이 제한으로 인해 작동을 멈추는 치명적인 한계를 발견하고, 이를 해결하기 위해 정규표현식을 활용한 초경량 커스텀 제너레이터를 구축한 사례를 다룹니다. 전체 클라이언트를 재생성하는 대신 변경된 부분만 패치하는 전략을 통해 생성 시간을 500ms 이내로 단축했습니다.
Prisma Broke at 570 Models. I Rebuilt Its Generator in 500ms.↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델