LLM·모델 최신 뉴스

Google, Gemma 4 오픈 모델 공개

구글이 모바일 및 IoT 기기에서의 최대 연산 및 메모리 효율성을 목표로 하는 오픈 모델 'Gemma 4 (E2B & E4B)'를 공개했습니다. 이는 엣지 디바이스에 새로운 차원의 지능을 구현하여 더 광범위한 AI 적용을 가능하게 할 것입니다.

Google releases Gemma 4 open models↗deepmind.google

Hacker News6일 전공공지능 분석LLM/모델

Microsoft, 3가지 신규 기반 모델로 AI 경쟁사에 도전

마이크로소프트 AI는 텍스트, 음성, 이미지 생성이 가능한 세 가지 새로운 기반 AI 모델(MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2)을 발표했습니다. 이 모델들은 자체적인 멀티모달 AI 스택을 구축하고 경쟁사들과 겨루려는 마이크로소프트의 노력을 보여주며, 특히 구글 및 OpenAI 모델보다 저렴한 비용을 주요 강점으로 내세웁니다.

Microsoft takes on AI rivals with three new foundational models↗techcrunch.com

TechCrunch6일 전공공지능 분석LLM/모델

Data Scientist의 복수

LLM API의 등장으로 데이터 과학자의 역할이 축소될 것이라는 우려와 달리, 이들은 AI 시스템의 핵심 '하네스 엔지니어링', 즉 예측 모델의 평가, 디버깅, 지표 설계 등에서 필수적인 역할을 수행하며 '복수'할 것이라는 주장입니다. 특히, 추상적인 지표나 검증되지 않은 LLM 심판 대신 데이터 기반의 구체적인 문제 진단과 애플리케이션 특화 지표 개발이 중요해지고 있습니다.

The revenge of the data scientist↗hamel.dev

Hacker News7일 전공공지능 분석LLM/모델

M5 Pro 및 IOS를 위한 TurboQuant KV Compression 및 SSD Expert Streaming

SwiftLM은 Apple Silicon에 최적화된 초고속 Swift 추론 서버로, OpenAI 호환 API를 통해 MLX 모델을 서비스합니다. V2+V3 하이브리드 TurboQuant를 통해 KV 캐시를 FP16 대비 3.5배 압축하고, NVMe SSD에서 MoE 레이어를 직접 스트리밍하는 기술로 122B급 대규모 모델도 효율적으로 구동할 수 있습니다. iPhone에서도 MLX 모델을 직접 실행하는 iOS 앱을 제공하여 온디바이스 AI의 가능성을 확장합니다.

TurboQuant KV Compression and SSD Expert Streaming for M5 Pro and IOS↗github.com

Hacker News7일 전공공지능 분석LLM/모델

LLM 에이전트는 뇌뿐만 아니라 신경계도 필요하다.

이 기사는 LLM 에이전트의 오작동이 단순히 시스템 오류가 아닌 '행동적 퇴보(behavioral degradation)' 형태로 나타나며, 이를 감지하는 것이 중요하다고 강조합니다. 저자는 모델 출력의 이진적(Pass/Fail) 판단을 넘어, 세션 중 발생하는 범위 확장, 노이즈 증가, 환각 등 미묘한 이상 징후를 실시간으로 모니터링하는 두 가지 계층('세션 드리프트 모니터'와 '엔트로피 캡슐 엔진')을 제안합니다. 특히 공격적 도구(offensive tooling)에서 무단 행동의 위험성을 줄이기 위해 이러한 '신경계' 같은 모니터링 시스템이 필수적임을 역설합니다.

LLM Agents Need a Nervous System, Not Just a Brain↗dev.to

Dev.to7일 전공공지능 분석LLM/모델

22,000 토큰 세금: 내가 내 MCP 서버를 죽인 이유

이 글은 LLM 개발 초기 단계에서 작은 비용 절감보다는 탐색과 학습에 집중해야 하며, 실제 토큰 소비의 문제는 '컨텍스트 손실'로 인한 성능 저하에 있음을 강조합니다. 저자는 불필요한 MCP(Multi-Component Platform) 서버가 22,000 토큰을 소모하며 LLM 컨텍스트를 오염시키는 문제를 발견하고, 이를 7개의 단순한 `curl` 셸 스크립트로 대체하여 컨텍스트 효율성과 성능을 극대화한 경험을 공유합니다.

The 22,000 Token Tax: Why I Killed My MCP Server↗dev.to

Dev.to7일 전공공지능 분석LLM/모델

전문가 혼합

Mixture of Experts (MoE) 아키텍처는 LLM의 컴퓨팅 비용을 절감하는 잠재력을 가졌지만, 토큰 레벨 라우팅, 전문가 붕괴 방지, 막대한 VRAM 요구사항, 네트워크 통신 병목 등 복잡한 엔지니어링 과제를 수반합니다. 이는 인퍼런스 시 컴퓨팅에만 한정된 비용 절감이며, 전체 모델이 항상 메모리에 로드되어야 하므로 소규모 팀에는 큰 부담이 됩니다. 따라서 MoE는 단순한 해결책이 아니라 고도의 기술력과 자원을 요구하는 복잡한 트레이드오프의 게임입니다.

Mixture of Experts↗dev.to

Dev.to7일 전공공지능 분석LLM/모델

Show HN: 1-Bit Bonsai, 최초의 상용화된 1-Bit LLMs

Prism ML이 세계 최초 상용화된 1-Bit LLM 'Bonsai'를 출시하며, 모바일 및 엣지 디바이스에서의 AI 실행 가능성을 혁신했습니다. 이 모델은 메모리, 속도, 에너지 효율을 대폭 개선하면서도 기존 모델과 유사한 성능을 제공하여, 온디바이스 AI 시대의 문을 열고 있습니다.

Show HN: 1-Bit Bonsai, the First Commercially Viable 1-Bit LLMs↗prismml.com

Hacker News7일 전공공지능 분석LLM/모델

TinyLoRA: 13개 파라미터로 추론 학습

TinyLoRA는 단 13개 파라미터(bf16 기준 26바이트)만을 사용하여 80억 파라미터 규모의 Qwen2.5 모델이 GSM8K 벤치마크에서 91%의 추론 정확도를 달성하는 획기적인 기술입니다. 이는 기존 LoRA의 한계를 넘어 최소 1개 파라미터까지 어댑터를 축소할 수 있으며, 강화 학습(RL)을 통해서만 이처럼 강력한 성능을 발휘합니다.

TinyLoRA – Learning to Reason in 13 Parameters↗arxiv.org

Hacker News7일 전공공지능 분석LLM/모델

HN: Cerno 공개 – 인간의 생물학적 특성 대신 LLM 추론을 겨냥한 CAPTCHA

Cerno는 인간의 생물학적 특성 대신 LLM 추론 능력에 도전하는 새로운 오픈소스 CAPTCHA 솔루션을 공개했습니다. 이 시스템은 미로 상호작용의 모터 제어 분석과 작업 증명, 스트룹 테스트, 평판 시스템 등 다단계 검증 파이프라인을 통해 정교한 봇을 효과적으로 차단합니다.

Show HN: Cerno – CAPTCHA that targets LLM reasoning, not human biology↗cerno.sh

Hacker News8일 전공공지능 분석LLM/모델

토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 어떻게 해결하는가

최근 LLM 아키텍처는 KV 캐시의 메모리 점유율을 획기적으로 줄여 추론 비용을 절감하고 있습니다. GPT-2의 토큰당 300KiB에서 Llama 3의 GQA (128KiB), DeepSeek V3의 MLA (68.6KiB) 같은 기술을 통해 메모리 사용량을 최소화하며, Mamba와 같은 새로운 모델은 아예 KV 캐시를 제거하기도 합니다. 이는 LLM의 운영 효율성과 접근성을 크게 향상시킬 것입니다.

From 300KB to 69KB per Token: How LLM Architectures Solve the KV Cache Problem↗news.future-shock.ai

Hacker News8일 전공공지능 분석LLM/모델

코히어(Cohere)가 오픈소스 기반의 최첨단 자동 음성 인식(ASR) 모델 '트랜스크라이브(Transcribe)'를 발표했습니다. 이 모델은 허깅페이스 오픈 ASR 리더보드에서 5.42%의 평균 단어 오류율(WER)로 1위를 기록하며 위스퍼 라지 v3 등을 능가하는 정확도를 보여줍니다. 한국어를 포함한 14개 언어를 지원하며, 생산 환경에 최적화된 설계와 아파치 2.0 라이선스로 제공됩니다.

코히어(Cohere)가 오픈소스 기반의 최첨단 자동 음성 인식(ASR) 모델 '트랜스크라이브(Transcribe)'를 발표했습니다. 이 모델은 허깅페이스 오픈 ASR 리더보드에서 5.42%의 평균 단어 오류율(WER)로 1위를 기록하며 위스퍼 라지 v3 등을 능가하는 정확도를 보여줍니다. 한국어를 포함한 14개 언어를 지원하며, 생산 환경에 최적화된 설계와 아파치 2.0 라이선스로 제공됩니다.

Cohere Transcribe: Speech Recognition↗cohere.com

Hacker News8일 전공공지능 분석LLM/모델

세 가지가 맞아떨어져야 했다: LLM 혁명 이면의 진짜 이야기

LLM 혁명은 갑자기 나타난 것이 아니라, 60년간의 연구와 우발적인 기술적 돌파, 그리고 세 가지 핵심 요소(트랜스포머 아키텍처, 방대한 데이터, GPU 하드웨어)가 2017년경 동시에 성숙하면서 가능해졌습니다. 과거의 챗봇과 검색 엔진이 가졌던 '망각 문제'와 '키워드 문제'를 트랜스포머의 '셀프 어텐션' 메커니즘이 해결하며 AI 언어 처리의 패러다임을 바꾼 것이 핵심입니다.

Three Things Had to Align: The Real Story Behind the LLM Revolution↗dev.to

Dev.to8일 전공공지능 분석LLM/모델

LLM용 TurboQuant 작동 방식과 RAM 사용량이 훨씬 적은 이유

LLM 스케일링의 주요 병목이 모델 크기/GPU에서 메모리 효율성으로 전환되며, 특히 추론 시 KV 캐시가 막대한 RAM을 소비합니다. TurboQuant는 숫자를 스케일과 정수 코드로 저장하고 어텐션 정확도를 유지하는 경량 교정 단계를 통해 기존 양자화보다 훨씬 적은 RAM으로 LLM을 효율적으로 운영하는 방법을 제시합니다. 이는 LLM 서비스의 비용과 속도 문제를 해결하는 핵심 기술입니다.

How TurboQuant Works for LLMs and Why It Uses Much Less RAM↗dev.to

Dev.to8일 전공공지능 분석LLM/모델

Mr. Chatterbox는 빅토리아 시대의 윤리적으로 훈련된 model이다

트립 벤투렐라가 개발한 'Mr. Chatterbox'는 1837년에서 1899년 사이 영국 도서관의 저작권 만료 텍스트 28,000여 권(약 29.3억 토큰)으로만 학습된 빅토리아 시대 스타일의 언어 모델입니다. 이 모델은 3.4억 개의 매개변수로 GPT-2-Medium과 유사한 크기이며 로컬에서 실행 가능하지만, 현재로서는 대화 성능이 매우 제한적입니다. 하지만 저작권 문제가 없는 데이터로 LLM을 학습시킬 수 있다는 가능성을 보여주는 중요한 첫걸음으로 평가됩니다.

Mr. Chatterbox is a Victorian-era ethically trained model↗simonwillison.net

Hacker News8일 전공공지능 분석LLM/모델

Google의 2억 매개변수 시계열 파운데이션 모델, 16k 컨텍스트

구글 리서치가 2억 개의 매개변수를 가진 시계열 예측 파운데이션 모델 'TimesFM 2.5'를 공개했습니다. 이 모델은 기존 버전 대비 매개변수를 5억 개에서 2억 개로 줄이면서도 컨텍스트 길이는 16k까지 확장했으며, 연속적인 분위수 예측 기능을 추가했습니다. 이는 복잡한 시계열 데이터를 더욱 효율적이고 정확하게 분석하고 예측하는 새로운 기준을 제시합니다.

Google's 200M-parameter time-series foundation model with 16k context↗github.com

Hacker News8일 전공공지능 분석LLM/모델

Universal Claude.md – Claude 출력 토큰 절감

Anthropic Claude 모델의 출력 토큰을 최대 63%까지 절감할 수 있는 `CLAUDE.md` 파일을 소개하는 글입니다. 이 파일은 프로젝트 루트에 두기만 하면 Claude의 불필요한 서문, 미사여구, 형식적 발언, 장황한 코드 생성을 제거하여 더욱 간결하고 파싱하기 쉬운 응답을 유도합니다. 특히 자동화 파이프라인과 같이 높은 출력 볼륨을 가진 시나리오에서 비용 효율성을 크게 높일 수 있습니다.

Universal Claude.md – cut Claude output tokens↗github.com

Hacker News8일 전공공지능 분석LLM/모델

Ollama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)

Ollama가 2026년 3월 30일부로 Apple의 MLX 프레임워크를 통해 Apple Silicon에서 구동되는 프리뷰 버전을 공개했습니다. 이는 M5 칩셋의 GPU Neural Accelerators를 활용하여 Ollama 0.19 버전에서 기존 대비 최대 2배 빠른 성능(예: 디코드 속도 112 tokens/s)을 제공하며, NVFP4 지원 및 캐싱 개선으로 로컬 LLM 추론의 효율성과 품질을 크게 향상시킵니다.

Ollama is now powered by MLX on Apple Silicon in preview↗ollama.com

Hacker News8일 전공공지능 분석LLM/모델

Marginalia 검색용 NSFW 필터

Marginalia Search는 API 소비자를 위해 빠르고 CPU 친화적인 NSFW 필터를 개발 중이다. 최신 트랜스포머 모델은 속도 제약으로 배제하고, Fasttext로 시도했으나 학습 데이터의 편향 문제로 초기 성능이 미흡했다. 현재는 오픈소스 LLM을 활용해 수만 개의 샘플 데이터를 자동 라벨링하고, 이를 바탕으로 경량 모델을 구축하려는 실용적인 접근 방식을 택하고 있다.

An NSFW filter for Marginalia search↗marginalia.nu

Hacker News9일 전공공지능 분석LLM/모델

건설 문서 OCR은 작동하지 않지만, 우리가 고쳤습니다.

이 기사는 건축 도면에서 문을 자동으로 탐지하는 Anchorgrid의 새로운 OCR(Optical Character Recognition) API를 소개합니다. 무료 티어에서는 페이지당 2~4분, 유료 플랜에서는 전용 GPU 인프라를 통해 더 빠른 처리를 제공하여 건설 문서 처리의 비효율성을 해결하는 데 중점을 둡니다.

OCR for construction documents does not work, we fixed it↗getanchorgrid.com

Hacker News9일 전공공지능 분석LLM/모델

직접 쓰세요

이 글은 LLM을 활용한 문서 생성이 사고력 증진과 신뢰 구축의 기회를 박탈한다고 경고합니다. 진정한 글쓰기는 문제를 이해하고 해결하며, 자기 성장의 중요한 과정이므로 LLM은 보조 도구로 활용하되 핵심적인 사고는 인간이 직접 해야 한다고 강조합니다.

Do your own writing↗alexhwoods.com

Hacker News9일 전공공지능 분석LLM/모델

Sora의 중단은 AI 비디오에 현실 직시의 순간이 될 수 있다

OpenAI가 출시 6개월 만에 Sora 앱 및 관련 비디오 모델을 중단했습니다. 이는 잠재적 IPO를 앞두고 기업 및 생산성 도구에 집중하려는 OpenAI의 전략적 결정으로 분석됩니다. 이번 중단은 AI 비디오 도구 개발사와 할리우드 대체론자들에게 현실적인 경고 메시지가 될 수 있습니다.

Sora’s shutdown could be a reality check moment for AI video↗techcrunch.com

TechCrunch10일 전공공지능 분석LLM/모델

좋은 MCP tool definition이란 무엇이며, 끔찍한 것은 무엇인가

이 기사는 AI 모델이 외부 시스템과 상호작용하는 데 사용되는 MCP(Machine Comprehensible Programs) 도구 정의의 중요성을 강조합니다. 좋은 도구 정의는 AI의 유용성과 정확성을 결정하며, 이름 지정, 매개변수 명확성, 그리고 도구의 스코프를 명확히 하는 것이 핵심입니다.

What makes a good MCP tool definition (and what makes a terrible one)↗dev.to

Dev.to10일 전공공지능 분석LLM/모델

Paper Tape만 있으면 된다: 1976년 Minicomputer에서 Transformer 훈련

ATTN/11 프로젝트는 1976년 미니컴퓨터인 PDP-11에서 어셈블리어로 단일 레이어 트랜스포머를 구현하고 학습시키는 데 성공했습니다. 이는 현대 AI의 핵심 구성 요소인 트랜스포머가 극도로 제한된 하드웨어에서도 고도로 최적화될 경우 효과적으로 작동할 수 있음을 보여줍니다.

Paper Tape Is All You Need – Training a Transformer on a 1976 Minicomputer↗github.com

Hacker News11일 전공공지능 분석LLM/모델

Real-time RL을 통한 Composer 개선

이 글은 코딩 모델인 Composer를 개선하기 위해 실제 사용자 상호작용을 훈련 신호로 활용하는 '실시간 RL(강화 학습)' 접근 방식을 소개합니다. 시뮬레이션 환경의 한계인 'train-test mismatch'를 극복하고, 매 5시간마다 모델을 업데이트하여 실제 사용자 피드백을 기반으로 빠르게 개선하는 것이 핵심입니다.

Improving Composer through real-time RL↗cursor.com

Hacker News11일 전공공지능 분석LLM/모델

2026년 LLM 보안: Python 개발자 체크리스트 (프로덕션에서 호되게 당하고 배운 점)

이 글은 2026년 기준 프로덕션 환경에서 겪은 프롬프트 인젝션 경험을 바탕으로, Python 개발자를 위한 LLM 보안 체크리스트를 제시합니다. OWASP LLM01:2025에서 가장 위험한 취약점으로 꼽히는 프롬프트 인젝션 등 실제 발생한 사건들을 언급하며, 직접/간접 인젝션 및 다중 에이전트 공격의 위협 모델을 설명하고 구체적인 5가지 보안 지침을 제안합니다.

LLM Security in 2026: The Python Developer's Checklist (What I Learned Getting Burned in Production)↗dev.to

Dev.to11일 전공공지능 분석LLM/모델

잘못된 Embeddings로 Semantle 해결하기

이 글은 인기 단어 게임 Semantle의 목표 단어를 찾는 새로운 접근 방식을 소개합니다. 기존 솔버가 게임의 정확한 임베딩 모델을 알아야 했던 것과 달리, 이 새로운 방법은 추측들의 절대적인 유사도 점수 대신 상대적인 순위 정보만을 활용합니다. 이를 통해 게임의 기본 임베딩 모델이 바뀌어도 작동하는 더욱 견고한 솔버를 구현할 수 있습니다.

Solving Semantle with the Wrong Embeddings↗victoriaritvo.com

Hacker News12일 전공공지능 분석LLM/모델

Chroma Context-1: 자체 편집 검색 에이전트 훈련

Chroma Context-1은 다단계 검색 쿼리의 한계를 극복하기 위해 설계된 200억 개의 파라미터를 가진 에이전트형 검색 모델입니다. 이 모델은 자체 편집 컨텍스트 기능을 통해 관련 없는 정보를 능동적으로 제거하며, 최신 대규모 언어 모델에 필적하는 검색 성능을 제공하면서도 비용을 절감하고 추론 속도를 최대 10배 향상시킵니다.

Chroma Context-1: Training a Self-Editing Search Agent↗trychroma.com

Hacker News12일 전공공지능 분석LLM/모델

500달러 GPU, 코딩 벤치마크에서 Claude Sonnet 능가

ATLAS는 단일 소비자용 GPU에서 실행되는 14B 규모의 경량 모델이 지능형 인프라(구조화된 생성, 자체 검증된 반복 정제 등)를 통해 Claude Sonnet을 능가하는 코딩 벤치마크 성능을 달성했음을 보여줍니다. 이는 API 호출이나 클라우드 없이 온전히 자체 호스팅되어, 비용을 획기적으로 절감하고 데이터 주권 문제를 해결합니다. 고가의 모델 파인튜닝 없이도 프론티어급 AI 성능을 경제적인 방식으로 구현할 수 있음을 입증했습니다.

$500 GPU outperforms Claude Sonnet on coding benchmarks↗github.com

Hacker News12일 전공공지능 분석LLM/모델

이제 다른 챗봇에서 채팅 및 개인 정보를 Gemini로 바로 전송할 수 있습니다

구글 제미니가 '스위칭 툴'을 공개하며 다른 챗봇에서 개인 정보('기억')와 전체 채팅 기록을 제미니로 바로 전송할 수 있게 되었습니다. 이는 사용자가 제미니를 처음부터 다시 학습시킬 필요 없이 쉽게 채택하도록 유도하여, 주요 경쟁 챗봇인 챗GPT로부터 사용자를 유치하려는 전략입니다. 구글은 이를 통해 소비자 AI 챗봇 시장에서 선두주자인 챗GPT와의 격차를 줄이고자 합니다.

You can now transfer your chats and personal information from other chatbots directly into Gemini↗techcrunch.com

TechCrunch13일 전공공지능 분석LLM/모델

Google은 다른 AI의 메모리를 Gemini로 더 쉽게 가져올 수 있도록 만들고 있다.

구글 제미니가 다른 AI 챗봇의 사용자 기억과 대화 기록을 쉽게 가져올 수 있는 새로운 도구를 출시했습니다. 이는 프롬프트 복사-붙여넣기 또는 최대 5GB의 .zip 파일 업로드 방식을 통해 가능하며, AI 서비스 간 사용자 이동성을 크게 개선할 것으로 예상됩니다.

Google is making it easier to import another AI’s memory into Gemini↗theverge.com

The Verge13일 전공공지능 분석LLM/모델

제로에서 RAG 시스템까지: 성공과 실패

이 글은 사내 엔지니어들을 위한 로컬 LLM 기반 RAG 챗봇 구축 프로젝트의 성공과 실패 과정을 다룹니다. 저자는 10년치 방대한 비정형 문서(1TB)에서 빠르고 정확한 답변을 제공해야 하는 과제에 직면했으며, 기술 스택 선정부터 엄청난 양의 혼란스러운 데이터를 처리하는 과정에서 겪었던 시행착오와 해결책을 공유합니다.

From zero to a RAG system: successes and failures↗en.andros.dev

Hacker News13일 전공공지능 분석LLM/모델

ATOM MCP Server로 실시간 AI Inference 가격 조회

ATOM은 47개 벤더와 2,583개 SKU에 걸친 LLM 가격 정보를 실시간으로 추적하고 표준화하여 제공하는 서비스입니다. 이 데이터를 Model Context Protocol(MCP) 서버를 통해 AI 에이전트가 직접 쿼리할 수 있도록 함으로써, 복잡하고 변동성 높은 LLM 추론 비용을 최적화하고 투명성을 높입니다. 이를 통해 에이전트 기반 AI 애플리케이션의 비용 효율적인 모델 선택을 지원합니다.

Query Live AI Inference Pricing with the ATOM MCP Server↗dev.to

Dev.to13일 전공공지능 분석LLM/모델

Google의 '라이브' AI 검색 어시스턴트, 수십 개 이상의 언어로 대화 가능

Google이 음성 및 카메라 기반 AI 검색 어시스턴트 'Search Live'를 전 세계 200개 이상의 국가 및 지역과 수십 개 언어로 확대 배포합니다. 새로운 Gemini 3.1 Flash Live 모델을 기반으로 더욱 빠르고 자연스러우며 본질적으로 다국어 대화를 지원하며, 동시에 Google 번역의 실시간 번역 기능도 iOS 및 더 많은 지역으로 확장됩니다.

Google’s ‘live’ AI search assistant can handle conversations in dozens more languages↗theverge.com

The Verge13일 전공공지능 분석LLM/모델

ByteDance의 새로운 AI 동영상 생성 모델 Dreamina Seedance 2.0, CapCut에 출시

바이트댄스가 새로운 AI 동영상 생성 모델 'Dreamina Seedance 2.0'을 자사 편집 플랫폼 CapCut에 출시했습니다. OpenAI의 Sora 앱 중단과 대비되는 행보로, 브라질, 인도네시아 등 7개 시장부터 단계적으로 배포되며 향후 지적재산권 문제를 해결하며 시장을 확대할 예정입니다. 이 모델은 텍스트, 이미지, 참조 영상을 활용해 비디오와 오디오를 생성, 편집, 동기화하는 기능을 제공합니다.

ByteDance’s new AI video generation model, Dreamina Seedance 2.0, comes to CapCut↗techcrunch.com

TechCrunch13일 전공공지능 분석LLM/모델

Cohere, 전사 전용 오픈 소스 음성 모델 출시

AI 기업 코히어(Cohere)가 자사의 첫 오픈 소스 음성 모델인 '트랜스크라이브(Transcribe)'를 출시했습니다. 이 모델은 20억 개 매개변수로 경량화되어 소비자용 GPU에서도 구동 가능하며, 줌 스크라이브(Zoom Scribe) 등 기존 모델을 능가하는 성능을 보여줍니다. 한국어를 포함한 14개 언어를 지원하며, 무료 API 제공 및 자체 호스팅을 지원해 접근성을 높였습니다.

Cohere launches an open source voice model specifically for transcription↗techcrunch.com

TechCrunch13일 전공공지능 분석LLM/모델

Mistral, 음성 생성을 위한 새로운 오픈소스 모델 공개

프랑스 AI 기업 미스트랄이 음성 AI 비서 및 기업용으로 활용 가능한 새로운 오픈소스 텍스트-음성 변환(TTS) 모델 'Voxtral TTS'를 출시했습니다. 이 모델은 소형 기기에 탑재 가능하고 비용 효율적이며, 9개 언어를 지원하고 미묘한 음성 특성까지 재현하며 실시간 성능을 자랑하여 ElevenLabs, OpenAI 등과 직접 경쟁하게 됩니다.

Mistral releases a new open source model for speech generation↗techcrunch.com

TechCrunch13일 전공공지능 분석LLM/모델

AI가 정답을 아는데도 환각을 보이는 이유

이 기사는 AI가 때때로 '환각'을 일으켜 잘못된 정보를 그럴듯하게 제시하는 이유를 심층적으로 설명합니다. AI는 사실을 저장하는 데이터베이스가 아니라, 방대한 텍스트 데이터에서 통계적 패턴을 학습하여 다음 단어를 예측하는 '예측 기계'이기 때문입니다. 따라서 AI는 사실적으로 정확한 텍스트보다는 통계적으로 그럴듯한 텍스트를 생성하도록 훈련되며, 정보가 부족할 때 그럴듯한 패턴을 채워넣으면서 거짓 정보를 만들어낼 수 있습니다.

Why AI Hallucinates Even When It Knows the Answer↗dev.to

Dev.to13일 전공공지능 분석LLM/모델

30분 만에 AWS Bedrock과 Python으로 실제 AI 챗봇을 만들었다

이 기사는 AWS Bedrock과 Python을 사용하여 30분 만에 AI 챗봇을 만드는 방법을 설명합니다. OpenAI API 키나 복잡한 설정 없이, 기존 AWS 계정만으로 Claude와 같은 강력한 모델에 접근하여 대화 기록을 기억하는 터미널 기반 챗봇을 구축하는 과정을 보여줍니다.

I Built a Real AI Chatbot With AWS Bedrock and Python in 30 Minutes↗dev.to

Dev.to13일 전공공지능 분석LLM/모델

Ensu: Ente의 로컬 LLM 앱

Ente는 빅테크 기업에 의존하지 않는 개인 정보 보호와 통제를 강조하며 오프라인에서 구동되는 로컬 LLM 앱 'Ensu'를 출시했습니다. 이 앱은 완전히 기기 내에서 작동하여 프라이버시를 보장하며, 향후 E2EE 동기화 및 백업 기능을 통해 더욱 개인화된 AI 경험을 제공할 예정입니다. Ensu는 아직 초기 단계이지만, Ente는 과거 로컬 얼굴 인식 기술 성공 사례를 바탕으로 로컬 LLM의 '충분한 역량' 임계점 도달 가능성을 믿고 있습니다.

Ensu – Ente’s Local LLM app↗ente.com

Hacker News14일 전공공지능 분석LLM/모델

더 보기 (현재 40건)

LLM·모델 최신 뉴스

Google, Gemma 4 오픈 모델 공개

Microsoft, 3가지 신규 기반 모델로 AI 경쟁사에 도전

Data Scientist의 복수

M5 Pro 및 IOS를 위한 TurboQuant KV Compression 및 SSD Expert Streaming

LLM 에이전트는 뇌뿐만 아니라 신경계도 필요하다.

22,000 토큰 세금: 내가 내 MCP 서버를 죽인 이유

전문가 혼합

Show HN: 1-Bit Bonsai, 최초의 상용화된 1-Bit LLMs

TinyLoRA: 13개 파라미터로 추론 학습

HN: Cerno 공개 – 인간의 생물학적 특성 대신 LLM 추론을 겨냥한 CAPTCHA

토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 어떻게 해결하는가

세 가지가 맞아떨어져야 했다: LLM 혁명 이면의 진짜 이야기

LLM용 TurboQuant 작동 방식과 RAM 사용량이 훨씬 적은 이유

Mr. Chatterbox는 빅토리아 시대의 윤리적으로 훈련된 model이다

Google의 2억 매개변수 시계열 파운데이션 모델, 16k 컨텍스트

Universal Claude.md – Claude 출력 토큰 절감

Ollama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)

Marginalia 검색용 NSFW 필터

건설 문서 OCR은 작동하지 않지만, 우리가 고쳤습니다.

직접 쓰세요

Sora의 중단은 AI 비디오에 현실 직시의 순간이 될 수 있다

좋은 MCP tool definition이란 무엇이며, 끔찍한 것은 무엇인가

Paper Tape만 있으면 된다: 1976년 Minicomputer에서 Transformer 훈련

Real-time RL을 통한 Composer 개선

2026년 LLM 보안: Python 개발자 체크리스트 (프로덕션에서 호되게 당하고 배운 점)

잘못된 Embeddings로 Semantle 해결하기

Chroma Context-1: 자체 편집 검색 에이전트 훈련

500달러 GPU, 코딩 벤치마크에서 Claude Sonnet 능가

이제 다른 챗봇에서 채팅 및 개인 정보를 Gemini로 바로 전송할 수 있습니다

Google은 다른 AI의 메모리를 Gemini로 더 쉽게 가져올 수 있도록 만들고 있다.

제로에서 RAG 시스템까지: 성공과 실패

ATOM MCP Server로 실시간 AI Inference 가격 조회

Google의 '라이브' AI 검색 어시스턴트, 수십 개 이상의 언어로 대화 가능

ByteDance의 새로운 AI 동영상 생성 모델 Dreamina Seedance 2.0, CapCut에 출시

Cohere, 전사 전용 오픈 소스 음성 모델 출시

Mistral, 음성 생성을 위한 새로운 오픈소스 모델 공개

AI가 정답을 아는데도 환각을 보이는 이유

30분 만에 AWS Bedrock과 Python으로 실제 AI 챗봇을 만들었다

Ensu: Ente의 로컬 LLM 앱

카테고리

LLM·모델 최신 뉴스

Google, Gemma 4 오픈 모델 공개

Microsoft, 3가지 신규 기반 모델로 AI 경쟁사에 도전

Data Scientist의 복수

M5 Pro 및 IOS를 위한 TurboQuant KV Compression 및 SSD Expert Streaming

LLM 에이전트는 뇌뿐만 아니라 신경계도 필요하다.

22,000 토큰 세금: 내가 내 MCP 서버를 죽인 이유

전문가 혼합

Show HN: 1-Bit Bonsai, 최초의 상용화된 1-Bit LLMs

TinyLoRA: 13개 파라미터로 추론 학습

HN: Cerno 공개 – 인간의 생물학적 특성 대신 LLM 추론을 겨냥한 CAPTCHA

토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 어떻게 해결하는가

세 가지가 맞아떨어져야 했다: LLM 혁명 이면의 진짜 이야기

LLM용 TurboQuant 작동 방식과 RAM 사용량이 훨씬 적은 이유

Mr. Chatterbox는 빅토리아 시대의 윤리적으로 훈련된 model이다

Google의 2억 매개변수 시계열 파운데이션 모델, 16k 컨텍스트

Universal Claude.md – Claude 출력 토큰 절감

Ollama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)

Marginalia 검색용 NSFW 필터

건설 문서 OCR은 작동하지 않지만, 우리가 고쳤습니다.

직접 쓰세요

Sora의 중단은 AI 비디오에 현실 직시의 순간이 될 수 있다

좋은 MCP tool definition이란 무엇이며, 끔찍한 것은 무엇인가

Paper Tape만 있으면 된다: 1976년 Minicomputer에서 Transformer 훈련

Real-time RL을 통한 Composer 개선

2026년 LLM 보안: Python 개발자 체크리스트 (프로덕션에서 호되게 당하고 배운 점)

잘못된 Embeddings로 Semantle 해결하기

Chroma Context-1: 자체 편집 검색 에이전트 훈련

500달러 GPU, 코딩 벤치마크에서 Claude Sonnet 능가

이제 다른 챗봇에서 채팅 및 개인 정보를 Gemini로 바로 전송할 수 있습니다

Google은 다른 AI의 메모리를 Gemini로 더 쉽게 가져올 수 있도록 만들고 있다.

제로에서 RAG 시스템까지: 성공과 실패

ATOM MCP Server로 실시간 AI Inference 가격 조회

Google의 '라이브' AI 검색 어시스턴트, 수십 개 이상의 언어로 대화 가능

ByteDance의 새로운 AI 동영상 생성 모델 Dreamina Seedance 2.0, CapCut에 출시

Cohere, 전사 전용 오픈 소스 음성 모델 출시

Mistral, 음성 생성을 위한 새로운 오픈소스 모델 공개

AI가 정답을 아는데도 환각을 보이는 이유

30분 만에 AWS Bedrock과 Python으로 실제 AI 챗봇을 만들었다