Llama 뉴스
Meta의 오픈소스 LLM Llama 시리즈의 릴리스, 벤치마크, 파인튜닝 소식을 전합니다.
총 6건
Whisper, Ollama, Gradio를 활용한 음성 제어 로컬 AI 에이전트 구축하기
이 기사는 Whisper(음성 인식), Ollama(LLM), Gradio(UI)를 활용하여 클라우드 연결 없이 로컬 환경에서 실행되는 음성 제어 AI 에이전트 구축 과정을 다룹니다. 사용자의 음성 명령을 텍스트로 변환하고, 의도를 파악하여 파일 생성이나 코드 작성 등 실제 작업을 수행하는 보안 중심의 에이전트 아키텍처를 제시합니다.
Building a Voice-Controlled Local AI Agent with Whisper, Ollama & Gradio↗dev.to
2026년 4월 Mac mini에서 Ollama 및 Gemma 4 26B TLDR 설정
이 기사는 2026년 4월 기준, Mac mini (Apple Silicon)에서 Ollama와 Gemma 4 모델을 자동 시작, 사전 로드 및 상시 유지하는 상세 설정 가이드를 제공합니다. 특히 Apple Silicon의 MLX 백엔드를 활용하여 로컬 AI 모델의 성능을 최적화하고, 클라우드 의존도를 줄이는 방법을 다룹니다.
April 2026 TLDR Setup for Ollama and Gemma 4 26B on a Mac mini↗gist.github.comOllama는 이제 Apple Silicon에서 MLX로 구동됩니다 (프리뷰)
Ollama가 2026년 3월 30일부로 Apple의 MLX 프레임워크를 통해 Apple Silicon에서 구동되는 프리뷰 버전을 공개했습니다. 이는 M5 칩셋의 GPU Neural Accelerators를 활용하여 Ollama 0.19 버전에서 기존 대비 최대 2배 빠른 성능(예: 디코드 속도 112 tokens/s)을 제공하며, NVFP4 지원 및 캐싱 개선으로 로컬 LLM 추론의 효율성과 품질을 크게 향상시킵니다.
Ollama is now powered by MLX on Apple Silicon in preview↗ollama.comMamba-3는 추론 효율성을 최우선 목표로 설계된 새로운 상태 공간 모델(SSM)입니다. 기존 Mamba-2가 학습 속도에 집중한 것과 달리, Mamba-3는 더 풍부한 재귀 공식, 복소수 값 상태 추적, 그리고 정확도를 높이는 MIMO 변형을 통해 추론 성능을 대폭 개선했습니다. 그 결과, Llama-3.2-1B (1.5B 규모)를 포함한 기존 모델들을 모든 시퀀스 길이에서 사전 채우기 및 디코딩 지연 시간 면에서 능가합니다.
Mamba-3는 추론 효율성을 최우선 목표로 설계된 새로운 상태 공간 모델(SSM)입니다. 기존 Mamba-2가 학습 속도에 집중한 것과 달리, Mamba-3는 더 풍부한 재귀 공식, 복소수 값 상태 추적, 그리고 정확도를 높이는 MIMO 변형을 통해 추론 성능을 대폭 개선했습니다. 그 결과, Llama-3.2-1B (1.5B 규모)를 포함한 기존 모델들을 모든 시퀀스 길이에서 사전 채우기 및 디코딩 지연 시간 면에서 능가합니다.
Mamba-3↗together.aiBilly.sh는 Ollama를 활용하여 터미널 환경에서 로컬로 작동하는 AI 코딩 어시스턴트입니다. 클라우드 기반 서비스와 달리 사용자 기기에서 직접 구동되어 프라이버시와 비용 효율성을 높이는 데 중점을 둡니다. 개발자들이 터미널에서 코드 생성, 디버깅 등의 작업을 AI의 도움을 받아 수행할 수 있게 합니다.
Billy.sh는 Ollama를 활용하여 터미널 환경에서 로컬로 작동하는 AI 코딩 어시스턴트입니다. 클라우드 기반 서비스와 달리 사용자 기기에서 직접 구동되어 프라이버시와 비용 효율성을 높이는 데 중점을 둡니다. 개발자들이 터미널에서 코드 생성, 디버깅 등의 작업을 AI의 도움을 받아 수행할 수 있게 합니다.
Billy.sh↗producthunt.com