AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
최신 업데이트 ·총 24건
AI 모델 관련 글 — 30 페이지
- 8
RAG 시리즈 (19): 점진적 업데이트 - 지식 기반을 최신 상태로 유지하기
데이터가 지속적으로 변하는 실제 운영 환경에서 RAG 인덱스를 효율적으로 관리하는 점진적 업데이트(Incremental Update) 방법을 다룹니다. LangChain의 Indexing API를 활용해 해시 값을 비교함으로써, 변경된 문서만 임베팅하고 삭제된 문서를 정리하여 비용과 시간을 최적화하는 구체적인 구현 방안을 제시합니다.
RAG Series (19): Incremental Updates — Keeping the Knowledge Base Fresh↗dev.to
- 12
$5/월 DigitalOcean Droplet에서 Ollama + MinIO Object Storage로 Llama 3.2 배포하는 방법: 분산 추론과 지속적인 모델 캐싱
이 글은 고가의 Claude나 GPT API 대신 월 5달러 규모의 저렴한 클라우드 인프라를 활용해 Llama 3.2를 직접 호스팅하는 구체적인 가이드를 제공합니다. MinIO를 활용한 모델 캐싱과 Docker 기반의 배점 방식을 통해 비용 효율적이면서도 확장 가능한 자체 추론 엔진 구축 전략을 다룹니다.
How to Deploy Llama 3.2 with Ollama + MinIO Object Storage on a $5/Month DigitalOcean Droplet: Distributed Inference with Persistent Model Caching↗dev.to
- 13
$5/월 DigitalOcean Droplet에서 Ollama + PostgreSQL 벡터 캐싱으로 Llama 3.2 배포하는 방법: 프로덕션 RAG을 위한 80% 저렴한 의미 검색
OpenAI와 Pinecone 등 외부 API에 의존하는 기존 RAG 방식의 높은 비용 문제를 해결하기 위해, 저렴한 VPS에 LMS와 pgvector를 구축하는 방법을 제시합니다. 벡터 캐싱을 통해 중복된 임베딩 연산을 제거함으로써 검색 비용을 획기적으로 낮추고 운영 효율성을 극대화하는 것이 핵심입니다.
How to Deploy Llama 3.2 with Ollama + PostgreSQL Vector Caching on a $5/Month DigitalOcean Droplet: 80% Cheaper Semantic Search for Production RAG↗dev.to
- 19
지역 LLM이 벤치마크에서는 뛰어난 성과를 내지만 실제 작업에서는 실패하는 이유
MMLU 등 기존 벤치마크는 모델의 단일 턴 추론 능력만 측정할 뿐, 실제 에이전트가 직면하는 도구 호출, 상태 유지, 오류 복구 능력을 반영하지 못합니다. 따라서 개발자는 모델 도입 전 실제 워크플로우를 모사한 자체적인 에이전트 평가 환경(Agentic Eval Harness)을 구축하여 모델의 실질적인 성능을 검증해야 합니다.
Why your local LLM aces benchmarks but fails real terminal tasks↗dev.to
- 20
LLM 활성화 방향 조작, 로컬로: 직접 모델 조작의 보안 함의
DeepSeek-V4-Flash와 같은 고성능 로컬 모델의 등장으로 LLM의 내부 활성화 값을 조작하는 기술이 대중화되고 있습니다. 이는 기존의 프롬프트 수준 안전 장치를 무력화할 수 있는 새로운 공격 표면을 형성하며, 모델 내부 조작이 학술적 연구를 넘어 실질적인 보안 위협으로 부상하고 있음을 시사합니다.
LLM Activation Steering Goes Local: Security Implications of Direct Model Manipulation↗dev.to
- 23
Gemini for Science: AI 실험과 새로운 발견 시대를 위한 도구
구글은 가설 생성(Co-Scientist), 계산적 발견(AlphaEvolve), 문헌 분석(NotebookLM)을 포함한 과학 연구 전용 AI 도구 모음을 발표했습니다. 이 도구들은 방대한 과학 데이터를 처리하고 실험 과정을 자동화하여 연구자가 고차원적인 문제 해결에 집중할 수 있도록 돕는 '연구 가속기' 역할을 목표로 합니다.
Gemini for Science: AI experiments and tools for a new era of discovery↗deepmind.google
















