AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
최신 업데이트 ·총 24건
AI 모델 관련 글 — 29 페이지
- 6
$12/월 DigitalOcean GPU Droplet에서 Hugging Face TGI로 Llama 3.2 배포하기: Claude 비용의 1/110 수준의 프로덕션 텍스트 생성
이 글은 고가의 LLM API 대신 DigitalOcean의 GPU Droplet을 사용하여 Llama 3.2 모델을 직접 호스팅하는 구체적인 가이드를 제공합니다. 월 12달러라는 파격적인 비용으로 프로덕션 수준의 텍스트 생성 환경을 구축하는 기술적 절차와 비용 효율성을 강조합니다.
How to Deploy Llama 3.2 with Hugging Face TGI on a $12/Month DigitalOcean GPU Droplet: Production Text Generation at 1/110th Claude Cost↗dev.to
- 8
OpenAI, ChatGPT를 금융 자문가로 전환했습니다 (직접 만드는 방법은 여기)
OpenAI가 Plaid API를 활용해 사용자의 실제 금융 데이터를 실시간으로 조회하고 분석할 수 있는 'Personal Finance' 기능을 ChatGPT에 도입했습니다. 이 기능은 단순한 가계부를 넘어 자연어 질문을 통해 소비 패턴 분석 및 맞춤형 재무 계획 수립을 지원하는 강력한 금융 비서 역할을 수행합니다.
OpenAI Just Turned ChatGPT into a Financial Advisor (Here's How to Build Your Own)↗dev.to
- 9
RAG 시리즈 (22): 긴 컨텍스트 vs RAG — RAG이 정말 필요한가?
최근 LLM의 컨텍스트 윈도우가 비약적으로 확장되면서 RAG의 필요성에 의문이 제기되고 있으나, 비용, 지연 시간, 정보 누락(Lost in the Middle) 등의 문제로 인해 RAG는 여전히 필수적입니다. 본 글은 문서의 규모와 업데이트 빈도에 따라 롱 컨텍스트와 RAG 중 최적의 아키텍처를 선택하기 위한 구체적인 프레임워크를 제시합니다.
RAG Series (22): Long Context vs RAG — Do We Even Need RAG?↗dev.to
- 15
LP, FUSE, C/R, CUDA-checkpoint으로 추론 초기 지연 40배 단축
AI 추론 수요의 급격한 변동성에 대응하기 위해 기존 수십 분 이상 소요되던 GPU 인스턴스 생성 시간을 수십 초 단위로 단축하는 기술적 성과를 다룹니다. 이를 위해 클라우드 버퍼, 지연 로딩 파일시스템, CPU 및 GPU 측면의 체크포인트/복구 기술을 결합하여 GPU 할당 효율성을 극대화하는 방법을 제시합니다.
Cutting inference cold starts by 40x with LP, FUSE, C/R, and CUDA-checkpoint↗modal.com
- 19
추론 중재: 하루 200건 이상의 LLM 호출을 5가지 모델에 분산하는 방법
이 글은 모든 AI 작업을 고가의 모델에 의존하는 대신, 작업 유형에 따라 Claude Sonnet, Opus, Gemini Flash, Qwen 등 다양한 모델을 전략적으로 배치하는 '추론 중재' 방식을 제안합니다. 이를 통해 비용을 절감하면서도 보안과 성능이라는 두 마기 토끼를 잡는 구체적인 모델 스택과 라우팅 규칙을 제시합니다.
Inference Arbitrage: How I Route 200+ Daily LLM Calls Across Five Models↗dev.to
- 20
Anthropic API 속도 제한에 맞서 싸우다 그만두고, 하나의 모델이 모든 일을 할 필요는 없다는 것을 깨달았을 때
Anthropic API의 다각적인 속도 제한(RPM, ITPM, OTPM 등)과 예측 불가능한 지연 시간은 에이전트 기반 시스템의 안정성을 위협하는 주요 요인입니다. 이를 극복하기 위해서는 모든 요청을 하나의 모델에 맡기는 대신, 작업의 중요도와 성격에 따라 최적의 모델과 경로를 할당하는 전략적 라우팅 설계가 필요합니다.
I stopped fighting the Anthropic API rate limit when I realized one model shouldn’t do every job↗dev.to

















