프롬프트 엔지니어링 뉴스
LLM 프롬프트 설계, 시스템 프롬프트, 컨텍스트 엔지니어링, 프롬프트 인젝션 방어 등에 관한 글.
총 1,152건·최신 업데이트
- 21
에이전트 루프를 위한 사전 실행 비용 시뮬레이터 구축 - 13개 모델, 제로 API 호출, 오프라인 작동
LoopLens는 AI 에이전트 루프의 실행 전 비용을 예측하는 도구로, 컨텍스트 누적 전략과 멀티 에이전트 구조에 따른 비용 변화를 시뮬레이션합니다. API 호출 없이 수학적 계산만으로 13개 모델의 예상 비용을 산출하여 효율적인 인프라 설계를 돕습니다.
I built a pre-run cost simulator for agentic loops — 13 models, zero API calls, works offline↗dev.to
- 22
llm-d Prefix-Cache Routing으로 Qwen 7B가 EKS에서 2.3배 더 빨라졌습니다.
vLLM 기반 LLM 추론 환경에서 동일한 프롬프트 접두사를 가진 요청을 캐시가 존재하는 특정 노드로 유도하는 llm-d 라우팅 기술의 성능을 벤치마크했습니다. 실험 결과, 기존 Kubernetes 서비스 방식보다 토큰 처리량은 134% 증가하고 첫 토큰 생성 지연 시간(TTFT)은 극적으로 감소하는 성과를 보였습니다.
How llm-d Prefix-Cache Routing Made Qwen 7B on EKS 2.3x Faster↗dev.to
- 28
AWS re:Invent 2023: 반복 속도가 모든 소프트웨어 문제 해결책이다
Vercel은 모놀리식 시스템의 한계를 극복하기 위해 개발 및 배포 전 과정에서 속도를 높이는 '프론트엔드 클라우드'와 컴포저블 아키텍처를 강조합니다. 특히 v0와 같은 Generative UI 기술을 통해 텍스트 프롬프트만으로 초기 UI 코드를 생성함으로써, AI 서비스 통합과 제품 혁신을 가속화하는 전략을 제시합니다.
AWS re:Invent 2023: Iteration velocity is the solution to all software problems↗vercel.com
- 37
SuperCompress가 이제 PyPI에 출시되었습니다! 단 한 줄로 supercompress를 설치하세요 (pip install supercompress)
SuperCompress는 LLM에 컨텍스트를 전달하기 전, 관련성이 높은 문장만을 선별하여 토큰 사용량을 최대 65%까지 줄여주는 초경량 CPU 기반 정책입니다. GPU 없이도 약 60ms 내외의 매우 낮은 지연 시간으로 작동하며, 답변의 정확도를 유지하면서 비용 효율성을 극대화할 수 있는 오픈소스 라이브러리입니다.
SuperCompress is now on PyPI! pip install supercompress in 1 line↗dev.to














