AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
최신 업데이트 ·총 24건
AI 모델 관련 글 — 49 페이지
- 0
13개 LLM에 대한 구분 기호 기반 프롬프트 인젝션 방어 테스트 결과
13개 LLM을 대상으로 프롬프트 인젝션 방어 실험을 진행한 결과, 구분 기호(Delimiter)를 사용하는 것이 전체 방어율을 60.7%에서 89.7%로 약 29%p 향상시키는 것으로 나타났습니다. 특히 모델별 보안 성능 격차가 매우 크며, 프롬프트 작성 시 상황을 설명하는 것보다 엄격하고 짧은 명령을 사용하는 것이 방어에 더 효과적임이 증명되었습니다.
I Tested Delimiter-Based Prompt Injection Defense Across 13 LLMs↗dev.to
- 3
Show HN: 1.7B Bonsai ternary 모델이 M4 Max에서 초당 442T 처리
자율형 엔지니어링 에이전트 'ata'가 작성한 커스텀 Metal 커널을 통해, Apple Silicon(M4 Max)에서 Bonsai 1.7B 모델의 추론 속도를 기존 대비 42% 향상시킨 사례입니다. 이를 통해 442 t/s라는 압도적인 토큰 생성 속도를 구현하며, AI 에이전트가 저수준(low-level) 최적화 작업을 수행할 수 있음을 증명했습니다.
Show HN: Bonsai 1.7B ternary model at 442T/s on M4 Max↗agents2agents.ai
- 4
신경망과 암호화 암호는 왜 그렇게 유사할까? (2025)
신경망(Neural Networks)과 암호화 알고리즘(Cryptographic Ciphers)이 공유하는 구조적 유사성을 분석한 글입니다. 두 분야 모두 선형/비선형 층의 반복과 효율적인 데이터 믹싱(Mixing)을 통해 복잡성을 확보하며, 이는 데이터의 가역성(Invertibility)과 미분 가능성(Differentiability)이라는 유연한 제약 조건 덕분에 가능함을 설명합니다.
Why are neural networks and cryptographic ciphers so similar? (2025)↗reiner.org
- 6
지역 추론 공유에 대한 고찰: OpenAI 호환 백엔드를 갖춘 유휴 GPU 임대 마켓플레이스
클라우드 AI API의 비용 및 운영 불안정성을 해결하기 위해, 유휴 GPU 자원을 활용하여 OpenAI 호환 방식으로 추론 서비스를 제공하는 P2P 마켓플레이스 'LocalLMarket'의 개념과 기술적 구조를 다룹니다. 오픈 웨이트 모델의 성능 향상과 개인 GPU 보유량 증가가 맞물려 분산형 추론 인프라의 가능성을 제시합니다.
About Sharing Local Inference: A Marketplace for Renting Idle GPUs with an OpenAI-Compatible Backend↗dev.to
- 7
Claude와 MCP를 활용한 LLM 위키 구축 방법
기존의 번거로운 로컬 기반 LLM 위키 방식에서 벗어나, MCP(Model Context Protocol)를 활용해 Claude가 직접 읽고 쓸 수 있는 자동화된 지식 베이스(Hjarni 활용)를 구축하는 방법을 소개합니다. 이를 통해 사용자가 매번 맥락을 설명할 필요 없이, AI가 스스로 지식을 업데이트하고 세션 간에 누적하는 '지식의 복리 효과'를 구현할 수 있습니다.
How to build an LLM wiki with How to build an LLM wiki with Claude and MCP↗dev.to
- 9
교육 현장에서 ChatGPT를 옹호했던 영향력 있는 연구, 문제점 발견으로 철회
ChatGPT가 학생의 학습 성과를 획기적으로 높인다는 대규모 메타 분석 연구가 데이터 분석 오류와 부적절한 연구 통합 문제로 인해 출판 약 1년 만에 철회되었습니다. 이 연구는 출판 당시 엄청난 인용 수와 소셜 미디어의 주목을 받으며 생성형 AI의 교육적 효능을 입증하는 '황금 표준'처럼 여겨졌으나, 실제로는 신뢰할 수 없는 연구들을 무리하게 결합했다는 비판을 받고 있습니다.
Influential study touting ChatGPT in education retracted over red flags↗arstechnica.com
- 11
Gemini API에서 Webhooks를 사용하여 장시간 작업의 마찰과 지연 감소
Gemini API가 Webhooks 기능을 도입하여 Deep Research나 비디오 생성과 같이 긴 시간이 소려는 작업의 상태를 실시간으로 알 수 있게 되었습니다. 이를 통해 개발자는 기존의 비효율적인 폴링(Polling) 방식에서 벗어나, 작업 완료 시 즉시 알림을 받는 푸시(Push) 기반의 효율적인 에이전트 애플리케이션을 구축할 수 있습니다.
Reduce friction and latency for long-running jobs with Webhooks in Gemini API↗blog.google
- 13
반복 사용이 RAG와 유사한 환경에서 ChatGPT 5.4의 출력에 영향을 미치는가? 실험 결과
RAG(검색 증강 생성) 환경에서 반복적인 사용자 상호작용 패턴이 ChatGPT의 출력 방식에 영향을 미칠 수 있다는 실험 결과가 발표되었습니다. 특정 테스트 패턴(비교, 필터링 등)이 실제 사용자의 질문에 대한 모델의 응답 스타일(가이드형 질문 등)에 반영된 것을 관찰하며, 이는 LLM 서비스 설계의 새로운 관점을 제시합니다.
Experiment: Does repeated usage influence ChatGPT 5.4 outputs in a RAG-like setup?↗dev.to
- 19
딥클로드: DeepSeek V4 Pro와 AI 에이전트 루프 결합, 비용 17배 절감
deepclaude는 Anthropic의 강력한 코딩 에이전트인 'Claude Code'의 실행 로직(Body)은 유지한 채, 모델(Brain)만 DeepSeek V4 Pro와 같은 저비용 모델로 교체하여 API 비용을 최대 17배까지 절감할 수 있게 해주는 혁신적인 도구입니다. 이를 통해 개발자는 고성능 에이전트의 기능을 누리면서도 운영 비용 부담을 획기적으로 낮출 수 있습니다.
DeepClaude – Claude Code agent loop with DeepSeek V4 Pro, 17x cheaper↗github.com
- 21
AI 동물원 가이드: Claude.ai가 평가한 모든 모델 패밀리, 분위기에 따른 순위
이 기사는 단순한 기술적 벤치마크를 넘어, 주요 LLM(대규모 언어 모델) 패밀리들의 브랜드 정체성과 개발 전략을 '성격(Vibe)'이라는 독특한 관점에서 분류한 가이드입니다. OpenAI, Anthropic, Google, Meta 등 각 AI 기업이 가진 모델 출시 패턴, 버전 관리 방식, 그리고 사용자에게 전달되는 고유한 페르포먼스 이미지를 유머러스하게 분석하고 있습니다.
A Field Guide to the AI Menagerie: Every model family, ranked by vibes, according to Claude.ai↗dev.to













