AI 모델 (LLM·GPT·Claude·Gemini)
GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.
최신 업데이트 ·총 24건
AI 모델 관련 글 — 74 페이지
- 3
이론에서 증거로: 대규모 데이터 품질 검증을 위한 Shannon Entropy의 유효성 확인
이 기사는 대규모 데이터 품질 검증을 위해 Shannon Entropy(샤논 엔트로피)를 활용하는 방법론이 기존의 규칙 기반(Rule-based) 또는 통계적(KS-test) 방식보다 월등히 효과적임을 실험으로 증명합니다. 약 660만 건의 데이터를 대상으로 한 실험 결과, 엔트로피 기반 방식은 데이터 드리프트 탐지에서 오탐률 0%를 기록했으며, 기존 방식보다 최대 2.12배 빠른 처리 속도를 보여주었습니다.
From Theory to Evidence: Validating Shannon Entropy for Data Quality at Scale↗dev.to
- 4
Google, Chrome에 "Skills" 도입해 Gemini 프롬프트 즉시 재사용 가능하게 합니다
구글 크롬이 Gemini 프롬프통을 저장하고 클릭 한 번으로 즉시 실행할 수 있는 'Skills' 기능을 도입합니다. 이 기능은 반복적인 브라우징 작업을 자동화하여 사용자가 별도의 프롬프트 입력 없이도 웹 페이지 요약, 데이터 비교 등의 AI 작업을 효율적으로 수행할 수 있게 돕습니다.
Google introduces "Skills" in Chrome to make Gemini prompts instantly reusable↗arstechnica.com
- 7
비인간 ID 보호: 자동 해지, OAuth, 그리고 범위 기반 권한 부여
Cloudflare가 AI 에이전트 및 자동화 도구와 같은 '비인간 ID(Non-human identities)'를 보호하기 위한 새로운 보안 기능을 발표했습니다. GitHub와의 파트너십을 통한 토큰 자동 해지, OAuth 가시성 확보, 그리고 세분화된 권한 부여(RBAC)를 통해 AI 시대의 새로운 보안 위협에 대응합니다.
Securing non-human identities: automated revocation, OAuth, and scoped permissions↗blog.cloudflare.com
- 8
MCP 도입 확장을 위한 레퍼런스 아키텍처: 더 간단하고 안전하며 저렴한 엔터프라이즈 MCP 배포
Cloudflare는 기업 내 AI 에이전트 워크플로우 확산을 위해 MCP(Model Context Protocol)를 안전하고 저렴하게 배포할 수 있는 레퍼런스 아키텍처를 공개했습니다. 로컬 MCP 서버의 보안 취약점을 해결하기 위해 중앙 집중형 원격 MCP 서버 구조를 채택하고, 인증 및 비용 관리 기능을 통합하여 엔터프라이즈급 AI 거버넌스를 구축하는 전략을 제시합니다.
Scaling MCP adoption: Our reference architecture for simpler, safer and cheaper enterprise deployments of MCP↗blog.cloudflare.com
- 12
내성적 확산 언어 모델
I-DLM(Introspective Diffusion Language Model)은 기존 확산 언적 모델(DLM)의 고질적인 문제인 품질 저하를 '내성적 일관성(Introspective Consistency)' 확보를 통해 해결한 혁신적인 모델입니다. 이를 통해 기존 AR(Autoregressive) 모델 수준의 성능을 유지하면서도, 고동시성 환경에서 추론 처리량(Throughput)을 최대 4.1배까지 끌어올리는 데 성공했습니다.
Introspective Diffusion Language Models↗introspective-diffusion.github.io
- 13
MCP 대규모 환경에서의 활용: 접근 제어, 비용 관리, 92% 절감된 토큰 비용
MCP(Model Context Protocol) 도입 시 도구(Tool) 수가 늘어남에 따라 발생하는 토큰 비용 폭증과 보안 문제를 해결하기 위한 Bifrost의 'Code Mode' 기술을 소개합니다. 필요한 도구 정보만 온디맨드로 로드하는 레이지 로딩(Lazy Loading) 방식을 통해, 500개 이상의 도구 환경에서도 토큰 비용을 최대 92%까지 절감할 수 있습니다.
MCP at Scale: Access Control, Cost Governance, and 92% Lower Token Costs↗dev.to
- 18
Show HN: Mcptube – Karpathy의 LLM 위키 아이디어를 유튜브 영상에 적용
mcptube-vision은 유튜브 영상을 단순한 검색 대상이 아닌, 지속적으로 업데이트되는 '지식 위키(Wiki)'로 변환하는 엔진입니다. Andrej Karpathy의 LLM Wiki 아이디어를 바탕으로, 텍스트(자막)와 시각 정보(프레임 분석)를 결합하여 영상 속 지식을 구조화하고 새로운 영상이 추가될 때마다 기존 지식과 연결하여 지식의 복리 효과를 창출합니다.
Show HN: Mcptube – Karpathy's LLM Wiki idea applied to YouTube videos↗github.com
- 19
N-Day-Bench: LLM이 실제 코드베이스에서 실제 취약점을 찾을 수 있을까?
N-Day-Bench는 LLM이 학습 데이터 컷오프(Knowledge Cut-off) 이후에 공개된 실제 보안 취약점(N-Day)을 찾아낼 수 있는 능력을 측정하는 새로운 벤치마크입니다. 이 벤치마크는 모델의 단순한 지식 암기가 아닌, 실제 코드베이스에서 새로운 보안 위협을 발견하는 '취약점 탐지(Vulnerability Discovery)' 역량을 정밀하게 평가합니다.
N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?↗ndaybench.winfunc.com














