스타트업스쿨StartupSchool

AI 모델 (LLM·GPT·Claude·Gemini)

GPT, Claude, Gemini, Llama 등 AI 모델(LLM) 출시·벤치마크·API 변경사항을 모읍니다.

최신 업데이트 2026. 04. 27. 오전 05:42 KST·총 24건

AI 모델 관련 글 — 60 페이지

0
당신의 RAG 평가 세트는 아마 틀렸을 겁니다. 이를 잡아내는 테스트가 있습니다.
RAG(검색 증강 생성) 시스템의 성능 지표(Ragas 등)가 높음에도 불구하고 실제 운영 환경에서 서비스가 실패하는 3가지 핵심 원인(데이터 누출, 쿼리 드리프트, 평가 모델 편향)을 분석하고, 이를 방지하기 위한 실무적인 테스트 방법을 제시합니다.
Your RAG Eval Set Is Probably Wrong. The Test That Catches It.↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
1
미세 조정된 모델, 프롬프트 기반이 아니다: 오펜시브 보안에서 LLM 래퍼를 능가하는 이유
단순히 LLM API를 활용하는 '프롬프트 기반 래퍼' 방식은 보안 분야에서 환각, 프롬프트의 취약성, 학습 루프 부재라는 치명적 한계를 가집니다. 반면, 전문적인 공격 데이터를 통해 모델 가중치에 패턴을 내재화하고 지속적인 학습 루프를 구축한 '미세 조정(Fine-tuned) 모델'이 보안 성능의 핵심 경쟁력이 될 것입니다.
Trained, Not Prompted: Why Fine-Tuned Models Beat LLM Wrappers for Offensive Security↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
2
VEXT Specialist-7B: 7B 모델이 Frontier AI의 보안 벤치마크를 능가하는 방법
VEXT Specialist-7B는 특정 보안 도메인에 특화된 7B 파라미터 모델로, GPT-4o나 Claude Opus와 같은 거대 모델보다 침투 테스트 및 보안 벤치마크에서 압도적인 성능을 보여줍니다. 3단계 계층형 아키텍처와 고품질의 실제 보안 데이터를 활용하여 추론 비용을 95% 절감하면서도 보안 정확도를 극대화했습니다.
VEXT Specialist-7B: How a 7B Model Beats Frontier AI on Security Benchmarks↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
3
LLM 응답 전체 캐싱 중단. 임베딩을 캐싱하세요.
LLM 응답 캐싱 시 단순 텍스트 일치 방식은 사용자의 다양한 문장 표현 때문에 적중률이 4%대에 머무는 한계가 있습니다. 반면, 임베딩을 활용한 시맨틱 캐싱은 의미적 유사성을 기반으로 적중률을 60% 이상으로 높일 수 있으며, 임베딩 비용이 생성 비용보다 압도적으로 저렴하기 때문에 매우 경제적인 전략입니다.
Stop Caching the Whole LLM Response. Cache the Embedding.↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
4
LLM 팀이 내일이면 반드시 설정해야 할 3가지 경고
LLM 서비스 운영 시 발생할 수 있는 비용 폭증, 답변 품질 저하, RAG 검색 실패를 방지하기 위해 반드시 설정해야 할 3가지 핵심 알림(Cost, Quality, Retrieval)과 OpenTelemetry 기반의 관측성(Observability) 구축 전략을 제시합니다.
The 3 Alerts Every LLM Team Should Have Set Up by Tomorrow↗dev.to
Dev.to DevOps1개월 전공공지능 분석AI 모델
5
100줄 LLM 캐시, 일주일 만에 투자 비용 회수
막대한 LLM 추론 비용을 절감하기 위해 복잡한 라이브러리 대신 100줄 내외의 가벼운 파이썬 커스텀 캐시를 구현하는 전략을 제시합니다. 프롬프트 접두사 캐싱을 넘어 응답(Response) 자체를 캐싱함으로써, 중복되거나 유사한 요청에 대한 비용을 원천적으로 차단하는 것이 핵심입니다.
The 100-Line LLM Cache That Pays For Itself in a Week↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
6
OpenAI 서비스 중단 사후 분석: 상태 페이지가 말해주지 않는 것들
OpenAI와 같은 LLM 제공업체의 상태 페이지는 전체적인 가용성만 보여줄 뿐, 실제 사용자가 겪는 미세한 서비스 저하를 포착하지 못합니다. 따라서 개발자는 단순한 API 생존 여부를 넘어 지연 시간, 토큰 처리량, 스키마 검증 성공률 등 5가지 핵심 지표를 직접 모니터링하는 'LLM 관측성(Observability)' 체계를 구축해야 합니다.
OpenAI Outage Postmortem: What Status Pages Don't Tell You↗dev.to
Dev.to DevOps1개월 전공공지능 분석AI 모델
7
APL은 영어보다 프랑스어에 더 가깝다
이 글은 프로그래밍을 단순한 '배관 작업(plumbing)'으로 취급하던 기존 방식에서 벗어나, APL 언어를 통해 프로그래밍이 어떻게 예술적이고 표현력 있는 도구가 될 수 있는지를 탐구합니다. 저자는 높은 수준의 추상화가 어떻게 복잡한 알고리즘을 우아하고 간결하게 표현할 수 있는지에 대한 철학적 통찰을 제공합니다.
APL is more French than English↗jsoftware.com
Hacker News1개월 전공공지능 분석AI 모델
8
팁: 웹 요청은 헤르츠[Hertz]로 측정해서는 안 됩니다
웹 요청 성능을 측정할 때 주파수 단위인 헤르츠(Hertz)를 사용하는 것이 기술적으로 부적절함을 지적하며, 올로된 성능 지표(Latency, Throughput 등)를 정의하는 것의 중요성을 강조합니다. 잘못된 메트릭 설정이 가져올 수 있는 엔지니어링 측면의 오류를 경고합니다.
Tip: Web requests should not be measured in Hz [Hertz]↗mastodon.catgirl.cloud
Hacker News1개월 전공공지능 분석AI 모델
9
프로이센 군사 본부에서 게리 기가렉스의 지하실까지: 여정
체스에서 프로이센의 군사 게임(Kriegsspiel)을 거쳐 D&D에 이르기까지, 게임이 현실의 복잡성을 규칙으로 모델링하며 진화해온 과정을 다룹니다. 기술과 통계의 발전이 어떻게 게임의 정밀도와 시스템 설계를 변화시켰는지 역사적 관점에서 추적합니다.
The route from Prussian military headquarters to Gary Gygax’s basement↗asteriskmag.com
Hacker News1개월 전공공지능 분석AI 모델
10
부동소수점 드러내기 – Bartosz Ciechanowski (2019)
이 글은 IEEE 754 부동소수점 방식의 작동 원리를 10진수와 2진수 과학적 표기법을 통해 명쾌하게 설명합니다. 부동소수점의 본질은 유한한 가수(significand)와 지수(exponent) 범위를 가진 2진법 기반의 과학적 표기법임을 강조합니다.
Exposing Floating Point – Bartosz Ciechanowski (2019)↗ciechanow.ski
Hacker News1개월 전공공지능 분석AI 모델
11
로컬 LLM을 활용한 다중 에이전트 시스템 관리하기
로컬 LLM이 단순한 벤치마크용을 넘어, 다중 에이전트 시스템(Multi-Agent System)의 상태를 모니터링하고 오류를 관리하는 '슈퍼바이저(Supervisor)'로서 실질적인 역할을 수행할 수 있음을 보여줍니다. 특히 토큰 부족 문제 해결이나 에이전트의 작업 재개 등 특정 관리 작업에서 비용 효율적이고 강력한 성능을 발휘할 수 있습니다.
Supervise a multi-agent setup with Local LLMs↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
12
Vouch API
Vouch API는 암호화 기술을 활용해 AI의 환각(Hallucination) 문제를 해결하고, 검증 가능한 금융 리서치 데이터를 제공하는 솔루션입니다. SEC XBRL 데이터를 기반으로 DCF 가치 평가 및 몬테카를로 시뮬레이션을 수행하며, 규제 준수가 필수적인 금융 전문가를 타겟으로 합니다.
Product Hunt↗producthunt.com
Product Hunt1개월 전공공지능 분석AI 모델
13
LLM 분리 연구 아키텍처가 중요한 이유
LLM의 추론(Reasoning) 기능과 데이터 검색(Retrieval) 기능을 분리하는 'LLM-Decoupled' 아키텍처의 중요성을 다룹니다. 이 구조를 통해 모델 교체나 데이터 소스 업데이트 시 전체 시스템을 재구축할 필요 없이, 유연하고 안정적인 AI 에이전트 인프라를 구축할 수 있습니다.
Why LLM-Decoupled Research Architecture Matters↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
14
긴 답변
이 기사는 5년 만의 답장, 20년 지속된 사진 프로젝트 등 '지연된 소통'과 '장기적 프로젝트'가 어떻게 예상치 못한 강력한 바이럴과 정서적 울림을 만들어내는지 탐구합니다. 즉각적인 반응이 중시되는 디지털 시대에, 긴 시간을 관통하는 진정성 있는 기록과 연결이 가진 독보적인 가치를 조명합니다.
The Long Reply↗ironicsans.ghost.io
Hacker News1개월 전공공지능 분석AI 모델
15
기계 이해를 위한 다각적 맥락 매칭
단순한 벡터 유사도 검색을 넘어, 데이터의 구조적, 관계적, 시간적 맥락을 통합적으로 매칭하는 '다각적 맥락 매칭' 기술이 기계의 이해도를 높이는 핵심으로 부상하고 있습니다. 이는 LLM의 환각 현상을 줄이고 정보 검색의 정확도를 극대화하여, 보다 정교한 AI 에이전트 구현을 가능하게 합니다.
Multi-Perspective Context Matching for Machine Comprehension↗dev.to
Dev.to AI1개월 전공공지능 분석AI 모델
16
Show HN: LLM의 영어 교정 능력, 제가 성능을 테스트해봤습니다.
ErrataBench는 LLM의 영어 교정 및 에이전트 능력을 측정하기 위해 설계된 새로운 벤치마크입니다. 단순한 텍스트 생성을 넘어, 모델이 도구(tool)를 사용하여 철자, 문법, 단어 선택 오류를 스스로 찾아내고 수정하는 '에이전트 루프' 성능을 평가합니다.
Show HN: I benchmarked how good LLMs are at proofreading English↗github.com
Hacker News Show1개월 전공공지능 분석AI 모델
17
Show HN: GPT/Claude 인용 시 AI 가시성 모니터 - 사이트 언급 추적
이 기사는 ChatGPT, Claude, Perplexity 등 AI 검색 엔진에서의 웹사이트 노출 및 인용 여부를 추적할 수 있는 Python 기반의 오픈소스 툴킷 'AI Visibility Monitor'를 소개합니다. 별도의 유료 SaaS 없이 로컬 환경에서 실행 가능한 이 도구는 AI 시대의 새로운 마케팅 지표인 'AI 인용률'과 'AI 유입 트래픽'을 정밀하게 모니터링할 수 있게 해줍니다.
Show HN: AI Visibility Monitor – Track if your site gets cited by GPT/Claude↗github.com
Hacker News Show1개월 전공공지능 분석AI 모델
18
북미 수수 연합(2023)
북미 수수 연합(NAMA)은 기후 변화에 강하고 영양가가 높은 수수(Millets)를 미국, 캐나다, 멕시코 등 북미 전역에 확산시키기 위해 활동하고 있습니다. 수수의 내건성, 저혈당 지수(Low GI), 글루텐 프리 특성을 활용하여 식량 안보와 건강한 식단이라는 두 마리 토끼를 잡는 것을 목표로 합니다.
North American Millets Alliance(2023)↗milletsalliance.org
Hacker News1개월 전공공지능 분석AI 모델
19
더 많은 파라미터가 더 중요할까, 더 많은 컴퓨테이션이 더 중요할까? (2021)
본 기사는 딥러닝 모델의 성능을 결정하는 핵심 요소인 '파라미터 수'와 '연산량'을 분리하여 생각할 수 있는 새로운 방법론을 제시합니다. 해시 레이어(Hash Layers)를 통해 연산량 증가 없이 파라미터 규모를 키우는 방법과, 계단식 어텐션(Staircase Attention)을 통해 파라미터 수 증가 없이 연산량을 늘려 성능을 높이는 두 가지 혁신적인 접근법을 다룹니다.
Which one is more important: more parameters or more computation? (2021)↗parl.ai
Hacker News1개월 전공공지능 분석AI 모델
20
ACLAS 뉴로에듀 SDK의 인지 과학적 원리 심층 분석 🏛️🧠
ACLAS가 발표한 Neuro-Edu SDK는 기존 LLM의 '과도한 친절함'이 학습을 방해한다는 문제를 해결하기 위해 인지 과학 원리를 AI 정렬(Alignment)에 도입했습니다. 이 기술은 인지 부하를 계산하고 학습자의 메타인지를 자극하는 알고리로, 학습 효율을 극대화하는 차세대 에듀테크 엔진을 지향합니다.
Deep Dive: The Cognitive Science Behind the ACLAS Neuro-Edu SDK 🏛️🧠↗dev.to
Dev.to OpenSource1개월 전공공지능 분석AI 모델
21
Show HN: LLM이 광고 기반 웹 검색보다 모바일 에너지 소비량 5.4배 적음
본 기사는 AI의 에너지 소비를 '서버 측 연산'이 아닌 '사용자 전체 세션' 관점에서 재정의하며, LLM이 광고 기반 웹 검색보다 모바일 에너지 소비가 약 5.4배 적다는 연구 결과를 소개합니다. 이는 AI가 기존의 무거운 웹 생태계보다 훨씬 에너지 효율적인 정보 탐색 도구가 될 수 있음을 시사합니다.
Show HN: LLMs consume 5.4x less mobile energy than ad-supported web search↗dupr.at
Hacker News Show1개월 전공공지능 분석AI 모델
22
수십 년 동안 존재해 온 일반 텍스트는 여전히 우리와 함께할 것이다
AI와 고성능 컴퓨팅 시대에도 ASCII 및 플레인 텍스트 기반의 디자인 도구들이 여전히 유효한 가치를 지니고 있음을 분석합니다. 특히 기술이 발전할수록 의도적인 '제약(Constraint)'을 활용하는 것이 복잡성을 제어하고 창의성을 높이는 핵심 전략이 될 수 있음을 시사합니다.
Plain text has been around for decades and it’s here to stay↗unsung.aresluna.org
Hacker News1개월 전공공지능 분석AI 모델
23
Show HN: 에이전트가 관리하는 Karpathy 스타일 LLM 위키 (Markdown 및 Git)
WUPHF는 AI 에이전트들이 마치 실제 팀원처럼 협업하며 업무를 수행하는 'AI 에이전트 전용 협업 오피스'입니다. Git 기반의 Markdown 위키를 통해 에이전트 간 지식을 공유하며, PM, 개발자, 디자이너 등 각 역할에 특화된 에이전트들이 24시간 중단 없이 업무를 처리하고 결과물을 만들어냅니다.
Show HN: A Karpathy-style LLM wiki your agents maintain (Markdown and Git)↗github.com
Hacker News1개월 전공공지능 분석AI 모델