LLM 모델Inception Labs
Mercury 2
The fastest reasoning LLM — 5x faster than speed-optimized models via diffusion architecture
Mercury 2는 Inception Labs가 2026년 2월 24일 출시한 확산(Diffusion) 기반 추론 LLM이다. 기존 GPT·Claude·Gemini 등 자동회귀(Autoregressive) 방식과 달리, 전체 출력을 먼저 초안으로 잡고 노이즈 제거(denoising)를 통해 병렬로 정제하는 dLLM(Diffusion LLM) 아키텍처를 사용한다. 1,000 tokens/sec 이상의 처리 속도로 주요 속도 최적화 LLM 대비 5배 빠르며, 성능은 Claude 4.5 Haiku 및 GPT-5.2 Mini와 동급이다. OpenAI API 호환으로 기존 스택에 코드 변경 없이 연동 가능하다. 가격은 입력 $0.25/1M, 출력 $0.75/1M으로 저비용 고속 처리에 최적화돼 있다.
컨텍스트
32K tokens
입력 가격
$0.25/1M tokens
출력 가격
$0.75/1M tokens
멀티모달
text
핵심 역량
속도
1,000+ tokens/sec, 속도 최적화 모델 5배 이상
가격
입력 $0.25/1M — 초저비용
추론 강도
Claude Haiku·GPT Mini 동급
API 호환성
OpenAI API 완전 호환
코딩 강도
서브에이전트 수준 코딩 지원
아키텍처
dLLM — 노이즈 제거 병렬 생성
장점
- 1,000 tokens/sec — 속도 최적화 LLM 대비 5배 빠름
- OpenAI API 호환 — 기존 코드 변경 없이 드롭인 교체
- 입력 $0.25/1M — 주요 모델 중 최저가 수준
- Claude 4.5 Haiku·GPT-5.2 Mini 동급 성능
- 비자동회귀 병렬 생성 — 지연 시간 최소화
단점
- 확산 아키텍처 생태계·커뮤니티가 자동회귀 모델 대비 작음
- 복잡한 장문 추론 태스크에서는 프런티어 모델 대비 한계
- 멀티모달 지원 없음 (텍스트 전용)
- 셀프호스팅 불가 (API 전용)