LLM 모델Inception Labs

Mercury 2

The fastest reasoning LLM — 5x faster than speed-optimized models via diffusion architecture

Mercury 2는 Inception Labs가 2026년 2월 24일 출시한 확산(Diffusion) 기반 추론 LLM이다. 기존 GPT·Claude·Gemini 등 자동회귀(Autoregressive) 방식과 달리, 전체 출력을 먼저 초안으로 잡고 노이즈 제거(denoising)를 통해 병렬로 정제하는 dLLM(Diffusion LLM) 아키텍처를 사용한다. 1,000 tokens/sec 이상의 처리 속도로 주요 속도 최적화 LLM 대비 5배 빠르며, 성능은 Claude 4.5 Haiku 및 GPT-5.2 Mini와 동급이다. OpenAI API 호환으로 기존 스택에 코드 변경 없이 연동 가능하다. 가격은 입력 $0.25/1M, 출력 $0.75/1M으로 저비용 고속 처리에 최적화돼 있다.

컨텍스트

32K tokens

입력 가격

$0.25/1M tokens

출력 가격

$0.75/1M tokens

멀티모달

text

핵심 역량

속도

1,000+ tokens/sec, 속도 최적화 모델 5배 이상

가격

입력 $0.25/1M — 초저비용

추론 강도

Claude Haiku·GPT Mini 동급

API 호환성

OpenAI API 완전 호환

코딩 강도

서브에이전트 수준 코딩 지원

아키텍처

dLLM — 노이즈 제거 병렬 생성

장점

1,000 tokens/sec — 속도 최적화 LLM 대비 5배 빠름
OpenAI API 호환 — 기존 코드 변경 없이 드롭인 교체
입력 $0.25/1M — 주요 모델 중 최저가 수준
Claude 4.5 Haiku·GPT-5.2 Mini 동급 성능
비자동회귀 병렬 생성 — 지연 시간 최소화

단점

확산 아키텍처 생태계·커뮤니티가 자동회귀 모델 대비 작음
복잡한 장문 추론 태스크에서는 프런티어 모델 대비 한계
멀티모달 지원 없음 (텍스트 전용)
셀프호스팅 불가 (API 전용)

공식 링크

공식 사이트 ↗문서 ↗