LLM 모델xAI

Grok 4.20 Beta

xAI flagship with 2M context and multi-agent reasoning

Grok 4.20 Beta는 xAI가 2026년 3월 공개한 플래그십 모델이다. 2M 토큰 컨텍스트(업계 최대급)와 265 tok/s 출력 속도를 갖추며, 내부적으로 Harper·Benjamin·Lucas 3개 서브모델이 병렬 추론하는 멀티에이전트 MoE 구조로 할루시네이션을 4.2%까지 줄였다. IFBench 82.9%로 프롬프트 준수율 1위, AA-Omniscience 할루시네이션 평가에서 업계 최저 22%를 기록했다. 추론/비추론/멀티에이전트 3가지 모드를 지원하며, X 검색·웹 검색·코드 실행 등 서버사이드 도구도 내장한다.

컨텍스트

1M tokens

입력 가격

$2/1M tokens

출력 가격

$6/1M tokens

멀티모달

text, image

핵심 역량

컨텍스트 윈도우

2M 토큰 — 플래그십 모델 중 최대급

할루시네이션 방지

멀티에이전트 검증으로 4.2% 달성

출력 속도

265 tok/s — 업계 최고 수준

추론 강도

MMLU-Pro 95% 보고

코딩 강도

우수하나 Codex·Opus 대비 제한적

도구 사용

X 검색·웹 검색·코드 실행 내장

장점

2M 토큰 컨텍스트 — 플래그십 모델 중 최대급
할루시네이션율 4.2% — 멀티에이전트 검증으로 업계 최저
265 tok/s 출력 속도 — Grok 4.1 대비 2배 이상
IFBench 82.9% — 프롬프트 준수율 1위
입력 $2/1M — Claude Opus($5) 대비 60% 저렴
X 검색·웹 검색·코드 실행 서버사이드 도구 내장

단점

베타 모델 — 안정성·일관성이 GA 모델 대비 변동 가능
코딩 벤치마크(SWE-Bench 등)에서 Claude Opus·GPT-5.3-Codex 대비 열위
파인튜닝 미지원
Claude Code·Cursor 등 주요 AI 코딩 도구 생태계 통합 부족
서버사이드 도구(검색·코드실행) 별도 과금 ($5/1K calls)

이 모델이 포함된 비교

⚖️비교

Grok 4 20 vs Claude Opus 4 vs Gpt 5

초장문·저할루시네이션은 Grok 4.20, 코딩·에이전트는 Claude Opus 4.6, 수학·파인튜닝은 GPT-5.4

공식 링크

공식 사이트 ↗문서 ↗