TechFeedTechFeed
LLM 모델xAI

Grok 4.20 Beta

xAI flagship with 2M context and multi-agent reasoning

Grok 4.20 Beta는 xAI가 2026년 3월 공개한 플래그십 모델이다. 2M 토큰 컨텍스트(업계 최대급)와 265 tok/s 출력 속도를 갖추며, 내부적으로 Harper·Benjamin·Lucas 3개 서브모델이 병렬 추론하는 멀티에이전트 MoE 구조로 할루시네이션을 4.2%까지 줄였다. IFBench 82.9%로 프롬프트 준수율 1위, AA-Omniscience 할루시네이션 평가에서 업계 최저 22%를 기록했다. 추론/비추론/멀티에이전트 3가지 모드를 지원하며, X 검색·웹 검색·코드 실행 등 서버사이드 도구도 내장한다.

컨텍스트
1M tokens
입력 가격
$2/1M tokens
출력 가격
$6/1M tokens
멀티모달
text, image

핵심 역량

컨텍스트 윈도우
2M 토큰 — 플래그십 모델 중 최대급
할루시네이션 방지
멀티에이전트 검증으로 4.2% 달성
출력 속도
265 tok/s — 업계 최고 수준
추론 강도
MMLU-Pro 95% 보고
코딩 강도
우수하나 Codex·Opus 대비 제한적
도구 사용
X 검색·웹 검색·코드 실행 내장

장점

  • 2M 토큰 컨텍스트 — 플래그십 모델 중 최대급
  • 할루시네이션율 4.2% — 멀티에이전트 검증으로 업계 최저
  • 265 tok/s 출력 속도 — Grok 4.1 대비 2배 이상
  • IFBench 82.9% — 프롬프트 준수율 1위
  • 입력 $2/1M — Claude Opus($5) 대비 60% 저렴
  • X 검색·웹 검색·코드 실행 서버사이드 도구 내장

단점

  • 베타 모델 — 안정성·일관성이 GA 모델 대비 변동 가능
  • 코딩 벤치마크(SWE-Bench 등)에서 Claude Opus·GPT-5.3-Codex 대비 열위
  • 파인튜닝 미지원
  • Claude Code·Cursor 등 주요 AI 코딩 도구 생태계 통합 부족
  • 서버사이드 도구(검색·코드실행) 별도 과금 ($5/1K calls)

이 모델이 포함된 비교

공식 링크