LLM 모델 허브
GPT, Claude, Gemini, Llama 등 주요 LLM 모델의
스펙, 가격, 코딩 능력을 비교합니다.
🧠LLM 모델(35)
Claude Opus 4.6
Anthropic 최상위 플래그십 (2026.02). 1M 컨텍스트 표준가, 128K 출력, 코딩·추론 벤치마크 최고.
Claude Sonnet 4.6
2026년 최고 가성비 API 모델. Opus 4.6 품질에 1/5 가격, 1M 컨텍스트 표준가 적용.
Claude Haiku 4.5
Anthropic 최속·최경량 모델 (2025.10). Sonnet 4 수준 코딩 성능을 $1/1M 입력가, 서브에이전트·병렬 워크플로우에 최적.
GPT-5.4
OpenAI 최신 플래그십 (2026.03). 1.05M 컨텍스트, AIME 2025 수학 100%, 128K 출력, 파인튜닝 지원, 광대한 생태계.
GPT-5.3-Codex
OpenAI 코딩 특화 플래그십 (2026.02). Codex+GPT-5 통합 학습, 400K 컨텍스트, 128K 출력, 에이전틱 코딩 최적화.
Gemini 3.1 Pro
Google 최신 플래그십 (2026.02). 향상된 추론, 1M+ 컨텍스트, 네이티브 멀티모달(비디오·오디오), Google 생태계 통합.
Gemini 3.1 Flash-Lite
Google의 초저가 경량 모델 (2026.03). $0.25/1M 입력, 1M 컨텍스트, 2.5 Flash 대비 2.5배 빠른 응답.
Gemini 3 Deep Think
Google의 극한 추론 특화 모델 (2026.03). ARC-AGI-2 84.6%, 국제 올림피아드 금메달급 수학·과학 추론. 연구자·엔지니어용.
Llama 4 Maverick
Meta의 오픈소스 MoE 모델 (2025.04). Scout는 10M 컨텍스트, Maverick은 멀티모달로 GPT-4o 수준.
Llama 4 Scout
Meta의 경량 오픈소스 MoE 모델 (2026.04). 10M 토큰 컨텍스트, 단일 H100 실행 가능, 텍스트·이미지·비디오 멀티모달.
DeepSeek V4
1T 파라미터 MoE 오픈소스 모델 (2026.03). 1M 컨텍스트, Engram 아키텍처, 입력 $0.30/1M으로 GPT-5.4 대비 8배 저렴.
Mistral Large 3
Mistral AI의 오픈웨이트 MoE 모델 (2025.12). 675B 총 파라미터, 41B 활성, 262K 컨텍스트, 입력 $0.50/1M.
Mistral Small 4
Mistral의 경량 오픈웨이트 MoE 모델 (2026.03). 119B/6B 활성, 256K 컨텍스트, 입력 $0.15/1M, Mistral Small 3 대비 지연 40% 감소.
Qwen 3.5
Alibaba 최신 플래그십 (2026.02). 397B/17B MoE, Gated DeltaNet 하이브리드, 1M 컨텍스트, 입력 $0.20/1M으로 가성비 최강.
Nemotron 3 Super
NVIDIA의 하이브리드 Mamba-Transformer MoE (2026.03). 120B/12B 활성, 1M 컨텍스트, 에이전틱 추론 최적화, 입력 $0.10/1M.
Grok 4.20 Beta
xAI의 최신 플래그십 LLM (2026.03). 2M 컨텍스트, 멀티에이전트 아키텍처, 업계 최저 할루시네이션율, 입력 $2/1M.
GPT-5.4 mini
GPT-5.4의 소형 고효율 버전 (2026.03). 400K 컨텍스트, GPT-5.4 수준 품질을 2배 빠른 속도와 1/3 비용으로 제공.
GPT-5.4 nano
GPT-5.4 가족 중 가장 작고 저렴한 모델 (2026.03). API 전용, $0.20/1M 입력으로 분류·추출·서브에이전트에 최적화.
GLM-5
Zhipu AI의 744B MoE 오픈소스 모델 (2026.02). SWE-bench 77.8%, HLE 50.4%. MIT 라이선스, 200K 컨텍스트, 입력 $1.00/1M.
GLM-5.1
GLM-5 포스트트레이닝 업그레이드 (2026.03). 코딩 45.3점(Claude Opus 4.6 대비 94.6%). 744B MoE, MIT 라이선스, 가중치 오픈소스 공개.
Mercury 2
Inception Labs의 확산 기반 추론 LLM (2026.02). 1,000 tokens/sec, Claude 4.5 Haiku 동급 성능. 입력 $0.25/1M · 출력 $0.75/1M.
Qwen 3.6-Plus
Alibaba 에이전틱 코딩 특화 모델 (2026.04). 1M 컨텍스트, 65K 출력, SWE-bench·Terminal-Bench 2.0에서 Claude Opus 4.5 동급, 입력 $0.29/1M.
Claude Mythos
Anthropic 역대 최강 모델 (2026.04). SWE-bench 93.9%, USAMO 97.6%. Project Glasswing 초대 전용 — 일반 공개 없음.
Meta Muse Spark
Meta Superintelligence Labs의 첫 멀티모달 추론 모델 (2026.04). 헬스·과학·멀티모달 최강, 무료.
Gemma 4
Google DeepMind 오픈 모델 (2026.04). 31B Dense·26B MoE 포함 4종, Apache 2.0, 멀티모달. 31B는 오픈 모델 세계 3위.
Arcee Trinity Large Thinking
Arcee AI의 400B 오픈소스 추론 에이전트 모델 (2026.04). 13B 활성 파라미터, 262K 컨텍스트, PinchBench #2, 입력 $0.22/1M.
Mistral Medium 3
Mistral의 미드티어 오픈웨이트 모델 (오픈 2026.04). 128K 컨텍스트, EU AI Act 컴플라이언스, 입력 $0.40/1M.
MiMo-V2-Flash
Xiaomi의 오픈소스 코딩 MoE 모델 (2026.02). SWE-bench Verified 73.4% 오픈소스 1위, 262K 컨텍스트, 입력 $0.09/1M.
MiniMax M2.5
MiniMax의 코딩·에이전틱 플래그십 (2026.02). SWE-bench 80.2%, BrowseComp 76.3%, 205K 컨텍스트, 입력 $0.30/1M.
MiniMax M2.7
MiniMax의 추론 특화 모델 (2026.03). 230B/10B MoE, 200K 컨텍스트, 체인-오브-소트, 입력 $0.30/1M.
Qwen3.6-Max-Preview
Alibaba 최강 코딩 플래그십 프리뷰 (2026.04). SWE-bench Pro·SkillsBench·SciCode 등 6대 코딩 벤치 1위, 260K 컨텍스트, 프리뷰 무료.
GLM-5V-Turbo
Zhipu AI의 비전-코딩 특화 멀티모달 에이전트 (2026.04). Design2Code 94.8% 1위, 203K 컨텍스트, 디자인 목업 → 실행 가능한 코드 직변환.
GPT-5.5
OpenAI 최강 에이전틱 코딩 모델 (2026.04). Terminal-Bench 2.0 82.7% 1위, SWE-Bench Pro 58.6%, 1M 컨텍스트, GPT-5.4 동급 속도.
Qwen3-Coder-Next
Alibaba 최신 코딩 오픈소스 MoE 모델 (2026.04). 80B 총 파라미터/3B 활성, SWE-bench Verified 58.7%, 256K 컨텍스트, 단일 H100 로컬 실행 가능.
Qwen3.6-27B
Alibaba 오픈소스 Dense 27B 코딩 모델 (2026.04). 397B MoE를 추월하는 SWE-bench Verified 77.2%, RTX 4090 단일 GPU 실행, 262K 컨텍스트.