LLM 모델NVIDIA

Nemotron 3 Super

Open hybrid Mamba-Transformer MoE for agentic reasoning

Nemotron 3 Super는 NVIDIA가 GTC 2026에서 발표한 120B 총 파라미터/12B 활성 파라미터 오픈 모델이다. Mamba-Transformer 하이브리드 아키텍처에 MoE와 Multi-Token Prediction(MTP)을 결합해, 기존 오픈모델 대비 2.2배 처리량과 50% 이상 빠른 토큰 생성을 달성했다. 1M 토큰 컨텍스트로 장기 에이전트 일관성, 크로스 도큐먼트 추론, 멀티스텝 계획에 최적화되었다. SWE-Bench Verified 60.47%, RULER 1M 91.75%를 기록했으며, DeepResearch Bench 리더보드 1위를 달성했다. NVIDIA Open Model License로 배포되어 상용 이용이 가능하다.

컨텍스트

1M tokens

입력 가격

$0.10/1M tokens

출력 가격

$0.50/1M tokens

멀티모달

text

핵심 역량

컨텍스트 윈도우

1M 토큰 (RULER 91.75%)

코딩 강도

SWE-Bench Verified 60.47%

추론 강도

에이전틱 추론 최적화

가격 효율

입력 $0.10/1M — 오픈모델 최저가급

처리량

Mamba-Transformer 하이브리드, 2.2x throughput

오픈 웨이트

NVIDIA Open Model License, 학습 데이터 공개

장점

입력 $0.10/1M — 오픈모델 API 최저가급
1M 토큰 컨텍스트 — RULER 1M에서 91.75% (GPT-OSS 22.30% 대비 압도)
Mamba-Transformer 하이브리드 — 기존 오픈모델 대비 2.2배 처리량
SWE-Bench Verified 60.47% — 코딩 에이전트 성능 최상위급
DeepResearch Bench 리더보드 1위 — 리서치 에이전트 성능 입증
학습 데이터(10T+ 토큰)·레시피 완전 공개

단점

NVIDIA Open Model License — Apache 2.0보다 제약적인 safeguard 조항 포함
에이전트 도구 생태계는 Claude Code·ChatGPT 대비 부족
120B 총 파라미터 — 셀프호스팅 시 고급 GPU 필요
ChatGPT·Claude 앱 수준의 소비자 인터페이스 없음

이 모델이 포함된 비교

⚖️비교

Qwen 3 5 vs Nemotron 3 Super vs Deepseek V4

초저가·다국어는 Qwen 3.5, 에이전틱 추론·처리량은 Nemotron 3 Super, 코딩·장문 엔지니어링은 DeepSeek V4

공식 링크

공식 사이트 ↗문서 ↗