한 줄 요약: 중국 AI 스타트업 MiniMax의 M2.5 모델이 SWE-bench Verified 80.2%를 기록하며 코딩 벤치마크 1위에 올랐다. Claude Opus급 성능에 가격은 수분의 1.
왜 중요한가: AI 코딩 도구 시장에서 성능과 비용의 관계가 근본적으로 바뀌고 있다. M2.5는 프론티어 모델과 동급 성능을 내면서 비용은 대폭 낮다. 자체 AI 인프라를 구축하는 기업이나, API 비용에 민감한 개발자에게 현실적인 대안이 된다.
이 글이 필요한 사람: AI 코딩 에이전트를 도입하려는 개발팀, API 비용을 최적화해야 하는 스타트업, 중국 AI 생태계 동향을 파악하려는 기술 의사결정자.
※ 이 글은 2026년 3월 기준, MiniMax 공식 발표 및 Artificial Analysis 벤치마크 데이터 기반으로 작성됐습니다.
MiniMax는 중국 베이징 기반의 AI 스타트업으로, 2026년 2월 12일 M2.5 모델을 공개했다. M2 시리즈의 세 번째 모델이며, 코딩과 에이전트 작업에 특화됐다.
핵심 스펙을 정리한다:
- 컨텍스트 윈도우: 205,000 토큰
- 지원 언어: Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP 등 10개 이상
- 학습 환경: 200,000개 이상의 실제 개발 환경에서 훈련
- 가격: 입력 $0.30 / 출력 $1.20 (100만 토큰당)
MiniMax 공식 발표에 따르면, M2.5는 "실제 생산성을 위해 설계된 모델"이라는 점을 강조한다. 벤치마크 점수보다 실무 작업 완수율에 초점을 맞췄다는 것이다.
M2.5의 벤치마크 결과를 주요 프론티어 모델과 비교한다.
| 벤치마크 | M2.5 | Claude Opus 4.5 | GPT-5.4 |
|---|
| SWE-bench Verified | 80.2% | ~72% | ~69% |
| Multi-SWE-Bench (다국어) | 1위 | - | - |
| BrowseComp (검색) | 최고 | - | - |
| 오피스 생산성 (GDPval-MM) | 59.0% 승률 | - | - |
Artificial Analysis의 독립 평가에서도 M2.5는 코딩 관련 벤치마크에서 최상위권을 차지했다. 특히 Multi-SWE-Bench에서 다국어 코드 생성 능력이 업계 최고 수준으로 평가됐다.
M2.5의 가격을 주요 모델과 비교하면 차이가 뚜렷하다.
| 모델 | 입력 ($/1M 토큰) | 출력 ($/1M 토큰) | SWE-bench |
|---|
| MiniMax M2.5 | $0.30 | $1.20 | 80.2% |
| Claude Opus 4.5 | $15.00 | $75.00 | ~72% |
| GPT-5.4 | $2.50 | $10.00 | ~69% |
| Gemini 2.5 Pro | $1.25 | $10.00 | ~65% |
입력 기준으로 Claude Opus 4.5 대비 50배 저렴하고, 출력 기준으로도 62배 저렴하다. GPT-5.4와 비교해도 입력 8배, 출력 8배 저렴하다. SWE-bench 점수는 오히려 높다.
이 가격 차이는 월 수천 건의 코딩 에이전트 작업을 실행하는 팀에게 월 수천~수만 달러의 비용 절감을 의미한다.
M2.5는 단순 코드 생성 외에 에이전트 작업에서 강점을 보인다.
오피스 생산성
Word 문서, PowerPoint 프레젠테이션, Excel 재무 모델링 등 사무 작업 평가(GDPval-MM)에서 59.0% 평균 승률을 기록했다. 이는 주류 모델들 대비 pairwise 비교에서 과반수 이상 우위를 점했다는 뜻이다.
웹 검색 에이전트
BrowseComp와 Wide Search 벤치마크에서 최고 성능을 기록했다. 복잡한 정보 수집 작업에서 자율적으로 웹을 탐색하고 결과를 종합하는 능력이 검증됐다.
Ollama 지원
Ollama에서 바로 실행할 수 있다. 로컬 환경에서 테스트하거나 자체 인프라에서 서빙할 수 있다는 뜻이다.
M2.5는 단독 사건이 아니다. 2026년 3월 첫째 주에만 중국에서 5개 이상의 프론티어급 모델이 발표됐다. Tencent, Alibaba, Baidu, ByteDance, MiniMax가 각각 경쟁 모델을 내놓았다.
이 흐름에서 읽을 수 있는 것은 세 가지다:
1. 비용 리더십 — 중국 모델들은 일관되게 미국 모델 대비 낮은 가격을 제시한다. DeepSeek에서 시작된 "저비용 고성능" 전략이 산업 전체로 확산됐다.
2. 코딩 특화 — SWE-bench, HumanEval 등 코딩 벤치마크에서 중국 모델이 상위권을 차지하는 비율이 높아지고 있다. 실용적 가치가 높은 영역에 집중 투자하는 전략이다.
3. 오픈소스/셀프호스팅 지원 — Qwen, DeepSeek, MiniMax 모두 Ollama 등을 통한 로컬 실행을 지원한다. API 종속을 피하려는 기업에게 선택지가 늘고 있다.