AI/LLM

MiniMax M2.5 — SWE-bench 80.2% 코딩 1위, Claude Opus급 성능에 가격은 50분의 1

중국 AI 스타트업 MiniMax의 M2.5 모델 분석. SWE-bench Verified 80.2%로 코딩 벤치마크 1위. Claude Opus 4.5 대비 50배 저렴한 가격, 에이전트 기능, 중국 AI 생태계 동향까지 정리.

2026-03-30

한 줄 요약: 중국 AI 스타트업 MiniMax의 M2.5 모델이 SWE-bench Verified 80.2%를 기록하며 코딩 벤치마크 1위에 올랐다. Claude Opus급 성능에 가격은 수분의 1.

왜 중요한가: AI 코딩 도구 시장에서 성능과 비용의 관계가 근본적으로 바뀌고 있다. M2.5는 프론티어 모델과 동급 성능을 내면서 비용은 대폭 낮다. 자체 AI 인프라를 구축하는 기업이나, API 비용에 민감한 개발자에게 현실적인 대안이 된다.

이 글이 필요한 사람: AI 코딩 에이전트를 도입하려는 개발팀, API 비용을 최적화해야 하는 스타트업, 중국 AI 생태계 동향을 파악하려는 기술 의사결정자.

※ 이 글은 2026년 3월 기준, MiniMax 공식 발표 및 Artificial Analysis 벤치마크 데이터 기반으로 작성됐습니다.

MiniMax M2.5는 어떤 모델인가

MiniMax는 중국 베이징 기반의 AI 스타트업으로, 2026년 2월 12일 M2.5 모델을 공개했다. M2 시리즈의 세 번째 모델이며, 코딩과 에이전트 작업에 특화됐다.

핵심 스펙을 정리한다:

컨텍스트 윈도우: 205,000 토큰
지원 언어: Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP 등 10개 이상
학습 환경: 200,000개 이상의 실제 개발 환경에서 훈련
가격: 입력 $0.30 / 출력 $1.20 (100만 토큰당)

MiniMax 공식 발표에 따르면, M2.5는 "실제 생산성을 위해 설계된 모델"이라는 점을 강조한다. 벤치마크 점수보다 실무 작업 완수율에 초점을 맞췄다는 것이다.

MiniMax M2.5 SWE-bench Verified 벤치마크 순위 차트 — SWE-bench Verified 코딩 벤치마크 순위 (출처: MiniMax 공식 블로그)

벤치마크 성능 — 코딩과 에이전트에서 1위

M2.5의 벤치마크 결과를 주요 프론티어 모델과 비교한다.

벤치마크	M2.5	Claude Opus 4.5	GPT-5.4
SWE-bench Verified	80.2%	~72%	~69%
Multi-SWE-Bench (다국어)	1위	-	-
BrowseComp (검색)	최고	-	-
오피스 생산성 (GDPval-MM)	59.0% 승률	-	-

Artificial Analysis의 독립 평가에서도 M2.5는 코딩 관련 벤치마크에서 최상위권을 차지했다. 특히 Multi-SWE-Bench에서 다국어 코드 생성 능력이 업계 최고 수준으로 평가됐다.

비용 구조 — 프론티어 모델의 수분의 1

M2.5의 가격을 주요 모델과 비교하면 차이가 뚜렷하다.

모델	입력 ($/1M 토큰)	출력 ($/1M 토큰)	SWE-bench
MiniMax M2.5	$0.30	$1.20	80.2%
Claude Opus 4.5	$15.00	$75.00	~72%
GPT-5.4	$2.50	$10.00	~69%
Gemini 2.5 Pro	$1.25	$10.00	~65%

입력 기준으로 Claude Opus 4.5 대비 50배 저렴하고, 출력 기준으로도 62배 저렴하다. GPT-5.4와 비교해도 입력 8배, 출력 8배 저렴하다. SWE-bench 점수는 오히려 높다.

이 가격 차이는 월 수천 건의 코딩 에이전트 작업을 실행하는 팀에게 월 수천~수만 달러의 비용 절감을 의미한다.

AI 모델별 가격 대비 SWE-bench 성능 비교 차트 — 주요 AI 모델의 가격 대비 코딩 성능 비교 (출처: Artificial Analysis)

실무 기능 — 코딩을 넘어 에이전트 작업까지

M2.5는 단순 코드 생성 외에 에이전트 작업에서 강점을 보인다.

오피스 생산성

Word 문서, PowerPoint 프레젠테이션, Excel 재무 모델링 등 사무 작업 평가(GDPval-MM)에서 59.0% 평균 승률을 기록했다. 이는 주류 모델들 대비 pairwise 비교에서 과반수 이상 우위를 점했다는 뜻이다.

웹 검색 에이전트

BrowseComp와 Wide Search 벤치마크에서 최고 성능을 기록했다. 복잡한 정보 수집 작업에서 자율적으로 웹을 탐색하고 결과를 종합하는 능력이 검증됐다.

Ollama 지원

Ollama에서 바로 실행할 수 있다. 로컬 환경에서 테스트하거나 자체 인프라에서 서빙할 수 있다는 뜻이다.

누가 M2.5를 검토해야 하는가

적합한 경우:

AI 코딩 에이전트 비용을 줄이고 싶은 팀 — 성능은 유지하면서 API 비용을 대폭 절감
다국어 코드 생성이 필요한 프로젝트 — Multi-SWE-Bench 1위의 다국어 지원
자체 인프라에서 AI 모델을 서빙하려는 기업 — Ollama 지원으로 로컬 배포 가능
에이전트 자동화를 구축하려는 개발자 — 검색, 사무 작업 등 범용 에이전트 능력

주의해야 할 점:

데이터 주권 — 중국 기업의 모델이므로, 데이터 처리 위치와 규정 준수 여부를 확인해야 한다. Ollama로 로컬 실행하면 이 문제를 우회할 수 있다
API 안정성 — 아직 초기 단계이므로 프로덕션 환경에서의 안정성, SLA, 지원 수준을 검증해야 한다
벤치마크 vs 실무 — SWE-bench 점수가 높다고 모든 실무 작업에서 우위라는 뜻은 아니다. 실제 프로젝트에서의 코드 품질, 에러 처리, 맥락 이해력은 별도 평가가 필요하다

MiniMax M2.5 모델 아키텍처 및 기능 개요 — M2.5의 에이전트 기능 구성 (출처: MiniMax 공식)

중국 AI 생태계가 말하는 것

M2.5는 단독 사건이 아니다. 2026년 3월 첫째 주에만 중국에서 5개 이상의 프론티어급 모델이 발표됐다. Tencent, Alibaba, Baidu, ByteDance, MiniMax가 각각 경쟁 모델을 내놓았다.

이 흐름에서 읽을 수 있는 것은 세 가지다:

1. 비용 리더십 — 중국 모델들은 일관되게 미국 모델 대비 낮은 가격을 제시한다. DeepSeek에서 시작된 "저비용 고성능" 전략이 산업 전체로 확산됐다.

2. 코딩 특화 — SWE-bench, HumanEval 등 코딩 벤치마크에서 중국 모델이 상위권을 차지하는 비율이 높아지고 있다. 실용적 가치가 높은 영역에 집중 투자하는 전략이다.

3. 오픈소스/셀프호스팅 지원 — Qwen, DeepSeek, MiniMax 모두 Ollama 등을 통한 로컬 실행을 지원한다. API 종속을 피하려는 기업에게 선택지가 늘고 있다.

minimaxm2.5swe-benchai-coding중국AI코딩에이전트비용분석ollama프론티어모델