한 줄 요약: Google Gemini 3.1 Pro가 ARC-AGI-2 77.1%를 달성하며 추론 성능에서 세대 최대 도약을 기록했다. 가격은 $2/$12로 동결. 같은 비용에 2배 이상의 추론 능력을 얻는 셈이다.
이 글이 필요한 사람
- AI API 비용을 줄이면서 성능을 높이고 싶은 개발팀
- Claude, GPT, Gemini 중 프로젝트에 맞는 모델을 선택해야 하는 엔지니어
- 멀티모달 입력(텍스트+이미지+코드)이 필요한 제품을 만드는 팀
- LLM 벤치마크 해석 방법이 궁금한 개발자
기준일: 2026년 3월 21일. 출처: Google AI Blog, Vertex AI 공식 문서, Artificial Analysis
Gemini 3.1 Pro는 2026년 2월 19일 프리뷰로 출시됐다. 18개 추적 벤치마크 중 12개에서 1위를 기록했으며, 특히 추론 영역에서 전작 대비 압도적인 성능 향상을 보여줬다.
| 벤치마크 | Gemini 3.1 Pro | Gemini 3 Pro | 향상폭 |
|---|
| ARC-AGI-2 | 77.1% | 31.1% | +46.0%p |
| GPQA Diamond | 94.3% | ~80% | +14%p |
| LiveCodeBench Pro | 2887 Elo | ~2200 | +687 |
ARC-AGI-2에서 46%p 상승은 단일 세대 최대 추론 성능 도약으로 기록됐다. ARC-AGI-2는 패턴 암기가 아니라 새로운 문제를 푸는 능력을 측정하는 벤치마크로, 실제 복잡한 문제 해결 능력과의 상관이 높다.
Gemini 3.1 Pro는 입력 $2.00, 출력 $12.00 (백만 토큰당)으로 전작 Gemini 3 Pro와 동일한 가격을 유지한다. 성능은 2배 이상 향상됐는데 가격은 그대로인 셈이다.
2026년 3월 기준 프론티어 모델 가격 비교:
| 모델 | 입력 (1M) | 출력 (1M) | 컨텍스트 |
|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1M 토큰 |
| Claude Opus 4.6 | $15.00 | $75.00 | 1M 토큰 |
| GPT-5.4 | $10.00 | $30.00 | 1.05M 토큰 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K 토큰 |
Gemini 3.1 Pro는 가격 대비 성능(price-performance ratio)에서 클로즈드 프론티어 모델 중 1위다. Opus 4.6이나 GPT-5.4와 비교하면 가격이 5~7배 저렴하면서, 여러 벤치마크에서 비슷하거나 더 높은 점수를 기록한다. 다만 에이전틱 코딩이나 장기 멀티턴 작업에서는 여전히 Claude Opus 4.6이 우위를 보인다.
Gemini 3.1 Pro의 주목할 신기능은 thinking_level 파라미터다. LOW, MEDIUM, HIGH 세 단계로 추론 깊이를 조절할 수 있어, 작업 복잡도에 따라 비용과 속도를 최적화할 수 있다.
실무 적용 가이드:
- LOW — 단순 분류, 요약, 포맷 변환. 빠르고 저렴. 응답 시간 최소화가 중요한 경우
- MEDIUM — 코드 리뷰, 문서 분석, 일반적인 질의응답. 대부분의 프로덕션 워크로드에 적합
- HIGH — 복잡한 수학, 멀티스텝 추론, 코드 생성. ARC-AGI-2 77.1%를 달성한 모드
MEDIUM은 3.1 Pro에서 새로 추가된 단계다. HIGH와 LOW 사이에서 "충분히 좋은 추론"을 빠르게 얻을 수 있어, API 호출 비용을 줄이면서 품질을 유지하려는 팀에 적합하다.
Gemini 3.1 Pro는 텍스트, 이미지, 오디오, 비디오, 코드를 모두 입력으로 받는다. 출력은 최대 64,000 토큰까지 지원한다.
실무에서 멀티모달이 유용한 시나리오:
- UI 스크린샷 → 코드 — 디자인 이미지를 입력하면 React/HTML 컴포넌트 생성
- 에러 스크린샷 분석 — 터미널 에러 캡처를 이미지로 전달하면 원인 분석
- 다이어그램 → 구현 — 아키텍처 다이어그램을 보고 코드 스캐폴딩
- 비디오 분석 — 제품 데모 영상을 입력해 기능 목록 추출
1M 토큰 컨텍스트 윈도우 덕분에 대용량 코드베이스나 긴 문서도 한 번에 처리할 수 있다. 다만 프리뷰 단계에서는 레이트 리밋이 GA 대비 제한적일 수 있으므로, 프로덕션 투입 전 Vertex AI 콘솔에서 할당량을 확인하는 것이 좋다.
모든 프로젝트에 Gemini 3.1 Pro가 최선은 아니다. 작업 유형별 모델 선택 가이드:
| 작업 | 추천 모델 | 이유 |
|---|
| 대량 API 호출 (분류/요약) | Gemini 3.1 Pro | $2 입력 가격 + MEDIUM thinking으로 비용 최적화 |
| 에이전틱 코딩/리팩토링 | Claude Opus 4.6 | Agent Teams + 자율적 파일 조작 |
| 멀티모달 분석 (이미지+비디오) | Gemini 3.1 Pro | 비디오 직접 입력 + 1M 컨텍스트 |
| 복잡한 수학/과학 추론 | Gemini 3.1 Pro | ARC-AGI-2 77.1%로 추론 1위 |
| 장기 대화/멀티턴 에이전트 | Claude Opus 4.6 | 장기 컨텍스트 유지 능력 우위 |
예산이 제한적이고 API 호출량이 많은 프로젝트라면 Gemini 3.1 Pro가 현재 가장 합리적인 선택이다. 반면 에이전틱 자동화나 장기 멀티턴 작업이 핵심이라면 Claude Opus 4.6의 가격 프리미엄이 정당화된다.