TechFeedTechFeed
AI / LLM

Gemini 3.1 Pro — 가격 동결에 추론 2배, 가성비 프론티어 모델의 등장

Google Gemini 3.1 Pro의 ARC-AGI-2 77.1%, $2/$12 가격 동결, Thinking Level 파라미터를 분석. 프론티어 모델 선택 가이드.

한 줄 요약: Google Gemini 3.1 Pro가 ARC-AGI-2 77.1%를 달성하며 추론 성능에서 세대 최대 도약을 기록했다. 가격은 $2/$12로 동결. 같은 비용에 2배 이상의 추론 능력을 얻는 셈이다.

이 글이 필요한 사람

  • AI API 비용을 줄이면서 성능을 높이고 싶은 개발팀
  • Claude, GPT, Gemini 중 프로젝트에 맞는 모델을 선택해야 하는 엔지니어
  • 멀티모달 입력(텍스트+이미지+코드)이 필요한 제품을 만드는 팀
  • LLM 벤치마크 해석 방법이 궁금한 개발자

기준일: 2026년 3월 21일. 출처: Google AI Blog, Vertex AI 공식 문서, Artificial Analysis

Gemini 3.1 Pro 벤치마크 핵심 분석

Gemini 3.1 Pro는 2026년 2월 19일 프리뷰로 출시됐다. 18개 추적 벤치마크 중 12개에서 1위를 기록했으며, 특히 추론 영역에서 전작 대비 압도적인 성능 향상을 보여줬다.

벤치마크Gemini 3.1 ProGemini 3 Pro향상폭
ARC-AGI-277.1%31.1%+46.0%p
GPQA Diamond94.3%~80%+14%p
LiveCodeBench Pro2887 Elo~2200+687

ARC-AGI-2에서 46%p 상승은 단일 세대 최대 추론 성능 도약으로 기록됐다. ARC-AGI-2는 패턴 암기가 아니라 새로운 문제를 푸는 능력을 측정하는 벤치마크로, 실제 복잡한 문제 해결 능력과의 상관이 높다.

가격 동결이 의미하는 것

Gemini 3.1 Pro는 입력 $2.00, 출력 $12.00 (백만 토큰당)으로 전작 Gemini 3 Pro와 동일한 가격을 유지한다. 성능은 2배 이상 향상됐는데 가격은 그대로인 셈이다.

2026년 3월 기준 프론티어 모델 가격 비교:

모델입력 (1M)출력 (1M)컨텍스트
Gemini 3.1 Pro$2.00$12.001M 토큰
Claude Opus 4.6$15.00$75.001M 토큰
GPT-5.4$10.00$30.001.05M 토큰
Claude Sonnet 4.6$3.00$15.00200K 토큰

Gemini 3.1 Pro는 가격 대비 성능(price-performance ratio)에서 클로즈드 프론티어 모델 중 1위다. Opus 4.6이나 GPT-5.4와 비교하면 가격이 5~7배 저렴하면서, 여러 벤치마크에서 비슷하거나 더 높은 점수를 기록한다. 다만 에이전틱 코딩이나 장기 멀티턴 작업에서는 여전히 Claude Opus 4.6이 우위를 보인다.

Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.4 가격 대비 성능 비교 차트
Gemini 3.1 Pro는 가격 대비 성능에서 클로즈드 프론티어 모델 최강이다. 절대 성능은 Opus 4.6과 GPT-5.4가 앞선다.

Thinking Level 파라미터의 실무 활용

Gemini 3.1 Pro의 주목할 신기능은 thinking_level 파라미터다. LOW, MEDIUM, HIGH 세 단계로 추론 깊이를 조절할 수 있어, 작업 복잡도에 따라 비용과 속도를 최적화할 수 있다.

실무 적용 가이드:

  • LOW — 단순 분류, 요약, 포맷 변환. 빠르고 저렴. 응답 시간 최소화가 중요한 경우
  • MEDIUM — 코드 리뷰, 문서 분석, 일반적인 질의응답. 대부분의 프로덕션 워크로드에 적합
  • HIGH — 복잡한 수학, 멀티스텝 추론, 코드 생성. ARC-AGI-2 77.1%를 달성한 모드

MEDIUM은 3.1 Pro에서 새로 추가된 단계다. HIGH와 LOW 사이에서 "충분히 좋은 추론"을 빠르게 얻을 수 있어, API 호출 비용을 줄이면서 품질을 유지하려는 팀에 적합하다.

멀티모달 입력과 출력 사양

Gemini 3.1 Pro는 텍스트, 이미지, 오디오, 비디오, 코드를 모두 입력으로 받는다. 출력은 최대 64,000 토큰까지 지원한다.

실무에서 멀티모달이 유용한 시나리오:

  • UI 스크린샷 → 코드 — 디자인 이미지를 입력하면 React/HTML 컴포넌트 생성
  • 에러 스크린샷 분석 — 터미널 에러 캡처를 이미지로 전달하면 원인 분석
  • 다이어그램 → 구현 — 아키텍처 다이어그램을 보고 코드 스캐폴딩
  • 비디오 분석 — 제품 데모 영상을 입력해 기능 목록 추출

1M 토큰 컨텍스트 윈도우 덕분에 대용량 코드베이스나 긴 문서도 한 번에 처리할 수 있다. 다만 프리뷰 단계에서는 레이트 리밋이 GA 대비 제한적일 수 있으므로, 프로덕션 투입 전 Vertex AI 콘솔에서 할당량을 확인하는 것이 좋다.

Gemini 3.1 Pro Thinking Level 파라미터 LOW, MEDIUM, HIGH 비교 — 속도, 비용, 추론 깊이
Thinking Level 파라미터로 작업 복잡도에 맞게 추론 깊이를 조절할 수 있다.

어떤 프로젝트에 Gemini 3.1 Pro를 선택할 것인가

모든 프로젝트에 Gemini 3.1 Pro가 최선은 아니다. 작업 유형별 모델 선택 가이드:

작업추천 모델이유
대량 API 호출 (분류/요약)Gemini 3.1 Pro$2 입력 가격 + MEDIUM thinking으로 비용 최적화
에이전틱 코딩/리팩토링Claude Opus 4.6Agent Teams + 자율적 파일 조작
멀티모달 분석 (이미지+비디오)Gemini 3.1 Pro비디오 직접 입력 + 1M 컨텍스트
복잡한 수학/과학 추론Gemini 3.1 ProARC-AGI-2 77.1%로 추론 1위
장기 대화/멀티턴 에이전트Claude Opus 4.6장기 컨텍스트 유지 능력 우위

예산이 제한적이고 API 호출량이 많은 프로젝트라면 Gemini 3.1 Pro가 현재 가장 합리적인 선택이다. 반면 에이전틱 자동화나 장기 멀티턴 작업이 핵심이라면 Claude Opus 4.6의 가격 프리미엄이 정당화된다.

GeminiGoogleLLM벤치마크ARC-AGIAPI가격멀티모달

관련 도구

관련 포스트

AI 에이전트란? 2026년 개발자가 알아야 할 모든 것2026-02-082026년 LLM 모델 비교 — Claude vs GPT vs Gemini2026-02-11RAG 구현 가이드 — 검색 증강 생성의 실전 적용2026-02-12파인튜닝 vs 프롬프트 엔지니어링 — 언제 무엇을 쓸까2026-02-14