AI/LLM

제미나이 3.5 Flash 완전 분석 — 에이전트 코딩 1위, $1.50/M 가격과 Terminal-Bench 76%의 실체

구글이 I/O 2026에서 제미나이 3.5 Flash를 공개했다. 단순한 업데이트가 아니다. 제미나이 3.5 Flash는 구글이 2026년 5월 I/O 행사에서 공개한 신규 언어 모델이다. 구글 공식 발표 기준, 거의 모든 벤치마크에서 제미나이 3.1 Pro를 상회하며 다른 프론티어 모델 대비 4배 빠른 처리 속도를 목표로 설계됐다.

by Lee발행: 2026-05-25

구글이 I/O 2026에서 제미나이 3.5 Flash를 공개했다. 단순한 업데이트가 아니다. 제미나이 3.1 Pro를 대부분 벤치마크에서 앞서면서 다른 프론티어 모델 대비 4배 빠르다는 공식 발표가 나왔다.

개발자에게 직접적인 의미는 두 가지다. 첫째, 에이전트 코딩 파이프라인에서 속도와 정확도를 동시에 높일 수 있는 모델이 등장했다. 둘째, 입력 $1.50/1M 토큰으로 프리미엄 대비 낮게 책정됐다. Terminal-Bench 76.2%, MCP Atlas 83.6%라는 수치와 함께 실제로 무엇이 달라졌는지 살펴본다.

제미나이 3.5 Flash — 3.1 Pro를 뛰어넘은 에이전트 전용 모델

제미나이 3.5 Flash는 구글이 2026년 5월 I/O 행사에서 공개한 신규 언어 모델이다. 구글 공식 발표 기준, 거의 모든 벤치마크에서 제미나이 3.1 Pro를 상회하며 다른 프론티어 모델 대비 4배 빠른 처리 속도를 목표로 설계됐다.

이름에 Flash가 붙은 것은 속도 최적화 계열임을 나타낸다. 이전 제미나이 3.1 Flash-Lite가 가격 효율성 최적화였다면, 3.5 Flash는 에이전트 워크플로우와 장기 코딩 태스크에 특화된 설계다. 구글의 에이전트 실행 인프라인 Antigravity 2.0과 Managed Agents API의 기반 엔진으로 채택됐다.

컨텍스트 창은 100만 토큰(1M)이다. 긴 코드베이스 분석, 대용량 문서 처리, 다단계 에이전트 태스크에서 충분한 입력 범위를 제공한다.

구글 I/O 2026 제미나이 3.5 Flash 발표 — 구글 I/O 2026에서 공개된 제미나이 3.5 Flash — 에이전트 코딩과 Antigravity 2.0의 기반 모델 ⓒ Google

공식 벤치마크 수치 — 구글이 발표한 숫자만

위 수치는 구글 공식 블로그 기준이다. 독립 벤치마크 기관의 검증이 진행 중인 항목도 있으므로, 실제 워크로드 성능은 다를 수 있다.

주목할 수치는 MCP Atlas 83.6%다. MCP(Model Context Protocol)는 에이전트가 외부 도구와 연결되는 표준 프로토콜로 빠르게 확산 중이다. 이 벤치마크에서 높은 점수는 실제 에이전트 파이프라인에서 도구 호출 정확도가 높다는 의미다.

에이전트 코딩에서 두드러지는 이유

제미나이 3.5 Flash의 설계 목표는 "장기 호라이즌 태스크"다. 구글이 이 표현을 쓸 때의 의미는 다단계 에이전트 워크플로우, 즉 여러 도구를 순차적으로 호출하고 중간 결과를 다음 단계에 반영하는 형태의 태스크다.

일반 코딩 보조 시나리오(코드 한 줄 완성, 짧은 함수 생성)에서는 속도가 빠른 Lite 계열 모델도 충분하다. 그러나 코드베이스 전체를 분석하고 자동으로 리팩토링 계획을 짜거나, MCP 서버를 통해 데이터베이스에서 데이터를 가져와 코드를 업데이트하는 태스크에서는 컨텍스트 용량과 지시 추적 능력이 더 중요하다.

Terminal-Bench 2.1은 이런 시나리오를 시뮬레이션한다. 에이전트가 터미널 환경에서 실제로 명령을 실행하고, 결과를 읽고, 다음 단계를 결정하는 루프를 얼마나 정확하게 수행하는지 평가한다. 3.5 Flash의 76.2%는 현재 이 벤치마크 공개 상위권에 해당하는 수치다.

제미나이 3.5 Flash 에이전트 파이프라인 — 제미나이 3.5 Flash 기반 에이전트 — MCP 서버 호출, 터미널 실행, 다단계 태스크를 단일 루프로 처리 ⓒ Google

가격과 컨텍스트 — 실제 비용 계산

구글이 공개한 제미나이 3.5 Flash의 API 가격이다.

입력: $1.50 / 1M 토큰
출력: $9.00 / 1M 토큰

출력 가격이 $9/1M으로 높은 편이어서 긴 응답을 많이 생성하는 워크로드에서는 비용이 누적된다. 실제 월 비용 추정 예시(에이전트 파이프라인 기준):

일 100회 에이전트 태스크 × 평균 입력 10K 토큰, 출력 3K 토큰
입력: 100 × 10,000 × $1.50 ÷ 1,000,000 × 30일 = $4.50/월
출력: 100 × 3,000 × $9.00 ÷ 1,000,000 × 30일 = $8.10/월
합계: 약 $12.60/월

소규모 에이전트 프로젝트에서는 충분히 감당 가능한 비용이다. 대규모 배포나 고빈도 호출 시에는 출력 가격의 영향을 면밀히 계산해야 한다.

Managed Agents API와 Antigravity 2.0 — 구글이 3.5 Flash를 기반 엔진으로 선택한 이유

제미나이 3.5 Flash가 특히 의미 있는 맥락은 구글의 Managed Agents API와 Antigravity 2.0이다. 두 제품 모두 3.5 Flash를 기반 모델로 채택했다.

Managed Agents API는 단일 API 호출로 에이전트를 실행하는 인터페이스다. 개발자가 에이전트 루프, 도구 호출 스케줄링, 오류 처리를 직접 구현하지 않아도 된다. 구글이 제공하는 격리된 리눅스 샌드박스 환경에서 에이전트가 추론하고, 도구를 사용하고, 코드를 실행한다. Google AI Studio와 Interactions API를 통해 접근 가능하다.

Antigravity 2.0은 에이전트 퍼스트 데스크톱 앱이다. 에이전트 대화, 에이전트가 생성한 아티팩트 관리, 멀티에이전트 오케스트레이션 UI를 제공한다. 이전 버전 대비 서브에이전트, Hooks, 비동기 태스크 관리가 새 핵심 프리미티브로 추가됐다. Android와 웹 앱을 위한 에이전트 오케스트레이션도 Google AI Studio 내에서 지원된다.

$100/월 AI Ultra 플랜은 AI Pro 구독 대비 5배 높은 Antigravity 사용 한도를 제공한다.

Antigravity 2.0 멀티에이전트 오케스트레이션 — Antigravity 2.0 — 제미나이 3.5 Flash 기반, 서브에이전트와 멀티에이전트 오케스트레이션 지원 ⓒ Google

3.1 Pro, 3.5 Flash, Flash-Lite — 언제 무엇을 쓸까

실무에서 모델 선택의 핵심 기준은 단순 벤치마크 점수가 아니라 워크로드 유형이다. 에이전트 루프를 돌리거나 MCP 서버를 연결하는 경우 3.5 Flash가 현재로서는 가장 균형 잡힌 선택지다. 단발성 고난도 추론에는 3.1 Pro가, 대량 처리 비용 절감이 목표라면 Flash-Lite가 더 효율적이다.

참고 자료

FAQ 1. 제미나이 3.5 Flash와 제미나이 스파크(Spark)는 어떻게 다른가요?

제미나이 스파크는 Gmail, Calendar, Google Workspace를 자율 처리하는 24/7 개인 AI 에이전트 제품이다. 제미나이 3.5 Flash는 그 스파크의 기반이 되는 API 모델이다. 스파크를 사용하는 것은 이미 3.5 Flash를 쓰는 것이고, 개발자가 직접 API를 호출해 에이전트를 구축할 때도 3.5 Flash를 선택할 수 있다.

FAQ 2. Terminal-Bench 2.1이 무엇인지 설명해 주세요.

Terminal-Bench는 에이전트가 터미널 환경에서 명령을 실행하고 그 결과를 읽어 다음 행동을 결정하는 능력을 측정하는 벤치마크다. 코딩 에이전트가 실제로 bash 명령을 실행하고 오류 메시지를 해석하며 코드를 수정하는 시나리오를 평가한다. 실제 에이전트 코딩 성능과 상관관계가 높은 것으로 알려져 있다. 버전 2.1은 더 복잡한 멀티스텝 시나리오를 추가한 최신판이다.

FAQ 3. Managed Agents API는 일반 Gemini API와 어떻게 다른가요?

일반 Gemini API는 단일 텍스트 입력에 대한 응답을 반환한다. Managed Agents API는 에이전트가 여러 단계를 거쳐 태스크를 완료하는 전체 루프를 구글이 관리한다. 개발자가 에이전트 루프, 도구 스케줄링, 오류 재시도 로직을 직접 구현하지 않아도 된다. 격리된 리눅스 샌드박스에서 코드 실행도 포함된다.

FAQ 4. 제미나이 3.5 Pro는 언제 출시되나요?

구글 I/O 2026 발표 기준 제미나이 3.5 Pro 출시 일정은 아직 공개되지 않았다. 구글은 Flash 계열을 먼저 GA(일반 공개)하고 이후 Pro 계열 업데이트를 진행하는 패턴을 유지해 왔다. 구글 AI 블로그와 Google AI Studio 릴리스 노트를 주시하는 것이 현재로서는 가장 정확한 방법이다.

FAQ 5. $1.50/1M 입력 가격이 클로드 Sonnet이나 GPT-4o와 비교했을 때 어떤 수준인가요?

2026년 5월 기준 프론티어 급 모델의 입력 가격대는 일반적으로 $1.50~$3.00/1M 토큰 수준이다. 제미나이 3.5 Flash의 $1.50은 이 범위의 하단에 해당한다. 단, 출력 가격 $9.00/1M이 비교적 높아 응답이 긴 태스크에서는 전체 비용이 올라간다. 각 모델의 실제 가격은 제공사 공식 페이지에서 최신 정보를 확인해야 한다.

FAQ 6. MCP Atlas 벤치마크는 어떤 의미인가요?

MCP Atlas는 에이전트가 MCP(Model Context Protocol) 서버를 통해 외부 도구를 얼마나 정확하게 호출하는지 평가하는 벤치마크다. MCP가 에이전트-도구 연동의 표준 프로토콜로 자리잡으면서 이 벤치마크의 중요성이 높아지고 있다. 3.5 Flash의 83.6%는 MCP 기반 에이전트 파이프라인 구축 시 도구 호출 정확도가 높다는 신호다.

제미나이3.5FlashGoogleIO2026에이전트코딩ManagedAgentsAntigravityLLM구글AI