TechFeedTechFeed
LLM 모델Google

Gemini 3.1 Flash-Lite

Google's most cost-effective AI model

Gemini 3.1 Flash-Lite는 Google DeepMind가 2026년 3월 3일 프리뷰로 출시한 초저가 경량 모델이다. 입력 $0.25/1M tokens, 출력 $1.50/1M tokens로 플래그십 대비 1/8 비용이며, 2.5 Flash 대비 TTFA(Time to First Answer Token)가 2.5배 빠르고 출력 속도도 45% 향상됐다. 1M 토큰 컨텍스트, 최대 65,536 출력 토큰을 지원하며, Thinking 레벨 조절이 가능해 대용량 분류·요약·번역 등 비용 최적화 워크로드에 최적이다. Google AI Studio와 Vertex AI에서 사용 가능하다.

컨텍스트
1M tokens
입력 가격
$0.25/1M tokens
출력 가격
$1.50/1M tokens
멀티모달
text, image

핵심 역량

가격 효율
입력 $0.25/1M — 업계 최저가 수준
컨텍스트 윈도우
1M 토큰
응답 속도
TTFA 2.5배 향상, 출력 45% 빠름
Thinking 모드
추론 레벨 조절 가능
추론 강도
경량 모델 수준
Google 통합
AI Studio·Vertex AI

장점

  • 입력 $0.25/1M — 플래그십 대비 1/8 비용, 업계 최저가 수준
  • 1M 토큰 컨텍스트 — 경량 모델 중 최대
  • TTFA 2.5배 향상, 출력 속도 45% 향상 (2.5 Flash 대비)
  • Thinking 레벨 조절 — 작업 복잡도에 맞춰 추론 수준 조절 가능
  • Google AI Studio 무료 티어 제공
  • Vertex AI 네이티브 통합

단점

  • 플래그십(Gemini 3.1 Pro) 대비 추론·코딩 능력 제한적
  • 복잡한 멀티스텝 에이전트 작업에는 부적합
  • 프리뷰 상태 — GA 전까지 안정성 변동 가능
  • 최대 출력 65,536 토큰 — Pro(8,192 기본) 대비 많지만 대규모 생성에는 제한

이 모델이 포함된 비교

공식 링크