LLM 모델Google

Gemini 3.1 Flash-Lite

Google's most cost-effective AI model

Gemini 3.1 Flash-Lite는 Google DeepMind가 2026년 3월 3일 프리뷰로 출시한 초저가 경량 모델이다. 입력 $0.25/1M tokens, 출력 $1.50/1M tokens로 플래그십 대비 1/8 비용이며, 2.5 Flash 대비 TTFA(Time to First Answer Token)가 2.5배 빠르고 출력 속도도 45% 향상됐다. 1M 토큰 컨텍스트, 최대 65,536 출력 토큰을 지원하며, Thinking 레벨 조절이 가능해 대용량 분류·요약·번역 등 비용 최적화 워크로드에 최적이다. Google AI Studio와 Vertex AI에서 사용 가능하다.

컨텍스트

1M tokens

입력 가격

$0.25/1M tokens

출력 가격

$1.50/1M tokens

멀티모달

text, image

핵심 역량

가격 효율

입력 $0.25/1M — 업계 최저가 수준

컨텍스트 윈도우

1M 토큰

응답 속도

TTFA 2.5배 향상, 출력 45% 빠름

Thinking 모드

추론 레벨 조절 가능

추론 강도

경량 모델 수준

Google 통합

AI Studio·Vertex AI

장점

입력 $0.25/1M — 플래그십 대비 1/8 비용, 업계 최저가 수준
1M 토큰 컨텍스트 — 경량 모델 중 최대
TTFA 2.5배 향상, 출력 속도 45% 향상 (2.5 Flash 대비)
Thinking 레벨 조절 — 작업 복잡도에 맞춰 추론 수준 조절 가능
Google AI Studio 무료 티어 제공
Vertex AI 네이티브 통합

단점

플래그십(Gemini 3.1 Pro) 대비 추론·코딩 능력 제한적
복잡한 멀티스텝 에이전트 작업에는 부적합
프리뷰 상태 — GA 전까지 안정성 변동 가능
최대 출력 65,536 토큰 — Pro(8,192 기본) 대비 많지만 대규모 생성에는 제한

이 모델이 포함된 비교

⚖️비교

Gpt 5 4 Mini vs Gemini 3 1 Flash Lite vs Claude Sonnet 4

최저 비용 대량 처리는 Gemini Flash-Lite, 품질·비용 균형은 GPT-5.4 mini, 코딩·에이전트 품질 우선이면 Claude S...

공식 링크

공식 사이트 ↗문서 ↗