AI/LLM

GPT-5.4 Mini & Nano — 서브에이전트 시대를 여는 효율 모델

한 줄 요약: OpenAI가 3월 17일 공개한 GPT-5.4 Mini와 Nano는 플래그십 성능의 90%를 유지하면서 토큰 비용을 최대 93% 줄인 서브에이전트 전용 모델이다. Mini는 무료 ChatGPT 사용자에게도 제공된다. GPT-5.4 플래그십은 강력하지만 비싸다. 입력 토큰당 $15, 출력 토큰당 $60(백만 토큰 기준)이다.

by Lee발행: 2026-03-28

한 줄 요약: OpenAI가 3월 17일 공개한 GPT-5.4 Mini와 Nano는 플래그십 성능의 90%를 유지하면서 토큰 비용을 최대 93% 줄인 서브에이전트 전용 모델이다. Mini는 무료 ChatGPT 사용자에게도 제공된다.

이 글이 필요한 사람

멀티에이전트 파이프라인에서 비용을 줄이고 싶은 백엔드 개발자
GPT-5.4 API 비용이 부담되어 효율 모델을 찾는 스타트업
서브에이전트 아키텍처를 설계 중인 AI 엔지니어
무료 ChatGPT에서 GPT-5.4급 성능을 경험하고 싶은 개발자

※ 이 글은 2026년 3월 기준, OpenAI 공식 블로그 및 API 문서 기반으로 작성됐습니다.

GPT-5.4 Mini와 Nano가 나온 이유

GPT-5.4 플래그십은 강력하지만 비싸다. 입력 토큰당 $15, 출력 토큰당 $60(백만 토큰 기준)이다. AI 에이전트가 수십 개의 서브태스크를 병렬로 실행하는 시대에, 모든 호출에 플래그십 모델을 쓰면 비용이 기하급수적으로 늘어난다.

OpenAI는 이 문제를 역할 분리로 해결했다. 플래그십은 복잡한 추론과 의사결정을 담당하고, Mini와 Nano는 코드베이스 검색·파일 리뷰·데이터 추출 같은 잘 정의된 실행 태스크를 맡는 구조다. The New Stack은 이를 "서브에이전트 시대의 시작"이라고 평가했다.

GPT-5.4 모델 패밀리 계층 구조 — 플래그십, Mini, Nano 역할 분담 다이어그램 — 플래그십은 추론, Mini는 실행, Nano는 분류 — 역할 기반 멀티모델 아키텍처 (출처: OpenAI 공식 블로그)

벤치마크로 본 Mini와 Nano의 실력

Mini는 플래그십과의 격차가 놀라울 만큼 작다. GPQA Diamond에서 Mini는 88.01%로 플래그십(93%)에 5%p 차이다. SWE-bench Pro에서는 54.38% 대 57.7%로 3%p밖에 안 벌어진다. OSWorld-Verified(컴퓨터 사용 벤치마크)에서도 72.13% 대 75.03%로 거의 동등하다.

Nano는 분류·추출·랭킹에 특화됐다. 복잡한 추론은 Mini에 비해 떨어지지만, 단순 태스크에서는 Mini와 성능 차이가 거의 없으면서 비용이 3~4배 더 저렴하다.

GPT-5.4 Mini와 Nano의 벤치마크 점수 비교 차트 — Mini는 SWE-bench Pro에서 플래그십 대비 3%p 차이로, 코딩 태스크에서 거의 동등한 성능을 보인다 (출처: OpenAI)

비용 분석 — 서브에이전트 100회 호출 시 얼마나 절감되나

서브에이전트가 100개 파일을 병렬로 리뷰하는 시나리오를 가정해보자. 각 호출에 평균 입력 5,000토큰, 출력 2,000토큰이 들어간다.

플래그십: (5,000 × $15 + 2,000 × $60) / 1,000,000 × 100 = $19.50
Mini: (5,000 × $0.75 + 2,000 × $4.50) / 1,000,000 × 100 = $1.28
Nano: (5,000 × $0.20 + 2,000 × $1.25) / 1,000,000 × 100 = $0.35

같은 작업에 플래그십 대비 Mini는 93%, Nano는 98% 비용 절감이다. 대규모 에이전트 시스템에서 이 차이는 월 수천 달러에 달한다.

Simon Willison의 테스트에 따르면 Nano는 76,000장의 사진을 설명하는 데 $52밖에 들지 않았다. 대량 데이터 처리에서 Nano의 가성비가 극단적으로 좋다는 것을 보여주는 사례다.

모델별 적합 용도 — 언제 Mini를, 언제 Nano를 쓰나

OpenAI 공식 권장 기준과 실제 개발자 피드백을 종합하면 이렇게 나뉜다.

Mini가 적합한 경우:

코드 편집·디버깅 루프를 빠르게 반복해야 할 때
코드베이스 탐색 서브에이전트 (400K 컨텍스트 활용)
프론트엔드 생성·UI 프로토타이핑
컴퓨터 사용이 필요한 자동화 (스크린샷 인식 + 조작)

Nano가 적합한 경우:

텍스트 분류·감정 분석·라벨링
구조화된 데이터 추출 (JSON 파싱, 엔티티 인식)
검색 결과 랭킹·필터링
대량 이미지 캡셔닝·메타데이터 생성

핵심 원칙은 "추론이 필요하면 Mini, 패턴 매칭이면 Nano"다. 하나의 에이전트 시스템 안에서 태스크 복잡도에 따라 모델을 동적으로 라우팅하는 것이 2026년 멀티모델 아키텍처의 표준이 되고 있다.

멀티모델 에이전트 아키텍처 다이어그램 — 오케스트레이터가 태스크별로 Mini/Nano를 라우팅하는 구조 — 플래그십이 계획하고, Mini가 실행하고, Nano가 분류하는 3계층 에이전트 구조 (출처: The New Stack)

기존 GPT-5.4 API에서 Mini/Nano로 전환하는 방법

API 전환은 모델 이름만 바꾸면 된다. Chat Completions, Responses 두 엔드포인트 모두에서 gpt-5.4-mini, gpt-5.4-nano를 지정할 수 있다.

전환 시 주의할 점 세 가지:

컨텍스트 윈도우 차이: 플래그십 1,050K → Mini 400K → Nano 128K. 긴 문서를 통째로 넣던 프롬프트는 Mini/Nano에서 잘릴 수 있다
컴퓨터 사용: Nano는 컴퓨터 사용을 지원하지 않는다. 브라우저 자동화 파이프라인에서 Nano를 쓰면 에러가 발생한다
추론 깊이: Nano는 복잡한 다단계 추론에서 성능이 급격히 떨어진다. 3단계 이상의 논리 체인이 필요한 태스크는 Mini 이상을 사용해야 한다

가장 효과적인 전환 전략은 점진적 교체다. 먼저 분류·추출 태스크를 Nano로 옮기고, 성능을 모니터링한 뒤 코딩·검색 태스크를 Mini로 전환한다.