Mistral Small 4 — 119B MoE 오픈소스, 추론·비전·코딩을 하나로 통합한 셀프호스팅 대안
Mistral Small 4의 119B MoE 아키텍처, 벤치마크 성능, API vs 셀프호스팅 비용 비교, Ollama·vLLM 배포 방법, 실무 적용 시나리오를 정리한다.
한 줄 요약: Mistral Small 4는 119B 파라미터 MoE 모델이지만 토큰당 6B만 활성화한다. 추론, 비전, 코딩을 하나로 통합한 Apache 2.0 오픈소스 모델로, 셀프호스팅 시 API 비용을 근본적으로 제거할 수 있다.
왜 중요한가: 지금까지 추론용, 비전용, 코딩용 모델을 각각 배포하거나 API를 분리해서 호출해야 했다. Mistral Small 4는 세 가지를 하나로 합치면서도 GPT-4o급 성능을 유지한다. 로컬 GPU 한 장으로 돌릴 수 있어서, API 종속 없이 프로덕션 워크로드를 처리하는 팀에게 진짜 대안이 된다.
이 글이 필요한 사람: AI 모델 셀프호스팅을 검토하는 팀, API 비용을 줄이고 싶은 스타트업, 오픈소스 LLM의 실무 투입 가능성을 판단해야 하는 개발자.
※ 이 글은 2026년 3월 기준, Mistral 공식 발표 및 커뮤니티 벤치마크 데이터 기반으로 작성됐습니다.
Mistral Small 4는 어떤 모델인가
Mistral AI가 2026년 3월 16일 공개한 Mistral Small 4는 기존 Mistral Small 시리즈의 네 번째 모델이다. 이전 세대까지는 "저비용 경량 모델"이라는 포지션이었지만, Small 4는 성격이 다르다.
핵심 스펙을 정리한다:
아키텍처: Mixture-of-Experts (MoE) — 전체 128개 전문가, 토큰당 4개 활성화
총 파라미터: 119B (활성 파라미터 6B, 임베딩 포함 8B)
컨텍스트 윈도우: 256,000 토큰
라이선스: Apache 2.0 (상용 무료)
통합 기능: Magistral(추론) + Pixtral(비전) + Devstral(코딩)의 3-in-1
3개의 전문 모델을 하나로 합쳤다는 점이 가장 큰 차별점이다. Mistral 공식 발표에서 "flagship 모델의 능력을 하나의 범용 모델로 통합했다"고 설명한다.
Mistral Small 4 MoE 아키텍처 개요 (출처: Mistral AI)
벤치마크 성능 — 세 역할을 하나로 합쳐도 점수가 떨어지지 않는다
"통합 모델은 전문 모델보다 떨어진다"는 통념이 있다. Mistral Small 4는 이 통념에 정면으로 도전한다.
벤치마크
Mistral Small 4
GPT-OSS 120B
비고
AA LCR
0.72 (1.6K 글자)
유사 (5.8K 글자)
3.5배 짧은 출력으로 동급 성능
LiveCodeBench
GPT-OSS 120B 상회
기준점
20% 적은 출력으로 우위
GPQA Diamond
경쟁력 있음
-
과학 추론 벤치마크
비전 이해
문서·이미지 분석
-
Pixtral 계승
특히 주목할 점은 출력 효율성이다. 같은 성능을 내면서 생성 토큰 수가 20~70% 적다. 이는 셀프호스팅 시 GPU 메모리·처리 시간 절감으로 직결된다.
추론 모드는 토글 방식으로 작동한다. 빠른 응답이 필요하면 추론 모드를 끄고, 복잡한 문제에는 켤 수 있다. 이 유연성이 단일 모델로 다양한 워크로드를 처리하는 핵심이다.
주요 벤치마크 성능 비교 (출처: Mistral AI 공식 블로그)
비용 비교 — API vs 셀프호스팅 손익분기점
Mistral Small 4는 두 가지 경로로 사용할 수 있다. Mistral API를 쓰거나, 직접 호스팅하거나.
항목
Mistral API
셀프호스팅 (vLLM)
Claude Sonnet API
입력 비용
~$0.10/1M 토큰
GPU 비용만
$3.00/1M 토큰
출력 비용
~$0.30/1M 토큰
GPU 비용만
$15.00/1M 토큰
필요 GPU
-
A100 80GB 2장 (FP8)
-
라이선스
API 이용약관
Apache 2.0 (무료)
API 이용약관
손익분기점: 하루 50만~100만 토큰을 꾸준히 처리하는 팀이라면, 셀프호스팅이 월 $300~500 수준의 API 비용을 절감해준다. GPU 초기 투자 또는 클라우드 GPU 비용($1~2/시간)을 감안해도 3~6개월 내 회수 가능한 구간이다.
핵심은 119B 총 파라미터지만 활성 파라미터가 6B라는 점이다. 추론 시 실제로 작동하는 파라미터 수가 적어서 메모리와 연산 효율이 dense 모델 대비 월등히 높다.
셀프호스팅 실전 — Ollama와 vLLM로 배포하기
Mistral Small 4를 로컬 또는 프라이빗 서버에 배포하는 두 가지 방법을 정리한다.
Ollama — 5분 안에 실행
프로토타이핑이나 개인 개발 환경에 적합하다.
Ollama로 Mistral Small 4 실행
# 모델 다운로드 및 실행
ollama pull mistral-small-4
ollama run mistral-small-4
# API 서버로 실행 (포트 11434)
ollama serve
# curl로 테스트
curl http://localhost:11434/api/generate -d '{
"model": "mistral-small-4",
"prompt": "Python으로 JWT 토큰 검증 함수를 작성해줘"
}'
vLLM — 프로덕션 처리량이 필요할 때
다수 사용자가 동시에 요청하는 환경에서는 vLLM이 적합하다. PagedAttention 알고리즘으로 메모리 단편화를 40% 이상 줄이며, 벤치마크에서 Ollama 대비 19배 높은 처리량(793 TPS vs 41 TPS)을 기록한다.