AI/LLM

Mistral Small 4 — 119B MoE 오픈소스, 추론·비전·코딩을 하나로 통합한 셀프호스팅 대안

Mistral Small 4의 119B MoE 아키텍처, 벤치마크 성능, API vs 셀프호스팅 비용 비교, Ollama·vLLM 배포 방법, 실무 적용 시나리오를 정리한다.

2026-03-30

한 줄 요약: Mistral Small 4는 119B 파라미터 MoE 모델이지만 토큰당 6B만 활성화한다. 추론, 비전, 코딩을 하나로 통합한 Apache 2.0 오픈소스 모델로, 셀프호스팅 시 API 비용을 근본적으로 제거할 수 있다.

왜 중요한가: 지금까지 추론용, 비전용, 코딩용 모델을 각각 배포하거나 API를 분리해서 호출해야 했다. Mistral Small 4는 세 가지를 하나로 합치면서도 GPT-4o급 성능을 유지한다. 로컬 GPU 한 장으로 돌릴 수 있어서, API 종속 없이 프로덕션 워크로드를 처리하는 팀에게 진짜 대안이 된다.

이 글이 필요한 사람: AI 모델 셀프호스팅을 검토하는 팀, API 비용을 줄이고 싶은 스타트업, 오픈소스 LLM의 실무 투입 가능성을 판단해야 하는 개발자.

※ 이 글은 2026년 3월 기준, Mistral 공식 발표 및 커뮤니티 벤치마크 데이터 기반으로 작성됐습니다.

Mistral Small 4는 어떤 모델인가

Mistral AI가 2026년 3월 16일 공개한 Mistral Small 4는 기존 Mistral Small 시리즈의 네 번째 모델이다. 이전 세대까지는 "저비용 경량 모델"이라는 포지션이었지만, Small 4는 성격이 다르다.

핵심 스펙을 정리한다:

아키텍처: Mixture-of-Experts (MoE) — 전체 128개 전문가, 토큰당 4개 활성화
총 파라미터: 119B (활성 파라미터 6B, 임베딩 포함 8B)
컨텍스트 윈도우: 256,000 토큰
라이선스: Apache 2.0 (상용 무료)
통합 기능: Magistral(추론) + Pixtral(비전) + Devstral(코딩)의 3-in-1

3개의 전문 모델을 하나로 합쳤다는 점이 가장 큰 차별점이다. Mistral 공식 발표에서 "flagship 모델의 능력을 하나의 범용 모델로 통합했다"고 설명한다.

Mistral Small 4 MoE 아키텍처 다이어그램 — 128개 전문가 중 4개 활성화 — Mistral Small 4 MoE 아키텍처 개요 (출처: Mistral AI)

벤치마크 성능 — 세 역할을 하나로 합쳐도 점수가 떨어지지 않는다

"통합 모델은 전문 모델보다 떨어진다"는 통념이 있다. Mistral Small 4는 이 통념에 정면으로 도전한다.

벤치마크	Mistral Small 4	GPT-OSS 120B	비고
AA LCR	0.72 (1.6K 글자)	유사 (5.8K 글자)	3.5배 짧은 출력으로 동급 성능
LiveCodeBench	GPT-OSS 120B 상회	기준점	20% 적은 출력으로 우위
GPQA Diamond	경쟁력 있음	-	과학 추론 벤치마크
비전 이해	문서·이미지 분석	-	Pixtral 계승

특히 주목할 점은 출력 효율성이다. 같은 성능을 내면서 생성 토큰 수가 20~70% 적다. 이는 셀프호스팅 시 GPU 메모리·처리 시간 절감으로 직결된다.

추론 모드는 토글 방식으로 작동한다. 빠른 응답이 필요하면 추론 모드를 끄고, 복잡한 문제에는 켤 수 있다. 이 유연성이 단일 모델로 다양한 워크로드를 처리하는 핵심이다.

Mistral Small 4 벤치마크 비교 차트 — 코딩, 추론, 비전 성능 — 주요 벤치마크 성능 비교 (출처: Mistral AI 공식 블로그)

비용 비교 — API vs 셀프호스팅 손익분기점

Mistral Small 4는 두 가지 경로로 사용할 수 있다. Mistral API를 쓰거나, 직접 호스팅하거나.

항목	Mistral API	셀프호스팅 (vLLM)	Claude Sonnet API
입력 비용	~$0.10/1M 토큰	GPU 비용만	$3.00/1M 토큰
출력 비용	~$0.30/1M 토큰	GPU 비용만	$15.00/1M 토큰
필요 GPU	-	A100 80GB 2장 (FP8)	-
라이선스	API 이용약관	Apache 2.0 (무료)	API 이용약관

손익분기점: 하루 50만~100만 토큰을 꾸준히 처리하는 팀이라면, 셀프호스팅이 월 $300~500 수준의 API 비용을 절감해준다. GPU 초기 투자 또는 클라우드 GPU 비용($1~2/시간)을 감안해도 3~6개월 내 회수 가능한 구간이다.

핵심은 119B 총 파라미터지만 활성 파라미터가 6B라는 점이다. 추론 시 실제로 작동하는 파라미터 수가 적어서 메모리와 연산 효율이 dense 모델 대비 월등히 높다.

셀프호스팅 실전 — Ollama와 vLLM로 배포하기

Mistral Small 4를 로컬 또는 프라이빗 서버에 배포하는 두 가지 방법을 정리한다.

Ollama — 5분 안에 실행

프로토타이핑이나 개인 개발 환경에 적합하다.

Ollama로 Mistral Small 4 실행
# 모델 다운로드 및 실행
ollama pull mistral-small-4
ollama run mistral-small-4

# API 서버로 실행 (포트 11434)
ollama serve

# curl로 테스트
curl http://localhost:11434/api/generate -d '{
  "model": "mistral-small-4",
  "prompt": "Python으로 JWT 토큰 검증 함수를 작성해줘"
}'

vLLM — 프로덕션 처리량이 필요할 때

다수 사용자가 동시에 요청하는 환경에서는 vLLM이 적합하다. PagedAttention 알고리즘으로 메모리 단편화를 40% 이상 줄이며, 벤치마크에서 Ollama 대비 19배 높은 처리량(793 TPS vs 41 TPS)을 기록한다.

vLLM으로 Mistral Small 4 서빙
# vLLM 설치
pip install vllm

# 서빙 시작 (A100 80GB x2 기준)
vllm serve mistralai/Mistral-Small-4-119B-2603 \
  --tensor-parallel-size 2 \
  --max-model-len 65536 \
  --dtype float16

# OpenAI 호환 API로 호출
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "mistralai/Mistral-Small-4-119B-2603",
  "messages": [{"role": "user", "content": "Express.js에서 rate limiter 미들웨어를 구현해줘"}]
}'

기준	Ollama	vLLM
셋업 시간	5분	15~30분
동시 사용자	1~3명	수십~수백 명
처리량 (TPS)	~41	~793
메모리 최적화	기본	PagedAttention
적합 환경	개인 개발, 프로토타입	프로덕션, 다중 사용자

실무 적용 시나리오 3가지

Mistral Small 4의 3-in-1 특성이 실제로 유용한 상황을 정리한다.

1. 코드 리뷰 + 문서 분석 파이프라인

PR이 올라오면 코드를 분석하고(Devstral 계승), 관련 디자인 문서 이미지를 읽어서(Pixtral 계승) 구현이 스펙과 일치하는지 판단한다. 이전에는 코딩 모델과 비전 모델을 따로 호출해야 했지만, Small 4 하나로 가능하다.

2. 에이전트 워크플로우의 서브에이전트

메인 에이전트(Claude, GPT-5.4 등)가 비싼 추론을 담당하고, 반복적인 하위 작업(파일 변환, 데이터 추출, 코드 생성)은 셀프호스팅된 Mistral Small 4가 처리한다. API 비용을 90% 이상 절감하면서 전체 파이프라인의 품질을 유지하는 구조다.

3. 사내 AI 코딩 어시스턴트

보안상 외부 API로 코드를 보낼 수 없는 기업에서, 사내 서버에 Mistral Small 4를 배포하면 완전 프라이빗한 코딩 어시스턴트를 운영할 수 있다. Apache 2.0 라이선스이므로 상용 사용에 제약이 없다.

Mistral Small 4 셀프호스팅 아키텍처 — 에이전트 워크플로우 내 서브에이전트 배치 — 셀프호스팅 모델을 활용한 에이전트 파이프라인 예시 (출처: tech.ambitstock.com)

한계와 트레이드오프 — 만능은 아니다

Mistral Small 4가 모든 상황의 정답은 아니다. 도입 전 알아야 할 한계를 정리한다.

최상위 추론 성능은 아님: Claude Opus 4.6이나 GPT-5.4 Pro 모드 대비 복잡한 다단계 추론에서는 뒤진다. MoE 구조의 태생적 한계로, 토큰당 6B 활성 파라미터는 매우 깊은 추론에 불리하다.
GPU 요구량: 119B 전체 가중치를 로딩하려면 최소 A100 80GB 2장이 필요하다. RTX 4090(24GB) 한 장으로는 FP4 양자화를 적용해도 빡빡하다. consumer-grade GPU로 원활하게 돌리려면 더 작은 모델(Devstral 등)이 현실적이다.
MoE 추론 오버헤드: expert routing이 추가되므로 batch size가 작을 때(단일 요청)는 dense 모델 대비 latency가 높을 수 있다. 다수 요청을 동시에 처리할 때 MoE의 장점이 극대화된다.
한국어 성능: Mistral 모델은 영어·프랑스어 중심으로 훈련됐다. 한국어 코드 주석이나 문서 분석에서는 Claude나 GPT 대비 정확도가 떨어질 수 있다.

누가 Mistral Small 4를 써야 하는가

도입 여부 판단을 위한 체크리스트다.

도입 추천

월 API 비용이 $500 이상인 팀
보안상 외부 API 사용이 제한된 환경
추론·비전·코딩을 모두 사용하는 파이프라인
서브에이전트용 저비용 모델이 필요한 경우
A100 이상 GPU 인프라를 보유하거나 임대 가능

다른 선택이 나은 경우

최상위 추론 정확도가 필수 (Opus/GPT-5.4 Pro)
GPU 인프라가 없고 소량만 사용
한국어 문서 분석이 핵심 워크로드
RTX 4090 이하 단일 GPU만 보유

MistralMistral Small 4MoE오픈소스LLM셀프호스팅vLLMOllamaApache2AI코딩