TechFeedTechFeed
AI/LLM

Mistral Small 4 — 119B MoE 오픈소스, 추론·비전·코딩을 하나로 통합한 셀프호스팅 대안

Mistral Small 4의 119B MoE 아키텍처, 벤치마크 성능, API vs 셀프호스팅 비용 비교, Ollama·vLLM 배포 방법, 실무 적용 시나리오를 정리한다.

한 줄 요약: Mistral Small 4는 119B 파라미터 MoE 모델이지만 토큰당 6B만 활성화한다. 추론, 비전, 코딩을 하나로 통합한 Apache 2.0 오픈소스 모델로, 셀프호스팅 시 API 비용을 근본적으로 제거할 수 있다.

왜 중요한가: 지금까지 추론용, 비전용, 코딩용 모델을 각각 배포하거나 API를 분리해서 호출해야 했다. Mistral Small 4는 세 가지를 하나로 합치면서도 GPT-4o급 성능을 유지한다. 로컬 GPU 한 장으로 돌릴 수 있어서, API 종속 없이 프로덕션 워크로드를 처리하는 팀에게 진짜 대안이 된다.

이 글이 필요한 사람: AI 모델 셀프호스팅을 검토하는 팀, API 비용을 줄이고 싶은 스타트업, 오픈소스 LLM의 실무 투입 가능성을 판단해야 하는 개발자.

※ 이 글은 2026년 3월 기준, Mistral 공식 발표 및 커뮤니티 벤치마크 데이터 기반으로 작성됐습니다.

Mistral Small 4는 어떤 모델인가

Mistral AI가 2026년 3월 16일 공개한 Mistral Small 4는 기존 Mistral Small 시리즈의 네 번째 모델이다. 이전 세대까지는 "저비용 경량 모델"이라는 포지션이었지만, Small 4는 성격이 다르다.

핵심 스펙을 정리한다:

  • 아키텍처: Mixture-of-Experts (MoE) — 전체 128개 전문가, 토큰당 4개 활성화
  • 총 파라미터: 119B (활성 파라미터 6B, 임베딩 포함 8B)
  • 컨텍스트 윈도우: 256,000 토큰
  • 라이선스: Apache 2.0 (상용 무료)
  • 통합 기능: Magistral(추론) + Pixtral(비전) + Devstral(코딩)의 3-in-1

3개의 전문 모델을 하나로 합쳤다는 점이 가장 큰 차별점이다. Mistral 공식 발표에서 "flagship 모델의 능력을 하나의 범용 모델로 통합했다"고 설명한다.

Mistral Small 4 MoE 아키텍처 다이어그램 — 128개 전문가 중 4개 활성화
Mistral Small 4 MoE 아키텍처 개요 (출처: Mistral AI)

벤치마크 성능 — 세 역할을 하나로 합쳐도 점수가 떨어지지 않는다

"통합 모델은 전문 모델보다 떨어진다"는 통념이 있다. Mistral Small 4는 이 통념에 정면으로 도전한다.

벤치마크Mistral Small 4GPT-OSS 120B비고
AA LCR0.72 (1.6K 글자)유사 (5.8K 글자)3.5배 짧은 출력으로 동급 성능
LiveCodeBenchGPT-OSS 120B 상회기준점20% 적은 출력으로 우위
GPQA Diamond경쟁력 있음-과학 추론 벤치마크
비전 이해문서·이미지 분석-Pixtral 계승

특히 주목할 점은 출력 효율성이다. 같은 성능을 내면서 생성 토큰 수가 20~70% 적다. 이는 셀프호스팅 시 GPU 메모리·처리 시간 절감으로 직결된다.

추론 모드는 토글 방식으로 작동한다. 빠른 응답이 필요하면 추론 모드를 끄고, 복잡한 문제에는 켤 수 있다. 이 유연성이 단일 모델로 다양한 워크로드를 처리하는 핵심이다.

Mistral Small 4 벤치마크 비교 차트 — 코딩, 추론, 비전 성능
주요 벤치마크 성능 비교 (출처: Mistral AI 공식 블로그)

비용 비교 — API vs 셀프호스팅 손익분기점

Mistral Small 4는 두 가지 경로로 사용할 수 있다. Mistral API를 쓰거나, 직접 호스팅하거나.

항목Mistral API셀프호스팅 (vLLM)Claude Sonnet API
입력 비용~$0.10/1M 토큰GPU 비용만$3.00/1M 토큰
출력 비용~$0.30/1M 토큰GPU 비용만$15.00/1M 토큰
필요 GPU-A100 80GB 2장 (FP8)-
라이선스API 이용약관Apache 2.0 (무료)API 이용약관

손익분기점: 하루 50만~100만 토큰을 꾸준히 처리하는 팀이라면, 셀프호스팅이 월 $300~500 수준의 API 비용을 절감해준다. GPU 초기 투자 또는 클라우드 GPU 비용($1~2/시간)을 감안해도 3~6개월 내 회수 가능한 구간이다.

핵심은 119B 총 파라미터지만 활성 파라미터가 6B라는 점이다. 추론 시 실제로 작동하는 파라미터 수가 적어서 메모리와 연산 효율이 dense 모델 대비 월등히 높다.

셀프호스팅 실전 — Ollama와 vLLM로 배포하기

Mistral Small 4를 로컬 또는 프라이빗 서버에 배포하는 두 가지 방법을 정리한다.

Ollama — 5분 안에 실행

프로토타이핑이나 개인 개발 환경에 적합하다.

Ollama로 Mistral Small 4 실행
# 모델 다운로드 및 실행 ollama pull mistral-small-4 ollama run mistral-small-4 # API 서버로 실행 (포트 11434) ollama serve # curl로 테스트 curl http://localhost:11434/api/generate -d '{ "model": "mistral-small-4", "prompt": "Python으로 JWT 토큰 검증 함수를 작성해줘" }'

vLLM — 프로덕션 처리량이 필요할 때

다수 사용자가 동시에 요청하는 환경에서는 vLLM이 적합하다. PagedAttention 알고리즘으로 메모리 단편화를 40% 이상 줄이며, 벤치마크에서 Ollama 대비 19배 높은 처리량(793 TPS vs 41 TPS)을 기록한다.

vLLM으로 Mistral Small 4 서빙
# vLLM 설치 pip install vllm # 서빙 시작 (A100 80GB x2 기준) vllm serve mistralai/Mistral-Small-4-119B-2603 \ --tensor-parallel-size 2 \ --max-model-len 65536 \ --dtype float16 # OpenAI 호환 API로 호출 curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{ "model": "mistralai/Mistral-Small-4-119B-2603", "messages": [{"role": "user", "content": "Express.js에서 rate limiter 미들웨어를 구현해줘"}] }'
기준OllamavLLM
셋업 시간5분15~30분
동시 사용자1~3명수십~수백 명
처리량 (TPS)~41~793
메모리 최적화기본PagedAttention
적합 환경개인 개발, 프로토타입프로덕션, 다중 사용자

실무 적용 시나리오 3가지

Mistral Small 4의 3-in-1 특성이 실제로 유용한 상황을 정리한다.

1. 코드 리뷰 + 문서 분석 파이프라인

PR이 올라오면 코드를 분석하고(Devstral 계승), 관련 디자인 문서 이미지를 읽어서(Pixtral 계승) 구현이 스펙과 일치하는지 판단한다. 이전에는 코딩 모델과 비전 모델을 따로 호출해야 했지만, Small 4 하나로 가능하다.

2. 에이전트 워크플로우의 서브에이전트

메인 에이전트(Claude, GPT-5.4 등)가 비싼 추론을 담당하고, 반복적인 하위 작업(파일 변환, 데이터 추출, 코드 생성)은 셀프호스팅된 Mistral Small 4가 처리한다. API 비용을 90% 이상 절감하면서 전체 파이프라인의 품질을 유지하는 구조다.

3. 사내 AI 코딩 어시스턴트

보안상 외부 API로 코드를 보낼 수 없는 기업에서, 사내 서버에 Mistral Small 4를 배포하면 완전 프라이빗한 코딩 어시스턴트를 운영할 수 있다. Apache 2.0 라이선스이므로 상용 사용에 제약이 없다.

Mistral Small 4 셀프호스팅 아키텍처 — 에이전트 워크플로우 내 서브에이전트 배치
셀프호스팅 모델을 활용한 에이전트 파이프라인 예시 (출처: tech.ambitstock.com)

한계와 트레이드오프 — 만능은 아니다

Mistral Small 4가 모든 상황의 정답은 아니다. 도입 전 알아야 할 한계를 정리한다.

  • 최상위 추론 성능은 아님: Claude Opus 4.6이나 GPT-5.4 Pro 모드 대비 복잡한 다단계 추론에서는 뒤진다. MoE 구조의 태생적 한계로, 토큰당 6B 활성 파라미터는 매우 깊은 추론에 불리하다.
  • GPU 요구량: 119B 전체 가중치를 로딩하려면 최소 A100 80GB 2장이 필요하다. RTX 4090(24GB) 한 장으로는 FP4 양자화를 적용해도 빡빡하다. consumer-grade GPU로 원활하게 돌리려면 더 작은 모델(Devstral 등)이 현실적이다.
  • MoE 추론 오버헤드: expert routing이 추가되므로 batch size가 작을 때(단일 요청)는 dense 모델 대비 latency가 높을 수 있다. 다수 요청을 동시에 처리할 때 MoE의 장점이 극대화된다.
  • 한국어 성능: Mistral 모델은 영어·프랑스어 중심으로 훈련됐다. 한국어 코드 주석이나 문서 분석에서는 Claude나 GPT 대비 정확도가 떨어질 수 있다.

누가 Mistral Small 4를 써야 하는가

도입 여부 판단을 위한 체크리스트다.

도입 추천
  • 월 API 비용이 $500 이상인 팀
  • 보안상 외부 API 사용이 제한된 환경
  • 추론·비전·코딩을 모두 사용하는 파이프라인
  • 서브에이전트용 저비용 모델이 필요한 경우
  • A100 이상 GPU 인프라를 보유하거나 임대 가능
다른 선택이 나은 경우
  • 최상위 추론 정확도가 필수 (Opus/GPT-5.4 Pro)
  • GPU 인프라가 없고 소량만 사용
  • 한국어 문서 분석이 핵심 워크로드
  • RTX 4090 이하 단일 GPU만 보유
MistralMistral Small 4MoE오픈소스LLM셀프호스팅vLLMOllamaApache2AI코딩

관련 도구

관련 포스트

Google Gemma 4 — Apache 2.0으로 전환된 오픈소스 LLM, 실무 도입 가이드2026-04-05OpenClaw가 GitHub 스타 25만 개를 돌파한 이유 — AI 모델 커머디티화와 에이전트 프레임워크의 부상2026-03-25Meta Llama Stack 실전 가이드 — OpenAI 호환 API로 Llama 4 로컬·프로덕션 배포2026-04-14Grok 4.20 완전 분석 — 4에이전트 병렬 추론, 내부 토론 메커니즘, API 실전 가이드2026-04-26