LLM 모델DeepSeek

DeepSeek V4

Open-source trillion-parameter MoE model

DeepSeek V4는 2026년 3월 출시된 1조 파라미터 Mixture-of-Experts 모델이다. 256개 전문가 중 8개+1개 공유 전문가가 토큰당 활성화되어 37B 활성 파라미터로 추론한다. Engram 아키텍처(MoE 2.0)로 V3 대비 메모리 사용 40% 절감, 파라미터 활용 40% 향상을 달성했다. 1M 토큰 컨텍스트, 네이티브 멀티모달, 코딩·장문 소프트웨어 엔지니어링 최적화가 강점이다. Apache 2.0 라이선스 오픈소스로 셀프호스팅 가능하며, API도 $0.30/1M 입력으로 업계 최저가를 제공한다.

컨텍스트

1M tokens

입력 가격

$0.30/1M tokens

출력 가격

$1.10/1M tokens

멀티모달

text, image

핵심 역량

컨텍스트 윈도우

1M 토큰

코딩 강도

장문 코드 생성 최적화

추론 강도

Engram 아키텍처 기반

가격 효율

입력 $0.30/1M — 업계 최저가

오픈소스

Apache 2.0, 셀프호스팅·파인튜닝 자유

MoE 효율

1T 총 파라미터, 37B 활성

장점

입력 $0.30/1M — GPT-5.4 대비 8배, Claude Opus 대비 17배 저렴
1M 토큰 컨텍스트 — 장문 코드베이스 전체 처리 가능
Engram 아키텍처(MoE 2.0) — V3 대비 메모리 40% 절감
Apache 2.0 오픈소스 — 셀프호스팅·파인튜닝 자유
캐시 히트 90% 할인 — 반복 프롬프트 시 $0.03/1M까지 절감
코딩·장문 소프트웨어 엔지니어링 작업 최적화

단점

벤치마크 자체 보고 — 제3자 독립 검증 미완료 (2026.03 기준)
셀프호스팅 시 대규모 GPU 클러스터 필요 (1T 파라미터)
중국 기반 — 일부 기업에서 데이터 주권 우려 가능
Claude Code·GPT 생태계 대비 도구 통합 부족
영어 외 한국어 성능은 제한적일 수 있음

이 모델이 포함된 비교

⚖️비교

Deepseek V4 vs Claude Opus 4 vs Gpt 5

극한 가성비·셀프호스팅은 DeepSeek V4, 코딩·에이전트 품질은 Claude Opus 4.6, 수학·파인튜닝·생태계는 GPT-5.4

⚖️비교

Mistral Large 3 vs Deepseek V4 vs Llama 4

다국어·균형 성능은 Mistral Large 3, 극한 가성비·코딩은 DeepSeek V4, 초장문 컨텍스트·단일GPU는 Llama 4 Scou...

⚖️비교

Qwen 3 5 vs Nemotron 3 Super vs Deepseek V4

초저가·다국어는 Qwen 3.5, 에이전틱 추론·처리량은 Nemotron 3 Super, 코딩·장문 엔지니어링은 DeepSeek V4

⚖️비교

Glm 5 vs Deepseek V4 vs Llama 4

코딩·SWE 작업은 GLM-5, 장문 코드 + 캐시 활용은 DeepSeek V4, 초장문 컨텍스트 + 멀티모달은 Llama 4

공식 링크

공식 사이트 ↗문서 ↗GitHub ↗