LLM 모델Alibaba Cloud
Qwen3.6-27B
Dense 27B that outperforms 397B MoE on agentic coding
Qwen3.6-27B는 Alibaba Qwen 팀이 2026년 4월 22일 Hugging Face·ModelScope에 Apache 2.0으로 공개한 Dense 27B 오픈웨이트 모델이다. 같은 Qwen3.6 계열의 397B-A17B MoE보다 코딩 벤치마크에서 우수한 성능을 보이며, 소형 Dense 모델이 대형 MoE를 능가한다는 점에서 주목받았다. SWE-bench Verified 77.2%(MoE 76.2%), SWE-bench Pro 53.5%(MoE 50.9%), Terminal-Bench 2.0 59.3%(MoE 52.5%), AIME 2026 94.1, GPQA Diamond 87.8을 기록했다. 아키텍처는 64층 Gated DeltaNet + Gated Attention 하이브리드로, 4층 중 3층이 선형 어텐션이라 서빙 비용이 낮다. Multi-Token Prediction(MTP)으로 투기적 디코딩을 지원하며, Thinking Preservation 기능으로 멀티턴 에이전트 루프에서 추론 흔적을 유지한다. Q4_K_M 양자화 시 약 16.8 GB VRAM이면 실행 가능해 RTX 3090/4090 단일 GPU에서도 동작한다.
컨텍스트
262.144K tokens
입력 가격
무료 (오픈소스)
출력 가격
무료 (오픈소스)
멀티모달
text
핵심 역량
SWE-bench Verified
77.2% — Dense 27B로 397B MoE 추월
아키텍처
Gated DeltaNet 하이브리드 — 서빙 효율 최적화
컨텍스트
262K 기본 (최대 1M 확장)
VRAM 효율
Q4 ~16.8 GB — 단일 RTX 4090 실행
Thinking Preservation
멀티턴 추론 흔적 유지 에이전트 루프
오픈소스
Apache 2.0, HF 가중치 공개
장점
- SWE-bench Verified 77.2% — 397B-A17B MoE를 27B Dense로 추월
- Q4 약 16.8 GB VRAM — RTX 4090 단일 GPU 실행 가능
- 262K 기본 컨텍스트 (최대 1M 확장)
- Thinking Preservation — 멀티턴 에이전트 추론 흔적 유지
- Apache 2.0 — 상업 이용·파인튜닝 완전 허용
- Gated DeltaNet 하이브리드 아키텍처 — 서빙 비용 낮음
단점
- GPT-5.5(Terminal-Bench 82.7%) 대비 에이전틱 완성도 열위
- 멀티모달(이미지·음성) 미지원 — 텍스트/코드 전용
- 대규모 서빙 시 인프라 직접 구성 필요