LLM 모델Alibaba Cloud

Qwen3.6-27B

Dense 27B that outperforms 397B MoE on agentic coding

Qwen3.6-27B는 Alibaba Qwen 팀이 2026년 4월 22일 Hugging Face·ModelScope에 Apache 2.0으로 공개한 Dense 27B 오픈웨이트 모델이다. 같은 Qwen3.6 계열의 397B-A17B MoE보다 코딩 벤치마크에서 우수한 성능을 보이며, 소형 Dense 모델이 대형 MoE를 능가한다는 점에서 주목받았다. SWE-bench Verified 77.2%(MoE 76.2%), SWE-bench Pro 53.5%(MoE 50.9%), Terminal-Bench 2.0 59.3%(MoE 52.5%), AIME 2026 94.1, GPQA Diamond 87.8을 기록했다. 아키텍처는 64층 Gated DeltaNet + Gated Attention 하이브리드로, 4층 중 3층이 선형 어텐션이라 서빙 비용이 낮다. Multi-Token Prediction(MTP)으로 투기적 디코딩을 지원하며, Thinking Preservation 기능으로 멀티턴 에이전트 루프에서 추론 흔적을 유지한다. Q4_K_M 양자화 시 약 16.8 GB VRAM이면 실행 가능해 RTX 3090/4090 단일 GPU에서도 동작한다.

컨텍스트

262.144K tokens

입력 가격

무료 (오픈소스)

출력 가격

무료 (오픈소스)

멀티모달

text

핵심 역량

SWE-bench Verified

77.2% — Dense 27B로 397B MoE 추월

아키텍처

Gated DeltaNet 하이브리드 — 서빙 효율 최적화

컨텍스트

262K 기본 (최대 1M 확장)

VRAM 효율

Q4 ~16.8 GB — 단일 RTX 4090 실행

Thinking Preservation

멀티턴 추론 흔적 유지 에이전트 루프

오픈소스

Apache 2.0, HF 가중치 공개

장점

SWE-bench Verified 77.2% — 397B-A17B MoE를 27B Dense로 추월
Q4 약 16.8 GB VRAM — RTX 4090 단일 GPU 실행 가능
262K 기본 컨텍스트 (최대 1M 확장)
Thinking Preservation — 멀티턴 에이전트 추론 흔적 유지
Apache 2.0 — 상업 이용·파인튜닝 완전 허용
Gated DeltaNet 하이브리드 아키텍처 — 서빙 비용 낮음

단점

GPT-5.5(Terminal-Bench 82.7%) 대비 에이전틱 완성도 열위
멀티모달(이미지·음성) 미지원 — 텍스트/코드 전용
대규모 서빙 시 인프라 직접 구성 필요

공식 링크

공식 사이트 ↗문서 ↗GitHub ↗