TechFeedTechFeed
AI / LLM

Qwen 3.5 Small — 9B 파라미터가 120B를 이긴 온디바이스 AI 모델

Alibaba Qwen 3.5 Small Model Series(0.8B~9B) 벤치마크, Gated DeltaNet 아키텍처, 로컬 실행 방법, 모델별 적합 환경을 정리한다. GPT-OSS-120B을 GPQA Diamond에서 앞선 9B 모델의 실체를 분석한다.

Alibaba Qwen 팀이 2026년 3월 출시한 Qwen 3.5 Small Model Series는 0.8B~9B 파라미터 4종으로 구성된 온디바이스 AI 모델이다. 9B 모델이 13배 큰 GPT-OSS-120B을 GPQA Diamond에서 꺾었고, 아이폰에서도 초당 22토큰으로 동작한다. 로컬에서 돌릴 수 있는 오픈소스 LLM을 찾는 개발자라면, 지금 가장 먼저 테스트해야 할 모델이다.

이 글이 필요한 사람
  • 로컬/온디바이스 LLM을 프로덕트에 도입하려는 개발자
  • GPU 없이 노트북에서 AI 모델을 실행하고 싶은 경우
  • GPT API 비용을 줄이고 오픈소스 모델로 전환을 검토 중인 팀
  • 모바일 앱에 온디바이스 AI를 탑재하려는 iOS/Android 개발자

※ 이 글은 2026년 3월 기준, Qwen 3.5 공식 GitHub 및 Hugging Face 모델 카드 기반으로 작성됐습니다.

Qwen 3.5 Small이란 무엇인가

Qwen 3.5 Small Model Series는 Alibaba Cloud의 Qwen 팀이 2026년 3월 2일 공개한 소형 밀집(dense) 모델 패밀리다. 0.8B, 2B, 4B, 9B 네 가지 크기로 제공되며, 전부 Apache 2.0 라이선스로 상업적 사용이 가능하다.

핵심 포지셔닝은 명확하다. 클라우드 API에 의존하지 않고 노트북, 스마트폰, 엣지 디바이스에서 직접 추론을 실행하는 것이다. 기존 소형 모델들이 대형 모델 대비 성능 격차가 컸던 것과 달리, Qwen 3.5-9B는 자신보다 13배 큰 모델을 여러 벤치마크에서 앞선다.

Qwen 3.5 Small Model Series 4종 라인업과 파라미터 크기 비교
0.8B부터 9B까지, 디바이스 환경에 맞는 모델을 선택할 수 있다 (출처: Qwen 공식 블로그)

벤치마크 — 9B가 120B를 이긴 이유

Qwen 3.5-9B의 벤치마크 결과는 소형 모델의 상식을 깨뜨린다. 아래는 주요 벤치마크 비교다.

GPQA Diamond에서 81.7 vs 80.1로 120B 모델을 앞섰다. 비전 태스크에서는 MMMU-Pro 70.1로 GPT-5-Nano(57.2)를 12.9점 차이로 크게 이겼다. 9B 파라미터로 이 수준을 달성한 것은 아키텍처 혁신 덕분이다.

물론 벤치마크 수치가 실무 성능과 항상 일치하지는 않는다. 하지만 파라미터 대비 효율이라는 관점에서 Qwen 3.5-9B는 현존 소형 모델 중 가장 강력한 선택지임은 분명하다.

Gated DeltaNet — 소형 모델 성능의 비밀

Qwen 3.5 Small의 아키텍처 핵심은 Gated DeltaNet 하이브리드 설계다. 기존 Transformer의 풀 소프트맥스 어텐션 대신, 선형 어텐션(Gated DeltaNet) 블록과 풀 소프트맥스 어텐션 블록을 3:1 비율로 교차 배치한다.

선형 어텐션 레이어는 시퀀스 길이에 관계없이 일정한 메모리 복잡도를 유지한다. 이 덕분에 긴 컨텍스트에서도 메모리 사용량이 폭발하지 않으면서, 핵심적인 추론 품질은 풀 어텐션 블록이 담당한다.

결과적으로 9B 파라미터로 120B급 성능을 내면서도, 소비 전력과 메모리는 소형 모델 수준을 유지하는 것이 가능해졌다. 이 설계는 특히 배터리와 RAM이 제한된 모바일 환경에서 결정적인 이점이 된다.

Gated DeltaNet 하이브리드 아키텍처 구조도 — 선형 어텐션과 풀 어텐션의 3:1 교차 배치
선형 어텐션이 메모리를 절약하고, 풀 어텐션이 추론 품질을 보장한다 (출처: Qwen 기술 보고서)

로컬 환경에서 Qwen 3.5 실행하기

Qwen 3.5 Small의 가장 큰 장점 중 하나는 설치가 간단하다는 것이다. 복잡한 환경 설정 없이 Ollama 한 줄이면 된다.

Ollama로 Qwen 3.5-9B 실행
# Ollama 설치 후 ollama run qwen3.5:9b # 더 가벼운 4B 모델 ollama run qwen3.5:4b # 최소 사양용 0.8B 모델 ollama run qwen3.5:0.8b

4비트 양자화를 적용하면 VRAM 요구량이 약 75% 줄어든다. 9B 모델도 8GB GPU에서 실행 가능하다. MacBook Air M2(8GB 통합 메모리)에서도 4비트 양자화된 9B 모델이 동작한다.

모바일 배포의 경우 llama.cpp를 사용한다. Android는 NDK 빌드로, iOS는 Swift 바인딩 또는 MLX Swift 프레임워크로 네이티브 통합이 가능하다. GGUF 포맷을 지원하며, 플래그십 디바이스에서 2B~4B 모델이 초당 15~20토큰으로 동작한다.

llama.cpp로 GGUF 모델 실행 (데스크톱)
# llama.cpp 빌드 후 ./llama-cli -m qwen3.5-9b-q4_k_m.gguf -p "Explain the difference between REST and GraphQL" -n 512

실무에서 어떤 모델을 선택해야 하는가

4개 모델 중 어떤 것을 선택할지는 배포 환경과 태스크 복잡도에 따라 달라진다.

0.8B — 임베디드/IoT: 키워드 추출, 간단한 분류, 텍스트 요약 등 단순 태스크에 적합하다. RAM 2GB 미만 환경에서도 동작한다. 추론 품질보다 응답 속도와 전력 효율이 우선인 경우 선택한다.

2B — 모바일 앱 내장: 챗봇 응답, 텍스트 자동완성, 간단한 코드 제안 등에 적합하다. 아이폰에서 초당 22토큰 이상의 속도를 보여 실시간 대화가 자연스럽다.

4B — 노트북 로컬 개발: 코드 리뷰 보조, 문서 요약, RAG 파이프라인의 생성 단계에 적합하다. 8GB RAM 노트북에서 양자화 없이도 실행 가능하다.

9B — 개발 서버/엣지: 복잡한 추론, 멀티턴 대화, 에이전트 워크플로우에 적합하다. GPT API를 대체할 수 있는 품질을 제공하면서 비용은 0이다(하드웨어 제외).

Qwen 3.5 모델별 적합 환경 매핑 — IoT부터 엣지 서버까지
프로젝트 환경에 맞는 모델 크기를 선택하는 것이 핵심이다 (출처: tech.ambitstock.com 자체 제작)

Gemma 3, Phi-4, Llama 4 Scout와 비교하면

2026년 3월 기준, 10B 이하 오픈소스 모델 경쟁은 치열하다. Qwen 3.5-9B의 포지션을 정리하면 다음과 같다.

vs Google Gemma 3 (9B): Gemma 3은 멀티모달에 강하고 Google 생태계와의 통합이 편하지만, GPQA Diamond 기준 Qwen 3.5-9B가 우위다. Gemma 3은 상업적 사용에 제한 조건이 있는 반면, Qwen 3.5는 Apache 2.0이다.

vs Microsoft Phi-4 (14B): Phi-4는 14B로 더 크지만, 수학/과학 추론에 특화된 모델이다. 범용 태스크에서는 Qwen 3.5-9B가 파라미터 대비 효율이 높다.

vs Meta Llama 4 Scout: Llama 4 Scout는 17B-active MoE로 훨씬 큰 모델이다. 성능은 당연히 우위지만, 온디바이스 배포가 목적이라면 Qwen 3.5-9B가 현실적인 선택이다.

결론적으로, 10B 이하 + Apache 2.0 + 온디바이스 최적화라는 세 조건을 동시에 충족하는 모델은 현재 Qwen 3.5가 유일하다.

한계와 주의사항

Qwen 3.5 Small이 만능은 아니다. 실무 도입 전에 반드시 확인해야 할 한계가 있다.

긴 컨텍스트 품질: 선형 어텐션의 특성상, 매우 긴 컨텍스트(32K 이상)에서는 풀 어텐션 모델 대비 세부 정보 추출 정확도가 떨어질 수 있다. RAG 파이프라인에서 청크 크기를 적절히 조절해야 한다.

한국어 성능: Qwen 시리즈는 중국어와 영어에 최적화되어 있다. 한국어 태스크에서는 동급 대비 성능이 다소 낮을 수 있으며, 한국어 파인튜닝 데이터를 추가하는 것이 권장된다.

공식 문서 미비: 2026년 3월 기준 Qwen 3.5의 상세 기술 문서는 아직 "coming soon" 상태다. Unsloth, llama.cpp 등 커뮤니티 문서에 의존해야 하는 부분이 있다.

벤치마크 vs 실무: GPQA Diamond 등의 벤치마크 결과가 실제 프로덕션 태스크와 항상 일치하지는 않는다. 도입 전에 자신의 유스케이스에 맞는 평가를 반드시 수행해야 한다.

QwenQwen3.5온디바이스AI소형모델Alibaba오픈소스LLMOllamallama.cppGatedDeltaNet엣지AI

관련 도구

관련 포스트

GPT-5.4 Mini & Nano 출시 — 소형 모델이 바꾸는 AI 비용 구조2026-03-21개발자를 위한 프롬프트 엔지니어링 실전 가이드2026-02-06AI 에이전트란? 2026년 개발자가 알아야 할 모든 것2026-02-08MCP(Model Context Protocol) 완벽 가이드2026-02-09