한 줄 핵심: KT클라우드가 리벨리온(Rebellions) ATOM Plus NPU를 적용한 공공 전용 'NPU 서버'를 출시했다. 국내 클라우드 서비스 사업자(CSP) 중 최초로 CSAP(클라우드 보안 인증)을 받은 국산 NPUaaS다. 정부의 공공 AX 사업과 국가 AI 컴퓨팅 인프라 프로젝트가 국산 AI 반도체 수요를 끌어올리는 가운데, 리벨리온·FuriosaAI 등 국산 AI 칩 스타트업이 엔비디아 GPU의 대안으로 부상하고 있다.
이 글이 필요한 사람- 공공 클라우드 인프라에서 AI 추론을 구현하려는 개발자·MLOps 엔지니어
- 엔비디아 GPU 비용 부담을 줄일 국산 NPU 대안을 탐색하는 분
- 리벨리온·FuriosaAI 등 국산 AI 반도체 생태계의 현재 수준이 궁금한 분
※ 이 글은 ZDNet Korea·이투데이·KT클라우드 공식 블로그 발표와 Korea Tech Desk·Intelli News 보도를 근거로 작성했습니다. 성능 수치는 기업 발표 기준으로 독립적 검증이 필요합니다.
KT클라우드가 2026년 6월 리벨리온의 ATOM Plus NPU를 적용한 공공 전용 NPU 서버를 출시했다. 공공 기관 전용 데이터센터 내에서 가상머신(VM) 형태로 NPU 인프라를 제공하는 서비스다.
이번 출시의 두 가지 의미:
- 국내 CSP 최초 — 국산 NPU를 공공 전용 클라우드에 상용화한 것은 KT클라우드가 처음이다. 이전까지 공공 클라우드에서 AI 가속 연산은 주로 엔비디아 GPU 기반 서비스로만 가능했다.
- CSAP 인증 — 클라우드 보안 인증(Cloud Security Assurance Program)은 공공 기관이 클라우드 서비스를 도입할 때 필요한 인증이다. 국산 NPUaaS 중 CSAP를 취득한 것은 이 서비스가 처음이다.
KT클라우드는 이미 리벨리온에 100억 원을 투자한 전략적 파트너다. 단순 장비 도입이 아니라 지분 투자를 통한 국산 AI 인프라 협력 구조를 갖추고 있다.
서비스 배경에는 정부 정책이 있다. 공공 AX(AI 전환) 사업과 국가 AI 컴퓨팅 인프라 프로젝트에서 국산 AI 반도체 사용 확대가 핵심 목표로 제시됐다. 이 정책 수요가 KT클라우드의 공공 NPU 서비스를 이끈 직접적인 동인이다.
리벨리온은 2020년 설립된 국산 AI 반도체 스타트업이다. 삼성전자 출신 엔지니어들이 창업했고, 한국 정부의 AI 반도체 육성 정책과 함께 성장했다. 2026년 기준 경쟁사였던 사피온코리아(SKT 자회사)를 합병해 기업가치 약 15억 달러(약 2조 원) 수준의 AI 칩 회사로 재탄생했다.
ATOM Plus의 핵심 특성:
- 추론(Inference) 특화 — ATOM은 학습(Training)이 아니라 추론에 집중해 설계됐다. GPU는 학습과 추론 모두에 쓸 수 있지만, NPU처럼 추론에 특화하면 같은 전력에서 더 많은 토큰을 처리할 수 있다.
- LPU(Language Processing Unit) 아키텍처 — 리벨리온은 ATOM을 LPU로 분류한다. 트랜스포머 기반 대형 언어 모델(LLM)의 추론 연산 패턴에 최적화된 연산 구조다.
- 낮은 전력 소모 — 리벨리온에 따르면 REBEL-Quad(ATOM 4개 탑재 모듈)는 엔비디아 GPU 대비 낮은 전력으로 LLM 추론을 처리한다. 이는 데이터센터 운영 비용(PUE, 전력 효율)에 직접 영향을 준다.
- ATOM Plus — ATOM의 후속 버전으로 더 높은 메모리 대역폭과 추론 성능을 목표로 한다.
AI 인프라 시장에서 학습용 GPU 수요가 어느 정도 충족되면서, 이제는 추론 단계의 비용 최적화가 중요해지고 있다. 기업이 내부적으로 AI 모델을 학습시키기보다 추론 서비스를 운영하는 사례가 늘어나면서 추론 전용 칩의 시장이 열리고 있다.
AI 모델 개발 주기는 크게 두 단계로 나뉜다. 학습(Training)은 대규모 데이터로 모델 파라미터를 최적화하는 단계다. 엄청난 컴퓨팅 파워가 집중적으로 필요하고, 엔비디아 H100·H200 같은 최상위 GPU가 지배하는 영역이다. 추론(Inference)은 학습이 끝난 모델을 실제 서비스에서 사용자 요청에 답하는 단계다.
시장이 학습에서 추론으로 이동하는 이유는 명확하다.
- GPT-4, 클로드, 제미나이 같은 대형 모델은 이미 완성됐다. 이 모델들을 직접 학습하는 기업보다 추론 API로 서비스를 구축하는 기업이 훨씬 많다.
- 추론은 학습보다 연속적이고 지속적이다. 서비스가 살아있는 동안 24시간 추론이 발생한다. 따라서 추론 비용이 서비스 마진을 결정한다.
- 추론 워크로드는 학습과 다른 패턴을 갖는다. 학습은 대규모 병렬 행렬 연산에 집중되지만, 추론은 짧은 요청을 빠르게 처리하는 레이턴시 민감 작업이다.
이 차이 때문에 추론 전용 칩이 의미를 갖는다. 엔비디아 A100·H100은 학습에 강하지만 추론에서는 오버스펙인 경우가 많다. 추론 전용 칩은 훨씬 저렴한 비용으로 비슷한 추론 처리량을 달성할 수 있다.
리벨리온 ATOM, FuriosaAI의 WARBOY·RNGD, 사피온의 X330 등 국산 AI 칩들이 모두 추론 최적화를 전략적 차별화 포인트로 삼는 이유가 여기에 있다.
국산 AI 반도체는 한두 기업의 단독 플레이가 아니다. 정부 주도 생태계가 뒷받침하고 있다.
K-NVIDIA 프로젝트
한국 정부는 5개년 대규모 투자 계획을 통해 국산 AI 반도체 경쟁력을 키우는 전략을 추진하고 있다. 단기적으로는 엔비디아 GPU를 활용하면서, 5년 안에 국산 대안을 키운다는 방향이다. 이 전략에서 KT클라우드의 리벨리온 NPU 도입은 공공 부문 첫 사례다.
FuriosaAI
퓨리오사AI는 또 다른 국산 AI 칩 스타트업이다. 2025년 초 메타가 약 $800M(약 1조 원)에 인수를 제안했지만 거절했다. 1세대 칩 WARBOY는 ASUS 서버에 채택됐고, 2세대 RNGD는 SK하이닉스 HBM을 탑재해 성능을 높인다. 경쟁적 관점에서 리벨리온(학습에서 추론으로 전환 초기에 특화)과 FuriosaAI(범용 AI 가속) 두 회사가 국산 AI 칩 시장을 이끄는 구도다.
사피온
원래 SKT 자회사였다가 리벨리온에 합병됐다. 사피온 X330 칩의 기술과 인력이 리벨리온에 흡수돼 ATOM Plus 이후 세대 개발에 기여할 것으로 예상된다.
이 생태계의 공통 과제는 소프트웨어 스택이다. 엔비디아 CUDA는 수십 년간 쌓인 라이브러리, 프레임워크, 개발자 도구 생태계를 갖추고 있다. PyTorch, TensorFlow, HuggingFace 모두 CUDA와 가장 깊이 연동된다. 국산 NPU가 실제 채택되려면 이 소프트웨어 호환성 장벽을 넘어야 한다. 리벨리온은 RBLN(Rebellions NPU Compiler)을 통해 PyTorch 모델을 ATOM으로 변환하는 파이프라인을 제공한다.
국산 NPU를 개발 환경이나 서비스 인프라에 도입할 때 현실적으로 검토해야 할 것들이다.
국산 NPU가 유리한 경우
- 공공 기관 SI·AX 프로젝트 — 정부 정책으로 국산 AI 반도체 사용이 권장 또는 필수화될 수 있다. KT클라우드 NPU 서버처럼 CSAP 인증을 받은 서비스는 공공 클라우드 사업에서 필수 요건을 충족한다.
- LLM 추론 전용 워크로드 — 이미 완성된 모델(오픈소스 LLM, 파인튜닝 완료 모델)을 서비스에서 지속적으로 추론하는 경우, 추론 특화 NPU가 GPU보다 비용 효율이 높을 수 있다.
- 전력 제약 환경 — 데이터센터 전력 예산이 제한된 경우, 추론당 전력 소모가 낮은 NPU가 운영 비용을 줄일 수 있다.
국산 NPU 도입 전 체크할 것
- 모델 호환성 — 사용 중인 모델 아키텍처(Llama, Mistral 등)가 리벨리온 RBLN 컴파일러에서 변환되는지 확인해야 한다. 지원 모델 목록은 계속 늘고 있지만, 엔비디아 생태계만큼 폭넓지는 않다.
- 성능 실측 — 기업 발표 성능 수치는 특정 워크로드와 배치 크기 기준이다. 실제 서비스의 요청 패턴(짧은 프롬프트 vs 긴 컨텍스트, 단일 요청 vs 배치)에서 직접 테스트해야 한다.
- 생태계 성숙도 — 디버깅 도구, 모니터링, SDK 업데이트 주기를 확인한다. 국산 NPU는 커뮤니티 자료가 엔비디아 대비 적다.
- 지원 체계 — 프로덕션에서 문제가 생겼을 때 빠른 기술 지원이 가능한지 확인한다.
현실적으로 지금 당장 엔비디아 GPU를 국산 NPU로 전환하는 것은 대부분의 상용 서비스에서 성급하다. 하지만 공공 부문 프로젝트이거나 추론 비용이 핵심 과제인 서비스라면, 파일럿 테스트를 해볼 충분한 이유가 생겼다.
KT클라우드 NPU 서버를 지금 바로 사용할 수 있나요?
KT클라우드가 출시 발표를 했으므로 공식 채널을 통해 신청 가능합니다. 다만 공공 기관 전용 데이터센터 기반이므로, 민간 기업이 직접 접근할 수 있는지 아니면 공공 사업을 통해서만 이용 가능한지 KT클라우드 측에 확인이 필요합니다. 민간 영역에도 서비스를 확장할 계획이 있는지는 공식 FAQ에서 확인하세요.
리벨리온 ATOM Plus와 엔비디아 H100의 성능 차이는 어느 수준인가요?
리벨리온은 ATOM 기반 REBEL-Quad가 LLM 추론에서 엔비디아 GPU 대비 낮은 전력으로 처리한다고 밝혔지만, 구체적인 수치를 공식적으로 공개하지는 않았습니다. 추론 성능은 모델 크기, 배치 크기, 컨텍스트 길이, 시퀀스 패턴에 따라 크게 달라집니다. 독립적인 벤치마크가 없으므로, 실제 워크로드로 직접 테스트하기 전까지 단순 비교는 어렵습니다.
RBLN 컴파일러를 써서 기존 PyTorch 모델을 ATOM에서 실행할 수 있나요?
리벨리온의 RBLN(Rebellions Native Compiler)은 PyTorch 모델을 ATOM NPU에서 실행할 수 있는 형태로 변환합니다. HuggingFace Transformers 기반 모델은 비교적 간단히 변환할 수 있으며, 지원 모델 목록은 리벨리온 공식 문서(docs.rebellions.ai)에서 확인할 수 있습니다. 커스텀 레이어나 비표준 연산이 있는 모델은 추가 작업이 필요할 수 있습니다.
FuriosaAI와 리벨리온 중 어느 쪽이 더 성숙한 에코시스템을 가지고 있나요?
두 회사 모두 각자의 강점이 있습니다. FuriosaAI의 WARBOY는 ASUS 서버에 채택돼 실제 하드웨어 제품으로 더 넓게 보급됐습니다. 리벨리온은 KT클라우드 공공 NPUaaS로 클라우드 서비스 형태의 첫 사례를 만들었습니다. 소프트웨어 생태계 면에서는 둘 다 엔비디아 CUDA에 비해 아직 성숙도가 낮습니다. 특정 워크로드에서 어느 쪽이 더 나은지는 실제 테스트가 필요합니다.
공공 기관이 아닌 일반 기업도 국산 AI 반도체를 도입할 이유가 있나요?
지금 당장 비용·성능 면에서 엔비디아 GPU 대비 확실한 우위를 보이는 것은 아닙니다. 그러나 몇 가지 상황에서 고려할 수 있습니다. ① 추론 비용이 핵심 과제이고 특정 LLM 워크로드에서 NPU의 효율이 확인된 경우 ② 전력 제약이 있는 온프레미스 환경 ③ 국내 데이터 주권·규제 요건으로 국산 인프라가 필요한 경우. 지금은 엔비디아 GPU를 주력으로 쓰면서 특정 추론 워크로드에 대한 파일럿을 시도하는 것이 현실적입니다.
K-NVIDIA 프로젝트로 국산 AI 칩이 5년 안에 엔비디아를 따라잡을 수 있나요?
전체적인 '따라잡기'는 현실적으로 어렵습니다. 엔비디아는 CUDA 생태계, 수십 년간의 GPU 설계 경험, 대규모 R&D 투자에서 앞서 있습니다. 하지만 특정 니치 영역에서 경쟁력을 갖추는 것은 가능합니다. 추론 특화 시장, 공공 클라우드, 전력 효율 중심 데이터센터에서 국산 NPU가 충분한 점유율을 가져가는 것이 현실적인 목표입니다. 한국 정부의 대규모 투자와 KT클라우드 같은 첫 상용화 사례가 그 방향의 첫 발이라고 볼 수 있습니다.