TechFeedTechFeed
Big Tech Updates

xAI 콜로서스 완전 분석 — GPU 20만 장을 122일 만에 구축한 방법과 AI 인프라 전쟁의 새 기준

xAI 콜로서스 122일 구축 비결, H100+H200+GB200 혼합 아키텍처, Spectrum-X 네트워킹, 액체 냉각 인프라, 앤트로픽의 콜로서스 컴퓨트 활용, 콜로서스 2 55만 GPU 계획까지.

by

xAI가 2024년 7월 메인 GPU 클러스터인 콜로서스(Colossus)를 가동했다. 통상 4년, 최초 예상 24개월 걸리는 슈퍼컴퓨터 구축을 122일 만에 끝냈다. 10만 장의 NVIDIA GPU를 하나의 클러스터에 묶은 세계 최대 규모였다.


이후 92일 만에 20만 장으로 2배 확장했다. 현재 콜로서스에는 H100 15만 장, H200 5만 장, GB200 3만 장이 투입됐다. 앤트로픽도 콜로서스 컴퓨트를 사용하기로 했다. xAI는 콜로서스 2에 55만 장, 약 180억 달러를 투자해 2기가와트 데이터센터로 확장할 계획이다. 122일 구축이 어떻게 가능했는지, 기술 스택은 무엇인지, AI 인프라 경쟁에서 어떤 의미인지 다룬다.


콜로서스 스펙 현황 — 2026년 기준

콜로서스의 주목적은 xAI의 AI 챗봇 그록(Grok) 학습이다. Grok 3가 콜로서스에서 훈련됐다고 xAI는 밝혔다. 세계 최대 단일 사이트 AI 훈련 클러스터 타이틀을 보유하고 있다.


xAI 콜로서스 데이터센터 GPU 클러스터
ⓒ xAI

122일 구축이 가능했던 3가지 이유

xAI 팀이 공개한 구축 속도의 핵심은 세 가지다.


① 폐공장 재활용: 멤피스의 폐쇄된 Electrolux 가전공장을 그대로 인수했다. 기존 전력 인프라, 구조물, 인근 폐수처리시설(냉각수원) 등을 그대로 활용했다. 신규 부지에 바닥 공사부터 시작하는 일반 방식과는 출발점이 달랐다.


② 불필요 요소 제거: 팀은 관례적으로 들어가던 구성 요소를 재검토해 제거했다. "모든 것에 의문을 제기하라(question everything)"는 원칙으로 납기를 4개월로 단축했다. xAI에 따르면 기존 방식의 24개월 예상을 5분의 1로 줄였다.


③ 직접 공급망: NVIDIA와 직접 계약해 H100 GPU를 대규모로 확보했다. Dell Technologies와 Supermicro가 서버 하드웨어 구축을 담당했고, 두 회사 모두 최단 납기 조건으로 협력했다.


비교 기준: 미 에너지부(DoE) 슈퍼컴퓨터 프론티어(Frontier)는 설계~가동까지 4년 이상 걸렸다. Meta의 AI Research SuperCluster(RSC)도 설계~1차 가동까지 약 2년이었다. 콜로서스의 122일은 이 기준으로 이례적인 속도다.


액체 냉각 + Spectrum-X — 기술 인프라의 핵심

콜로서스의 냉각 방식은 공냉(air cooling)이 아닌 액체 냉각(liquid cooling)이다. Supermicro의 4U 액체 냉각 시스템을 채택했다. 10만 장 이상의 고밀도 GPU 클러스터에서 공냉은 열 밀도를 감당하기 어렵다. GPU 1장당 최대 700W를 소비하는 H100 환경에서 액체 냉각은 사실상 필수다.


네트워킹은 NVIDIA Spectrum-X Ethernet 플랫폼을 사용한다. GPU 간 통신이 InfiniBand 대신 이더넷 기반으로 구성된 것이 특징이다. NVIDIA는 Spectrum-X가 이더넷의 확장성과 InfiniBand 수준의 AI 워크로드 성능을 결합한다고 설명한다. 콜로서스는 Spectrum-X의 대규모 상용 레퍼런스 케이스 중 하나다.


전력 수요는 초기 가동 기준 150메가와트(MW)였다. 콜로서스 2는 2기가와트를 목표로 하는데, 이는 중소 도시 수준의 전력 소비다.


NVIDIA GPU 서버 액체 냉각 데이터센터
ⓒ NVIDIA / Supermicro

앤트로픽도 콜로서스를 쓴다 — 경쟁사 간 컴퓨트 공유

Data Center Dynamics 보도에 따르면 앤트로픽(Anthropic)이 콜로서스 1 데이터센터의 컴퓨트 전량을 사용하는 계약을 체결했다. xAI와 앤트로픽은 AI 모델 시장에서 직접 경쟁하지만, 컴퓨트 인프라를 공유한다는 점이 주목을 받았다.


이 구조는 AI 산업의 현실을 보여준다. 모델 개발사들은 GPU 클러스터 구축에 수십억 달러가 필요하고, 직접 보유하는 것보다 임차하는 것이 현금 흐름 면에서 유리할 수 있다. 앤트로픽은 AWS와도 대규모 컴퓨트 계약을 맺고 있으며, 여러 소스에서 컴퓨트를 조달하는 방식을 취한다.


개발자 관점에서 이 사실의 의미는 단순하다. 클로드(Claude)의 응답 성능과 가용성이 부분적으로 xAI의 인프라 결정에도 영향을 받는다는 것이다.


콜로서스 2 — 55만 GPU, $180억, 2기가와트

xAI는 콜로서스를 대규모 확장하는 콜로서스 2를 추진 중이다. 주요 내용은 다음과 같다.


규모: 555,000장의 NVIDIA GPU. 약 180억 달러(18 billion USD) 투자. 세계 최대 단일 사이트 AI 훈련·추론 시설을 목표로 한다.


전력: 2기가와트(GW). 이는 1기가와트 데이터센터를 최초로 상용화한 사례가 될 전망이다. Semi-analysis는 콜로서스 2가 세계 최초 1기가와트 AI 전용 데이터센터라고 분석했다.


위치 확장: 2026년 1월, xAI는 멤피스에서 3번째 건물을 추가 인수했다고 발표했다.


강화학습(RL) 인프라: Semi-analysis 분석에 따르면 콜로서스 2는 단순 사전학습(pretraining)을 넘어 대규모 강화학습(RL) 인프라로 설계됐다. Grok 3 이후 모델의 추론 능력 강화에 초점을 맞춘다.


AI 데이터센터 GPU 인프라 확장
ⓒ xAI

AI 인프라 전쟁 — 개발자가 봐야 할 지표 3가지

콜로서스 같은 초대형 AI 클러스터 뉴스를 볼 때 개발자가 실제로 주목해야 할 지표는 세 가지다.


① GPU 수 → 모델 학습 기간: GPU 수가 많을수록 같은 규모 모델을 더 빠르게 학습할 수 있다. 콜로서스 10만 GPU는 GPT-4 규모 모델을 수백 배 빠르게 학습 가능한 컴퓨트다. 이는 릴리즈 주기와 모델 성능 향상 속도에 직접 반영된다.


② 전력·냉각 용량 → 가용성과 가격: AI API 가격은 컴퓨트 비용과 직결된다. 전력 단가가 낮고 냉각 효율이 높으면 인퍼런스 비용이 내려간다. xAI가 멤피스 폐공장을 선택한 이유 중 하나가 인근 폐수처리시설 냉각수 확보였다.


③ 자체 보유 vs 임차: 앤트로픽이 콜로서스를 임차하듯, 대부분의 AI 스타트업은 자체 클러스터 대신 클라우드 또는 임차를 선택한다. 이 전략은 초기 자본 절감에 유리하지만, 대규모화 시 비용 구조가 달라진다. 오픈AI, 마이크로소프트 Azure 투자, 구글 TPU 자체 개발 — 각사의 컴퓨트 전략이 서비스 가격에 반영된다.


참고 자료


자주 묻는 질문

콜로서스는 무슨 AI를 만드는 데 쓰이나요?

주목적은 xAI의 챗봇 그록(Grok) 학습입니다. Grok 3가 콜로서스에서 훈련됐고, 이후 버전도 콜로서스 기반으로 개발 중입니다. 또한 앤트로픽(Anthropic)이 콜로서스 컴퓨트를 임차해 클로드(Claude) 계열 모델 학습에도 활용합니다.


122일 구축은 왜 특별한가요?

일반적으로 이 규모의 슈퍼컴퓨터는 설계·건설·가동까지 3~4년이 걸립니다. 미 에너지부 프론티어(Frontier) 슈퍼컴퓨터가 그 사례입니다. xAI는 폐공장 재활용과 불필요 과정 제거로 최초 예상 24개월의 5분의 1인 4개월 만에 완성했습니다.


콜로서스에 쓰이는 GPU 종류는 무엇인가요?

현재 NVIDIA H100 15만 장, H200 5만 장, GB200 3만 장으로 구성됩니다. H100은 범용 훈련, H200은 H100보다 HBM3e 메모리를 늘린 업그레이드 버전, GB200은 NVIDIA의 블랙웰(Blackwell) 아키텍처 기반 최신 칩입니다. 세 종류를 혼합해 용도별 최적 효율을 추구합니다.


콜로서스의 전력 소비는 얼마나 되나요?

초기 10만 GPU 기준 약 150메가와트(MW)입니다. 콜로서스 2는 2기가와트(GW)를 목표로 합니다. 2GW는 중소 도시 수준의 전력이며, 이를 위해 xAI는 멤피스 인근 수처리 시설 활용과 독립 전력망 구축을 병행하고 있습니다.


Spectrum-X Ethernet은 InfiniBand와 어떻게 다른가요?

InfiniBand는 전통적으로 AI 클러스터의 GPU 간 통신 표준이었습니다. 지연이 낮고 대역폭이 높지만, 전용 스위치·어댑터가 필요해 확장 비용이 높습니다. NVIDIA Spectrum-X는 표준 이더넷 기반이면서도 AI 워크로드 특화 최적화(CCA, 이더넷 기반 RDMA 등)로 InfiniBand 수준의 성능에 근접한다고 NVIDIA는 주장합니다. 콜로서스는 Spectrum-X의 대규모 레퍼런스 사례입니다.


콜로서스 2가 완성되면 세계 최대 AI 인프라가 되나요?

현재 계획대로 55만 GPU, 2기가와트가 완성되면 단일 사이트 기준 세계 최대 AI 전용 데이터센터가 됩니다. 다만 마이크로소프트의 Stargate 프로젝트(오픈AI와 공동)와 구글, 아마존 등도 대규모 AI 인프라를 동시에 확장 중이어서 경쟁이 지속됩니다.


AI 데이터센터 서버 인프라
ⓒ xAI / Supermicro
xAI콜로서스Colossus머스크GPU클러스터AI인프라데이터센터NVIDIAGrok슈퍼컴퓨터

관련 도구

관련 포스트

NHN클라우드 팩토리X 완전 분석 — B200 7,656장 AI 클러스터, 개발자가 알아야 할 것2026-05-27NVIDIA GTC 2026 개발자 핵심 정리 — Physical AI, Cosmos 3, Vera Rubin2026-03-17SK하이닉스 iHBM 발표 — AI 데이터센터에서 발열·전력·냉각이 GPU만큼 중요해진 이유2026-05-26메타 AMD 최대 $1000억 칩 딜 — NVIDIA 독점 균열과 AI 인프라 전쟁의 새 국면2026-05-26