TechFeedTechFeed
Cloud & DevOps

GPU 클라우드 가격 비교 — AWS·구글·전용 호스팅 시간당 비용과 손익분기

AI 워크로드용 GPU를 빌리는 세 경로(하이퍼스케일러·전용 GPU 클라우드·스팟)의 시간당 비용 구조를 비교하고, LLM API와 자체 추론 서버의 손익분기를 계산하는 법을 정리한다. AWS·구글 클라우드와 Lambda·RunPod 같은 전용 GPU 클라우드의 차이, 스토리지·데이터 전송비 같은 숨은 비용, 1인 개발자가 API로 시작해 자체 추론으로 옮기는 판단 기준까지 다룬다.

by

한 줄 결론: 가끔 학습·실험이라면 전용 GPU 클라우드의 시간당 대여가, 꾸준한 추론 서비스라면 API(토큰 과금)가, 트래픽이 크고 일정하면 자체 추론 서버가 유리합니다. 핵심은 'GPU가 싼 곳'이 아니라 내 사용 패턴의 손익분기점입니다.


이 글이 필요한 사람
  • 모델 파인튜닝·학습용 GPU를 잠깐 빌리려는 1인 개발자
  • LLM API 비용이 커져 자체 추론 서버를 고민하는 분
  • AWS·구글·전용 GPU 클라우드 중 어디가 쌀지 막막한 분

※ GPU 시간당 가격은 리전·시점·수급에 따라 크게 변동합니다. 아래 수치는 상대 비교용 개략이며, 실제 비용은 각 공급사 공식 가격표로 확인하세요.


GPU를 빌리는 3가지 방법

AI 워크로드용 GPU를 확보하는 경로는 크게 셋입니다.


  • 하이퍼스케일러(AWS·구글 클라우드·애저): 안정성·생태계가 강하지만 동일 GPU 기준 시간당 단가는 가장 비싼 편입니다. 기존 인프라가 그 클라우드에 있으면 데이터 이동 비용 면에서 유리합니다.
  • 전용 GPU 클라우드(Lambda·RunPod·CoreWeave·Vast.ai 등): GPU 대여에 특화돼 같은 칩(예: H100/A100)을 더 저렴한 시간당 요금으로 제공하는 경우가 많습니다. 학습·실험에 인기가 높습니다.
  • 스팟/커뮤니티 인스턴스: 남는 자원을 싸게 빌리는 방식으로 가장 저렴하지만, 중단(선점) 위험이 있어 체크포인트 저장이 필수입니다.

GPU 클라우드 종류와 비용 구조
ⓒ TechFeed

시간당 비용, 어떻게 갈리나

같은 GPU라도 공급 경로에 따라 시간당 단가가 몇 배까지 벌어집니다. 절대 금액은 자주 바뀌므로 상대 구도로 이해하는 편이 안전합니다.


경로시간당 단가특징
하이퍼스케일러 온디맨드가장 높음안정·생태계, 약정/예약 시 할인
전용 GPU 클라우드중간(상대적으로 저렴)학습·실험 가성비, 가용성 변동
스팟/커뮤니티가장 낮음중단 위험, 체크포인트 필수

주의할 숨은 비용은 스토리지와 데이터 전송(egress)입니다. 단가가 싼 클라우드라도 학습 데이터를 매번 올리고 결과를 내리는 전송비가 붙으면 총비용이 역전될 수 있습니다. '시간당 단가 × 시간 + 스토리지 + 전송비'로 총액을 보세요.


자체 추론 서버 vs API — 손익분기 계산법

가장 자주 받는 질문이 '직접 모델을 돌리는 게 API보다 싼가'입니다. 계산은 단순합니다.


  • API 비용 = 월 요청 수 × 요청당 토큰 × 토큰 단가. 사용한 만큼만 냅니다.
  • 자체 추론 비용 = GPU 시간당 단가 × 가동 시간(보통 24시간×30일) + 운영(엔지니어 시간·스토리지). 트래픽이 없어도 켜둔 만큼 냅니다.

자체 서버는 '항상 켜두는 고정비', API는 '쓴 만큼 변동비'입니다. 손익분기는 'GPU를 거의 풀가동할 만큼 요청이 꾸준한가'에서 갈립니다. 트래픽이 들쭉날쭉하거나 야간에 거의 없으면, 비싼 GPU를 놀리느니 API가 쌉니다. 반대로 GPU가 늘 80% 이상 돌 만큼 요청이 많고 일정하면 자체 서버가 유리해집니다.


제 기준으로는, 트래픽이 안정화되기 전에는 API로 시작해 실제 사용량 데이터를 모은 뒤, 'GPU를 풀가동할 수 있는가'가 확인됐을 때만 자체 추론으로 옮기는 순서가 안전했습니다.


자체 추론 서버와 API 비용 손익분기 그래프
ⓒ TechFeed

사용 패턴별 추천

  • 가끔 학습·파인튜닝 → 전용 GPU 클라우드의 시간당 대여 + 작업 끝나면 즉시 종료. 스팟을 쓰면 더 싸지만 체크포인트를 자주 저장하세요.
  • 간헐적·소규모 추론 서비스 → API(토큰 과금). 트래픽이 없을 때 비용이 0에 수렴합니다.
  • 꾸준하고 큰 추론 트래픽 → 자체 추론 서버(vLLM 등) + 예약/약정 할인. GPU 가동률이 손익을 좌우합니다.
  • 데이터가 특정 클라우드에 있음 → 전송비를 감안해 같은 클라우드의 GPU를 우선 검토.

요약하면, GPU 단가표만 보고 고르지 말고 가동률·전송비·운영 시간까지 넣은 총비용으로 판단해야 후회가 없습니다.


사용 패턴별 GPU 선택 가이드
ⓒ TechFeed

참고 자료


※ GPU 가격은 수시로 바뀝니다. 발행 시점과 현재 단가가 다를 수 있으니 결정 전 공식 가격 페이지를 확인하세요.


자주 묻는 질문

하이퍼스케일러가 전용 GPU 클라우드보다 비싼데도 쓰는 이유는?

안정성, 가용성, 그리고 데이터 이동 비용 때문입니다. 학습·서비스 데이터가 이미 AWS나 구글 클라우드에 있으면, 더 싼 외부 GPU로 옮길 때 전송비와 지연·운영 복잡도가 추가됩니다. 또 대규모로 예약·약정하면 온디맨드 대비 큰 폭의 할인을 받을 수 있어, 규모가 크면 격차가 줄어듭니다. 반대로 데이터가 가볍고 작업이 일회성이면 전용 GPU 클라우드의 시간당 가성비가 분명히 유리합니다.


스팟 인스턴스는 얼마나 싸고, 위험은 무엇인가요?

스팟은 남는 자원을 빌리는 방식이라 온디맨드보다 크게 저렴합니다. 대신 공급자가 자원을 회수하면 인스턴스가 갑자기 종료될 수 있습니다. 따라서 학습 중간 상태를 주기적으로 저장(체크포인트)해 두고, 종료되면 다른 인스턴스에서 이어받도록 설계해야 합니다. 짧은 추론이나 중단돼도 되는 배치 작업에 적합하고, 끊기면 안 되는 실시간 서비스에는 부적합합니다.


API와 자체 추론, 손익분기를 어떻게 추정하나요?

먼저 한 달 API 비용을 실제 사용량으로 측정합니다(요청 수 × 요청당 토큰 × 단가). 그다음 같은 트래픽을 자체 GPU로 처리할 때의 월 비용(GPU 시간당 단가 × 720시간 + 스토리지 + 운영)을 계산합니다. 둘이 비슷해지는 지점이 손익분기입니다. 핵심 변수는 GPU 가동률입니다. GPU가 늘 높게 돌 만큼 트래픽이 일정하면 자체가 유리하고, 트래픽이 들쭉날쭉하면 API가 거의 항상 쌉니다.


1인 개발자가 처음 AI 기능을 붙인다면 무엇으로 시작할까요?

API로 시작하는 것을 권합니다. GPU 인프라를 직접 운영하지 않아도 되고, 트래픽이 없을 때 비용이 거의 들지 않아 초기 리스크가 작습니다. 사용량 데이터가 쌓여 'GPU를 풀가동할 만큼 요청이 꾸준하다'가 확인된 뒤에 자체 추론 전환을 검토해도 늦지 않습니다. 처음부터 GPU 서버를 띄워두면 트래픽이 적은 동안 비싼 자원을 놀리게 됩니다.


GPU 비용에서 사람들이 자주 놓치는 숨은 비용은?

스토리지와 데이터 전송비(egress)입니다. 시간당 단가가 싼 클라우드라도 대용량 학습 데이터를 매번 올리고 결과물을 내려받으면 전송비가 빠르게 누적돼 총비용이 역전될 수 있습니다. 또 인스턴스를 종료하지 않고 켜둔 채 방치하는 실수, 디스크·스냅샷을 정리하지 않아 쌓이는 스토리지 비용도 흔합니다. '시간당 단가'가 아니라 스토리지·전송·유휴 시간을 포함한 월 총액으로 비교하세요.


GPU클라우드AI인프라LLM API자체추론스팟인스턴스AWS비용최적화vLLM손익분기

관련 포스트