한 줄 결론: 가끔 학습·실험이라면 전용 GPU 클라우드의 시간당 대여가, 꾸준한 추론 서비스라면 API(토큰 과금)가, 트래픽이 크고 일정하면 자체 추론 서버가 유리합니다. 핵심은 'GPU가 싼 곳'이 아니라 내 사용 패턴의 손익분기점입니다.
이 글이 필요한 사람- 모델 파인튜닝·학습용 GPU를 잠깐 빌리려는 1인 개발자
- LLM API 비용이 커져 자체 추론 서버를 고민하는 분
- AWS·구글·전용 GPU 클라우드 중 어디가 쌀지 막막한 분
※ GPU 시간당 가격은 리전·시점·수급에 따라 크게 변동합니다. 아래 수치는 상대 비교용 개략이며, 실제 비용은 각 공급사 공식 가격표로 확인하세요.
AI 워크로드용 GPU를 확보하는 경로는 크게 셋입니다.
- 하이퍼스케일러(AWS·구글 클라우드·애저): 안정성·생태계가 강하지만 동일 GPU 기준 시간당 단가는 가장 비싼 편입니다. 기존 인프라가 그 클라우드에 있으면 데이터 이동 비용 면에서 유리합니다.
- 전용 GPU 클라우드(Lambda·RunPod·CoreWeave·Vast.ai 등): GPU 대여에 특화돼 같은 칩(예: H100/A100)을 더 저렴한 시간당 요금으로 제공하는 경우가 많습니다. 학습·실험에 인기가 높습니다.
- 스팟/커뮤니티 인스턴스: 남는 자원을 싸게 빌리는 방식으로 가장 저렴하지만, 중단(선점) 위험이 있어 체크포인트 저장이 필수입니다.
같은 GPU라도 공급 경로에 따라 시간당 단가가 몇 배까지 벌어집니다. 절대 금액은 자주 바뀌므로 상대 구도로 이해하는 편이 안전합니다.
| 경로 | 시간당 단가 | 특징 |
|---|
| 하이퍼스케일러 온디맨드 | 가장 높음 | 안정·생태계, 약정/예약 시 할인 |
| 전용 GPU 클라우드 | 중간(상대적으로 저렴) | 학습·실험 가성비, 가용성 변동 |
| 스팟/커뮤니티 | 가장 낮음 | 중단 위험, 체크포인트 필수 |
주의할 숨은 비용은 스토리지와 데이터 전송(egress)입니다. 단가가 싼 클라우드라도 학습 데이터를 매번 올리고 결과를 내리는 전송비가 붙으면 총비용이 역전될 수 있습니다. '시간당 단가 × 시간 + 스토리지 + 전송비'로 총액을 보세요.
가장 자주 받는 질문이 '직접 모델을 돌리는 게 API보다 싼가'입니다. 계산은 단순합니다.
- API 비용 = 월 요청 수 × 요청당 토큰 × 토큰 단가. 사용한 만큼만 냅니다.
- 자체 추론 비용 = GPU 시간당 단가 × 가동 시간(보통 24시간×30일) + 운영(엔지니어 시간·스토리지). 트래픽이 없어도 켜둔 만큼 냅니다.
즉 자체 서버는 '항상 켜두는 고정비', API는 '쓴 만큼 변동비'입니다. 손익분기는 'GPU를 거의 풀가동할 만큼 요청이 꾸준한가'에서 갈립니다. 트래픽이 들쭉날쭉하거나 야간에 거의 없으면, 비싼 GPU를 놀리느니 API가 쌉니다. 반대로 GPU가 늘 80% 이상 돌 만큼 요청이 많고 일정하면 자체 서버가 유리해집니다.
제 기준으로는, 트래픽이 안정화되기 전에는 API로 시작해 실제 사용량 데이터를 모은 뒤, 'GPU를 풀가동할 수 있는가'가 확인됐을 때만 자체 추론으로 옮기는 순서가 안전했습니다.
- 가끔 학습·파인튜닝 → 전용 GPU 클라우드의 시간당 대여 + 작업 끝나면 즉시 종료. 스팟을 쓰면 더 싸지만 체크포인트를 자주 저장하세요.
- 간헐적·소규모 추론 서비스 → API(토큰 과금). 트래픽이 없을 때 비용이 0에 수렴합니다.
- 꾸준하고 큰 추론 트래픽 → 자체 추론 서버(vLLM 등) + 예약/약정 할인. GPU 가동률이 손익을 좌우합니다.
- 데이터가 특정 클라우드에 있음 → 전송비를 감안해 같은 클라우드의 GPU를 우선 검토.
요약하면, GPU 단가표만 보고 고르지 말고 가동률·전송비·운영 시간까지 넣은 총비용으로 판단해야 후회가 없습니다.
※ GPU 가격은 수시로 바뀝니다. 발행 시점과 현재 단가가 다를 수 있으니 결정 전 공식 가격 페이지를 확인하세요.