Cloud & DevOps

Cloudflare AI Gateway 완전 가이드 — Agents Week 2026, 70개 모델 통합 추론과 에이전트 인프라

2026년 4월 Cloudflare Agents Week에서 발표된 AI Gateway를 분석한다. 12개 공급자 70개+ 모델 단일 API, 자동 페일오버, 스트리밍 복원, 통합 청구, Kimi K2.5 3배 성능 향상까지 에이전트 인프라의 실체를 정리했다.

2026-04-20

한 줄 요약: Cloudflare Agents Week 2026(4월 13~17일)에서 발표된 AI Gateway는 OpenAI·Anthropic·Google 등 12개 이상의 AI 공급자 70개+ 모델을 단일 API 엔드포인트로 통합하고, 공급자 장애 시 자동 페일오버와 에이전트 스트리밍 복원을 기본 제공하는 인프라다.

이 글이 필요한 사람

멀티 LLM 공급자를 사용하는 AI 에이전트를 운영 중인 개발자
LLM API 비용을 통합 관리하고 싶은 팀
Cloudflare Workers 위에 AI 기능을 얹으려는 엣지 개발자

※ 2026년 4월 기준. Cloudflare Agents Week 공식 발표 및 블로그 기준으로 작성.

Cloudflare Agents Week 2026 — 에이전트 인프라 전쟁의 시작

Cloudflare는 2026년 4월 13~17일 "Agents Week 2026"을 열고 AI 에이전트 인프라에 집중된 일련의 발표를 쏟아냈다. 핵심 메시지는 하나다: 에이전트 시대에는 모델만이 아니라 추론 라우팅, 장애 복원, 비용 관리를 하나로 묶는 인프라 레이어가 필요하다.

Cloudflare가 이 타이밍에 에이전트 인프라를 강조한 배경은 명확하다. 프로덕션 AI 에이전트 팀들이 공통으로 겪는 문제가 있었다.

특정 공급자 API가 다운됐을 때 에이전트 워크플로우 전체가 멈춤
OpenAI·Anthropic·Google 등 여러 공급자를 쓸 때 청구서가 분산되어 관리가 어려움
스트리밍 응답 중 연결이 끊기면 에이전트가 처음부터 재시작해야 함
어떤 에이전트가 얼마나 소비했는지 추적이 어려움

Agents Week에서 발표된 AI Gateway는 이 네 가지 문제를 모두 인프라 레이어에서 해결하겠다는 포지셔닝이다.

Cloudflare AI Gateway unified inference layer architecture 2026 — Cloudflare AI Gateway 아키텍처 — 단일 엔드포인트로 12+ 공급자 연결

통합 추론 레이어 — 70개+ 모델을 하나의 API로

AI Gateway의 가장 눈에 띄는 기능은 단일 AI.run() 바인딩으로 12개 이상 공급자의 70개+ 모델을 호출할 수 있다는 점이다.

지원 공급자 목록(2026년 4월 기준): OpenAI, Anthropic, Google AI (Gemini), Groq, xAI (Grok), Alibaba Cloud (Qwen), Bytedance, Mistral AI, Meta (Llama), AWS Bedrock, Replicate, Together AI. 신규 공급자는 지속 추가 예정이다.

기존에 Cloudflare Workers AI(자체 호스팅 모델)를 쓰던 개발자라면 코드 변경이 최소화된다. 동일한 AI.run() 인터페이스를 그대로 사용하면서 외부 공급자 모델로 전환이 가능하다.

모델 전환은 모델 ID 한 줄 변경으로 처리된다. 예를 들어, Cloudflare에서 호스팅하는 Llama 모델에서 Anthropic Claude로 전환할 때 코드 전체를 수정할 필요가 없다.

Cloudflare Workers — 공급자 전환 예시
// Cloudflare Workers 내에서 AI.run() 사용
export default {
  async fetch(request, env) {
    // Cloudflare 호스팅 모델
    const cfResponse = await env.AI.run(
      '@cf/meta/llama-3.1-8b-instruct',
      { messages: [{ role: 'user', content: '안녕하세요' }] }
    );

    // 모델 ID 한 줄 변경으로 Anthropic Claude로 전환
    const anthropicResponse = await env.AI.run(
      '@anthropic/claude-sonnet-4-5',
      { messages: [{ role: 'user', content: '안녕하세요' }] }
    );

    return Response.json(anthropicResponse);
  }
}

에이전트 안정성 기능 — 자동 페일오버와 스트리밍 복원

Agents Week에서 가장 실용적인 발표 중 하나는 에이전트 전용 안정성 기능이다.

1. 자동 페일오버 (Auto-Failover)
동일 모델이 여러 공급자에서 제공되는 경우, 한 공급자의 API가 다운되면 Cloudflare가 자동으로 다른 공급자로 라우팅한다. 개발자가 페일오버 로직을 직접 작성하지 않아도 된다. 예를 들어, OpenAI GPT-4o가 다운된 경우 동일 모델을 제공하는 다른 공급자로 즉시 전환한다.

2. 스트리밍 복원 (Streaming Resilience)
에이전트가 긴 응답을 스트리밍으로 받는 도중 연결이 끊긴 경우, 처음부터 재시작하지 않고 끊긴 지점부터 재개할 수 있다. 장시간 실행되는 에이전트 워크플로우에서 특히 중요한 기능이다.

3. 타임아웃 정책
공급자별 응답 지연에 대한 커스텀 타임아웃을 설정하고, 타임아웃 발생 시 페일오버 동작을 정의할 수 있다.

Cloudflare AI Gateway failover streaming resilience agent workflow — AI Gateway 자동 페일오버 — 공급자 장애 시 워크플로우 연속성 유지

통합 청구와 옵저버빌리티 — 에이전트별 ROI 추적

멀티 공급자 AI 파이프라인의 실무 고통 중 하나는 청구서 분산이다. OpenAI, Anthropic, Google에 각각 결제 수단을 연결하고 월말에 3개 대시보드를 뒤져서 합산하는 과정은 비효율적이다.

AI Gateway는 단일 Cloudflare 지갑(Wallet)으로 모든 공급자 비용을 통합 관리한다. 각 API 호출에 메타데이터를 붙여 에이전트별, 기능별, 사용자별 비용과 성능을 추적할 수 있다.

메타데이터 기반 추적의 실무 예시:

agent_id: "customer-support-v2" — 에이전트별 비용 분리
user_tier: "enterprise" — 고객 등급별 LLM 비용 할당
feature: "code-review" — 기능별 ROI 측정

AI Gateway — 메타데이터 기반 비용 추적
// AI Gateway 호출 시 메타데이터 첨부
const response = await fetch('https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_id}/anthropic/messages', {
  method: 'POST',
  headers: {
    'Content-Type': 'application/json',
    'Authorization': `Bearer ${ANTHROPIC_API_KEY}`,
    'cf-aig-metadata': JSON.stringify({
      agent_id: 'customer-support-v2',
      user_tier: 'enterprise',
      feature: 'ticket-summary'
    })
  },
  body: JSON.stringify({
    model: 'claude-sonnet-4-5',
    max_tokens: 1024,
    messages: [{ role: 'user', content: '티켓 내용을 3줄로 요약해줘.' }]
  })
});

Kimi K2.5 3배 성능 향상 — Workers AI 오픈소스 모델 업데이트

Agents Week 기간 중 Cloudflare는 Workers AI에서 호스팅 중인 Moonshot Kimi K2.5를 3배 빠르게 만들었다고 발표했다. Kimi K2.5는 코딩·수학 추론에서 강점을 보이는 오픈소스 모델로, Cursor 3의 기반 모델로도 알려져 있다.

이 성능 개선의 기술적 배경은 Disaggregated Prefill 아키텍처다. 입력 토큰 처리(prefill)와 출력 토큰 생성(decoding) 단계를 분리된 하드웨어에서 병렬로 처리함으로써 초당 처리 토큰 수와 첫 토큰 지연(TTFT)을 동시에 개선한다.

Workers AI에서 Kimi K2.5를 무료 티어로 시험해볼 수 있다. model ID: @cf/moonshot/kimi-k2.5-instruct

Cloudflare AI Gateway를 써야 할 때와 쓰지 말아야 할 때

적합한 케이스

이미 Cloudflare Workers로 엣지 인프라를 운영 중인 팀
2개 이상의 LLM 공급자를 쓰고 있어 청구·모니터링이 복잡해진 경우
에이전트 워크플로우에서 가용성 SLA가 중요한 경우 (페일오버 필요)
멀티 에이전트 시스템에서 에이전트별 비용 할당이 필요한 경우

주의해야 할 케이스

단일 공급자만 사용하고 Cloudflare 인프라를 쓰지 않는 경우 — 추가 레이어가 오버헤드가 될 수 있다
레이턴시에 극도로 민감한 실시간 스트리밍 앱 — 게이트웨이 홉이 추가된다
온프레미스 전용 환경 — Cloudflare 엣지 네트워크 의존성이 생긴다

Cloudflare AI Gateway dashboard observability unified billing — Cloudflare AI Gateway 대시보드 — 통합 청구, 에이전트별 비용 추적

CloudflareAI Gateway에이전트통합 추론Workers AI페일오버스트리밍멀티 공급자Agents Week인프라