AI/LLM

OpenAI Agents SDK 2026 대규모 업데이트 — 샌드박스 실행, 모델 네이티브 하네스, 내구성 있는 에이전트 구축

한 줄 요약: OpenAI가 2026년 4월 Agents SDK를 대규모 업데이트했다. 샌드박스 실행, 모델 네이티브 하네스, 내구성 있는 상태 관리가 추가되면서 에이전트를 프로덕션에 안정적으로 배포하기 위한 인프라가 한 단계 올라왔다. OpenAI는 2026년 4월 15일 Agents SDK 대규모 업데이트 를 발표했다. 이번 업데이트의 핵심 방향은 하나다.

by Lee발행: 2026-04-20

한 줄 요약: OpenAI가 2026년 4월 Agents SDK를 대규모 업데이트했다. 샌드박스 실행, 모델 네이티브 하네스, 내구성 있는 상태 관리가 추가되면서 에이전트를 프로덕션에 안정적으로 배포하기 위한 인프라가 한 단계 올라왔다.

이 글이 필요한 사람

OpenAI Agents SDK로 에이전트를 구축하고 있거나 도입을 검토 중인 개발자
에이전트 샌드박스 실행 환경(E2B, Modal, Vercel)을 비교하고 싶은 팀
에이전트 상태 관리와 내구성 있는 실행을 프로덕션에 적용하려는 백엔드 개발자

※ 이 글은 OpenAI 공식 발표(2026년 4월 15일)와 TechCrunch 보도를 바탕으로 정리했다.

OpenAI Agents SDK 2026 업데이트 — 무엇이 달라졌나

OpenAI는 2026년 4월 15일 Agents SDK 대규모 업데이트를 발표했다. 이번 업데이트의 핵심 방향은 하나다. 에이전트가 프로덕션에서 안정적으로 작동하기 위한 인프라를 SDK 레벨에서 제공한다.

기존 Agents SDK는 도구 호출, 메모리, 에이전트 루프를 추상화하는 역할에 집중했다. 이번 업데이트에서는 세 가지가 새롭게 추가됐다.

모델 네이티브 하네스(Model-Native Harness) — MCP, Skills, AGENTS.md, 셸 도구, 파일 편집 도구 등 프론티어 에이전트 시스템에서 공통으로 쓰이는 기본 단위를 SDK에 내장
샌드박스 실행(Sandbox Execution) — 격리된 컨테이너 환경에서 코드와 파일 작업을 안전하게 실행하는 기능을 네이티브 지원
내구성 있는 실행(Durable Execution) — 상태를 외부화하고 스냅샷/재수화(rehydration)로 에이전트 실행 중단 시 복구 가능

이 세 가지가 결합되면 에이전트가 장기 실행 작업 중 컨테이너가 죽어도 마지막 체크포인트에서 이어서 실행된다. 기존에는 직접 구현해야 했던 내구성 로직을 SDK가 처리해주는 것이다.

OpenAI Agents SDK 2026 업데이트 아키텍처 — 모델 네이티브 하네스, 샌드박스 실행, 내구성 있는 실행 — OpenAI Agents SDK 업데이트의 세 축: 모델 네이티브 하네스, 샌드박스, 내구성 있는 실행. 출처: OpenAI 공식 블로그(2026.04.15)

모델 네이티브 하네스 — 에이전트 표준 기본 단위를 SDK에 내장

모델 네이티브 하네스는 최근 프론티어 에이전트 시스템에서 표준처럼 쓰이는 기본 단위를 SDK 레벨에서 제공하는 개념이다. 포함된 기능은 다음과 같다.

기능	설명
MCP 통합	Model Context Protocol 기반 도구를 표준 방식으로 연결
Skills	에이전트가 선택적으로 활성화하는 점진적 기능 노출
AGENTS.md	CLAUDE.md와 유사한 방식의 에이전트 맞춤 지침 파일
Shell Tool	코드 실행을 위한 셸 명령어 도구
apply_patch Tool	파일 편집을 위한 패치 적용 도구

AGENTS.md는 Anthropic의 CLAUDE.md와 같은 개념이다. 리포지토리 루트에 파일을 두면 에이전트가 이를 읽고 프로젝트별 컨텍스트와 지침을 따른다. OpenAI가 이 패턴을 SDK 레벨에서 공식 지원하기 시작한 것은 에이전트가 코드베이스를 다루는 방식이 표준화되고 있다는 신호다.

configurable memory는 에이전트 실행 간 상태를 유지하는 방식으로 제공된다. 메모리 저장소와 검색 방식을 개발자가 직접 정의하고, SDK가 이를 에이전트 루프에 통합한다.

샌드박스 실행 — 격리된 환경에서 코드를 안전하게 실행하는 법

샌드박스 실행은 이번 업데이트에서 가장 실무적으로 중요한 부분이다. 에이전트가 코드를 실행하거나 파일을 수정할 때, 격리된 컨테이너 환경에서 이를 처리하게 된다.

지원하는 샌드박스 공급자 목록은 다음과 같다.

Blaxel
Cloudflare
Daytona
E2B
Modal
Runloop
Vercel

개발자는 위 공급자 중 하나를 선택하거나, 자체 샌드박스를 가져와(BYOS, Bring Your Own Sandbox) 사용할 수 있다. SDK는 Manifest 추상화를 통해 에이전트의 작업 공간을 공급자 간 이식 가능한 형태로 관리한다.

Python — E2B 샌드박스를 사용하는 Agents SDK 기본 설정
from openai import OpenAI
from openai.agents import Agent, SandboxConfig

client = OpenAI()

# E2B 샌드박스를 사용하는 에이전트 설정
agent = Agent(
    model="gpt-4o",
    instructions="You are a code execution assistant. Run code safely in a sandbox.",
    tools=[
        {"type": "shell"},          # 셸 명령어 실행
        {"type": "apply_patch"},    # 파일 수정
    ],
    sandbox=SandboxConfig(
        provider="e2b",             # 샌드박스 공급자 지정
        image="python:3.12-slim",   # 컨테이너 이미지
        timeout=300,                # 최대 실행 시간(초)
    )
)

# 에이전트 실행
response = client.agents.run(
    agent=agent,
    messages=[
        {"role": "user", "content": "requirements.txt를 분석하고 보안 취약점이 있는 패키지를 찾아줘"}
    ]
)

print(response.output)

BYOS — 자체 샌드박스 연결 방식
사내 보안 정책상 외부 공급자를 사용하기 어려운 경우, Manifest 스펙을 따르는 자체 컨테이너 환경을 연결할 수 있다. Manifest는 에이전트가 필요로 하는 파일, 도구, 의존성을 선언적으로 기술하는 추상화다.

OpenAI Agents SDK 샌드박스 실행 공급자 비교 — E2B, Modal, Cloudflare, Vercel — Agents SDK가 지원하는 7개 샌드박스 공급자. 공급자 간 이식성을 위한 Manifest 추상화를 SDK가 제공한다.

내구성 있는 실행 — 컨테이너가 죽어도 에이전트가 이어서 실행된다

프로덕션 에이전트에서 가장 어려운 문제 중 하나는 장기 실행 태스크 도중 컨테이너가 종료될 때다. 메모리에 있던 에이전트 상태가 사라지고, 처음부터 다시 실행해야 한다. 특히 코드 분석, 대용량 파일 처리, 멀티스텝 워크플로우처럼 수십 분이 걸리는 작업에서 이 문제는 치명적이다.

이번 업데이트에서 추가된 내구성 있는 실행은 이 문제를 SDK 레벨에서 해결한다. 동작 방식은 다음과 같다.

에이전트 실행 상태를 외부 저장소에 스냅샷으로 저장
컨테이너 종료 시 SDK가 마지막 체크포인트를 감지
새 컨테이너에서 상태를 재수화(rehydrate)하고 중단 지점부터 실행 재개

개발자는 체크포인트 저장 주기와 저장소 백엔드를 설정할 수 있다. 에이전트가 어느 단계에서 중단됐는지를 SDK가 추적하기 때문에, 멱등성(idempotency)을 직접 구현할 필요 없이 재시작이 안전하게 처리된다.

Python — 내구성 있는 실행 설정 예시
from openai.agents import Agent, DurableConfig
import boto3  # 체크포인트 저장소로 S3 사용

agent = Agent(
    model="gpt-4o",
    instructions="대용량 코드베이스를 분석하고 개선 포인트를 정리해라.",
    tools=[{"type": "shell"}, {"type": "apply_patch"}],
    durable=DurableConfig(
        # 체크포인트를 S3에 저장
        storage_backend="s3",
        storage_config={
            "bucket": "my-agent-checkpoints",
            "prefix": "runs/",
        },
        checkpoint_interval=60,  # 60초마다 스냅샷
    ),
    sandbox=SandboxConfig(provider="modal")
)

# 실행 ID를 지정하면 기존 실행 상태에서 이어서 시작
response = client.agents.run(
    agent=agent,
    run_id="analysis-run-001",     # 동일 run_id로 재실행 시 체크포인트에서 복구
    messages=[
        {"role": "user", "content": "이 리포지토리 전체에서 N+1 쿼리 패턴을 찾아줘"}
    ]
)

멀티 샌드박스 & 병렬 실행 — 서브에이전트를 분리된 환경으로 라우팅

에이전트 실행이 복잡해질수록 단일 샌드박스로는 한계가 생긴다. 보안 격리, 병렬 처리, 리소스 분리가 필요할 때 멀티 샌드박스 패턴이 필요하다.

업데이트된 SDK는 하나의 에이전트 실행에서 여러 샌드박스를 조합하는 방식을 지원한다.

서브에이전트를 격리된 환경으로 라우팅 — 보안 검사, 코드 실행, 파일 처리를 각각 분리된 샌드박스에서 병렬 실행 가능
필요할 때만 샌드박스 호출 — 코드 실행이 필요한 스텝에서만 샌드박스를 프로비저닝하고, 나머지 스텝은 샌드박스 없이 처리해 비용 절감
병렬화로 속도 향상 — 독립적인 서브태스크를 여러 샌드박스에서 동시에 실행하고 결과를 병합

이 패턴이 중요한 이유는 에이전트 규모가 커질수록 보안 격리와 비용 효율이 동시에 중요해지기 때문이다. 단일 샌드박스에서 모든 코드를 실행하면 하나의 서브태스크 취약점이 전체 에이전트 실행 환경에 영향을 줄 수 있다.

OpenAI Agents SDK 멀티 샌드박스 병렬 실행 아키텍처 — 서브에이전트 격리 패턴 — 서브에이전트를 각각 격리된 샌드박스로 라우팅하면 보안 격리와 병렬 처리를 동시에 달성할 수 있다.

샌드박스 공급자 선택 기준 — E2B, Modal, Cloudflare, Vercel 비교

7개 공급자 중 현재 개발자들이 가장 많이 쓰는 4개를 기준으로 선택 기준을 정리했다.

공급자	콜드 스타트	과금 단위	적합한 케이스
E2B	~500ms	CPU·메모리 초	Python 코드 실행, Jupyter 스타일 워크플로우
Modal	~1~3초	GPU·CPU 초	ML 추론, 데이터 처리, GPU 필요 작업
Cloudflare	<50ms	요청 + CPU ms	엣지 실행, 글로벌 분산, 짧은 태스크
Vercel	~200ms	요청 + 실행 시간	Next.js 에코시스템 통합, 웹 에이전트

선택 기준은 단순하다. Python 코드 실행이 주 목적이라면 E2B, GPU가 필요하면 Modal, 엣지 레이턴시가 중요하면 Cloudflare, Next.js 앱과 통합이 필요하면 Vercel이다. 비용은 태스크 실행 시간과 리소스 스펙에 따라 크게 달라지므로, 실제 워크로드로 소규모 테스트 후 결정하는 것이 안전하다.

현재 지원 언어 — Python 우선, TypeScript 예정
모델 네이티브 하네스와 샌드박스 실행 기능은 Python부터 GA로 제공된다. TypeScript 지원은 향후 릴리즈에 포함될 예정이라고 OpenAI가 밝혔다. TypeScript로 에이전트를 구축하는 팀은 일정을 확인하고 마이그레이션 시점을 계획해야 한다.

가격과 실무 적용 포인트

Agents SDK의 새 기능은 별도 요금제 없이 표준 API 가격(토큰 + 도구 사용)을 따른다. 단, 샌드박스 실행 비용은 선택한 공급자(E2B, Modal 등)에 별도로 청구된다. SDK 자체의 추가 비용은 없다.

실무에서 이번 업데이트를 적용할 때 고려해야 할 포인트는 세 가지다.

1. AGENTS.md 도입 여부 검토
이미 CLAUDE.md나 CURSOR.md를 쓰고 있다면 AGENTS.md로 OpenAI 에이전트에도 같은 방식의 컨텍스트를 제공할 수 있다. 멀티 에이전트 환경에서 하나의 지침 파일로 여러 에이전트를 통제하는 패턴이 표준화되고 있다.

2. 내구성 있는 실행은 장기 실행 태스크에만 적용
응답 시간이 짧은 에이전트(수초 이내)는 스냅샷/재수화 오버헤드가 오히려 비효율적이다. 수십 분 이상 실행되는 분석·처리·리팩토링 에이전트에 우선 적용한다.

3. 샌드박스 없이 시작해도 된다
샌드박스 기능은 필수가 아니다. 기존에 Agents SDK를 써왔다면 코드 실행이 필요한 도구를 추가하는 시점에 샌드박스를 붙이면 된다. 전체 아키텍처를 바꾸지 않아도 점진적으로 적용할 수 있다.

OpenAIAgents SDK샌드박스에이전트E2BModalAGENTS.md내구성 실행MCPPython