한 줄 요약: OpenAI가 2026년 3월 GPT-5.4와 Codex 데스크톱 앱(Windows 포함)을 동시 출시했다. GPT-5.4는 범용 모델 최초로 네이티브 컴퓨터 사용(Computer Use) 기능을 탑재했고, Codex 앱은 여러 코딩 에이전트를 병렬로 관리하는 커맨드 센터로 진화했다.
이 글이 필요한 사람- GPT-5.4의 컴퓨터 사용 기능이 실제로 무엇을 할 수 있는지 파악하고 싶은 개발자
- Codex 데스크톱 앱을 개발 워크플로우에 통합하려는 경우
- Claude Code, Codex, Gemini 중 어떤 에이전트를 선택할지 비교 중인 경우
- OpenAI 에코시스템의 최신 변화를 빠르게 파악하고 싶은 경우
※ 이 글은 2026년 3월 기준, OpenAI 공식 블로그(openai.com/index/) 발표 기반으로 작성됐습니다.
OpenAI가 2026년 3월 발표한 GPT-5.4(openai.com/index/introducing-gpt-5-4/)는 기존 GPT-5 시리즈에서 가장 큰 폭의 업데이트다. 핵심 변경사항을 정리한다.
| 항목 | GPT-5.3 | GPT-5.4 |
|---|
| 컴퓨터 사용 | 미지원 | 네이티브 탑재 (스크린샷 인식 + 마우스/키보드 조작) |
| 컨텍스트 윈도우 | 128K | 1M (실험적) |
| 도구 사용 | Function Calling | Tool Search + 강화된 도구 사용 |
| 장시간 작업 | 제한적 | Long-horizon task 지원 |
| 가격 (M토큰) | $5 / $25 | $5 / $25 (동일) |
가장 주목할 점은 가격 인상 없이 컴퓨터 사용 기능과 1M 컨텍스트가 추가됐다는 것이다. OpenAI의 전략은 기능 확장으로 사용자를 에코시스템에 고정시키는 방향이다.
GPT-5.4의 컴퓨터 사용(Computer Use) 기능은 AI가 스크린샷을 읽고, 마우스 클릭과 키보드 입력을 수행해 실제 컴퓨터를 조작하는 능력이다. Anthropic이 Claude 3.5 Sonnet에서 먼저 선보인 기능을 OpenAI가 범용 모델에 네이티브로 탑재한 것이다.
작동 방식
- AI가 현재 화면의 스크린샷을 캡처
- 화면 내용을 분석해 다음 액션 결정 (버튼 클릭, 텍스트 입력, 스크롤 등)
- Playwright 같은 브라우저 자동화 라이브러리 또는 OS 레벨 입력을 통해 액션 실행
- 결과 화면을 다시 캡처해 검증
현재 가능한 작업 예시
- 웹 브라우저에서 정보 검색 → 스프레드시트에 정리
- 복수 애플리케이션 간 데이터 이동 (예: Jira 티켓 → Slack 메시지)
- GUI 기반 설정 변경 (API가 없는 레거시 시스템 조작)
- 웹 양식 자동 작성 및 제출
다만, 현재 컴퓨터 사용 기능은 속도가 느리고(액션당 수 초), 복잡한 멀티스텝 작업에서 오류율이 높다. OpenAI는 이를 "실험적 기능"으로 분류하고 있으며, 프로덕션 워크플로우에 바로 적용하기보다는 반복적이고 단순한 GUI 작업부터 적용할 것을 권장하고 있다.
2026년 3월 4일, OpenAI는 Codex 데스크톱 앱의 Windows 버전을 출시했다(openai.com/index/introducing-the-codex-app/). 기존 macOS 전용이었던 앱이 Windows로 확장되면서, Codex는 단순 코딩 도구에서 멀티 에이전트 관리 플랫폼으로 포지셔닝을 전환했다.
Codex 데스크톱 핵심 기능
- 병렬 에이전트 실행: 여러 코딩 에이전트를 동시에 실행하고 각각의 진행 상황을 한 화면에서 모니터링
- 격리된 워크트리: 각 에이전트가 독립된 Git 워크트리에서 작업해, 서로의 변경사항이 충돌하지 않음
- 리뷰 가능한 Diff: 에이전트 작업 결과를 diff 형태로 확인하고, 편집·폐기·PR 생성 가능
- 크로스 플랫폼 동기화: 앱, CLI, IDE 간 작업 상태가 동기화되어 전환 없이 연속 작업 가능
- GitHub 딥 통합: 저장소 선택 → 이슈 할당 → 코드 작성 → PR 생성까지 앱 내에서 완결
Claude Code가 터미널 기반 에이전트로 강점을 보이는 반면, Codex는 GUI 기반 에이전트 관리 경험을 전면에 내세웠다. 터미널에 익숙하지 않은 개발자에게는 Codex 데스크톱의 시각적 인터페이스가 진입 장벽을 낮출 수 있다.
GPT-5.4 Codex와 Claude Code는 모두 "AI 코딩 에이전트"를 표방하지만, 접근 방식이 다르다.
| 항목 | Claude Code | Codex (GPT-5.4) |
|---|
| 인터페이스 | 터미널 기반 (CLI) | 데스크톱 앱 (GUI) + CLI |
| SWE-bench | 80.9% | ~80% |
| 컴퓨터 사용 | 미지원 | 네이티브 지원 |
| 멀티 에이전트 | 서브에이전트 병렬 실행 | 데스크톱 앱에서 병렬 관리 |
| 실행 환경 | 로컬 터미널 | 클라우드 샌드박스 |
| 비용 | $15/$75 (Opus 4.6) | $5/$25 (GPT-5.4) |
| 강점 | 코드 품질, 추론 깊이 | GUI 자동화, 크로스 앱 작업 |
선택 기준은 명확하다. 코드 품질과 추론 깊이가 최우선이면 Claude Code, GUI 자동화와 크로스 애플리케이션 작업이 필요하면 GPT-5.4 Codex, 비용 효율이 핵심이면 Gemini 3.1 Pro다. 2026년의 현실적 전략은 하나를 고르는 것이 아니라 상황별로 전환하는 것이다.
GPT-5.4와 Codex 데스크톱을 실무에 적용하려면, 자신의 워크플로우에 맞는 사용 시나리오를 먼저 판단해야 한다.
GPT-5.4 컴퓨터 사용이 적합한 경우
- API가 없는 레거시 시스템의 GUI 조작 자동화
- 복수 웹 애플리케이션 간 데이터 이동 (Jira → Notion → Slack)
- 반복적인 양식 작성, 스크린샷 기반 모니터링
- QA 테스트 — 실제 사용자 시나리오 시뮬레이션
Codex 데스크톱이 적합한 경우
- 복수의 코딩 작업을 병렬로 관리하고 싶을 때
- 터미널보다 GUI로 에이전트 상태를 시각적으로 확인하고 싶을 때
- GitHub 중심 워크플로우 (이슈 → 코드 → PR)를 앱 하나로 완결하고 싶을 때
- Windows 환경에서 AI 코딩 에이전트를 처음 사용하는 경우
아직 적합하지 않은 경우
- 컴퓨터 사용 기능으로 금융 거래, 개인정보 처리 등 고위험 작업 수행 (오류율이 높고 감사 추적이 부족)
- 실시간 성능이 중요한 작업 (액션당 수 초의 지연)
- 프로덕션 배포 파이프라인에 컴퓨터 사용 기능을 직접 연결 (아직 실험적 단계)