AI / LLM

GPT-5.4 Computer Use — AI가 직접 컴퓨터를 조작하는 시대

GPT-5.4 네이티브 Computer Use 기능 분석. 스크린 인식·마우스 조작·105만 토큰 컨텍스트, Anthropic Computer Use 비교, mini/nano 라인업 정리.

2026-03-20

한 줄 요약: GPT-5.4는 OpenAI 범용 모델 최초로 네이티브 Computer Use 기능을 탑재했다. 스크린샷을 보고, 마우스를 클릭하고, 폼을 채우고, 애플리케이션 사이를 이동하며 작업을 자율적으로 수행한다. 컨텍스트 윈도우는 105만 토큰으로, 장기 작업 계획-실행-검증이 가능해졌다.

이 글이 필요한 사람

AI 에이전트에게 브라우저/앱 자동화를 맡기려는 개발자
RPA(로봇 프로세스 자동화)를 AI 에이전트로 전환하고 싶은 팀
GPT-5.2에서 5.4로 업그레이드 여부를 판단해야 하는 아키텍트
Anthropic Computer Use와 OpenAI Computer Use를 비교하고 싶은 분

기준일: 2026년 3월 20일. 출처: OpenAI GPT-5.4 공식 발표

Computer Use란 무엇인가

Computer Use는 AI 모델이 사람처럼 컴퓨터 화면을 보고 조작하는 기능이다. 스크린샷을 입력으로 받아 화면의 내용을 이해한 뒤, 마우스 클릭, 키보드 입력, 스크롤 등의 동작을 출력한다.

기존 AI 도구 연동(function calling, API 호출)과의 차이점은 명확하다:

방식	API 기반 도구 연동	Computer Use
전제 조건	대상 서비스에 API가 있어야 함	화면이 있으면 됨 (API 불필요)
조작 방식	구조화된 API 호출	마우스/키보드 직접 조작
적합한 대상	API 지원 서비스	레거시 시스템, 내부 도구, 웹 UI
정확도	높음 (구조화된 입출력)	중간 (시각 인식에 의존)
속도	빠름	느림 (스크린샷 처리 포함)

Computer Use는 API가 없는 서비스를 자동화할 때 진가를 발휘한다. 내부 ERP, 레거시 웹 앱, 관리자 패널처럼 API 없이 웹 UI만 존재하는 시스템은 기존 AI 도구 연동으로 자동화할 수 없었다.

GPT-5.4가 GPT-5.2와 달라진 점

GPT-5.4는 2026년 3월 5일에 출시됐다. ChatGPT(GPT-5.4 Thinking으로 제공), API, Codex에 동시 배포됐다. GPT-5.2 대비 핵심 변화:

항목	GPT-5.2	GPT-5.4
Computer Use	미지원	네이티브 지원 (최초)
컨텍스트 윈도우	256K 토큰	1,050K (105만) 토큰
Tool Search	미지원	에이전트가 적합한 도구를 자동 검색
GDPVal 벤치마크	~75%	83.0% (인간 전문가 수준)
Codex 지원	지원	지원 + Windows Codex 앱 추가

컨텍스트 윈도우가 256K에서 105만으로 확장된 것은 실무적으로 큰 차이다. 에이전트가 장시간 작업을 수행할 때 이전 맥락을 유지하면서 계획-실행-검증을 반복할 수 있다. 대규모 코드베이스 분석, 긴 문서 처리, 다단계 자동화 시나리오에서 컨텍스트 유실 없이 작업을 이어갈 수 있다.

GPT-5.4 Computer Use 아키텍처 — 스크린샷 입력, 추론, 마우스/키보드 액션 출력 — GPT-5.4는 스크린샷을 보고 마우스·키보드 동작을 수행하는 네이티브 Computer Use를 지원한다.

Computer Use가 실무에서 쓰이는 시나리오

Computer Use는 만능이 아니다. API 기반 자동화가 가능한 곳에서는 API가 더 빠르고 정확하다. Computer Use가 실질적인 가치를 갖는 시나리오는 다음과 같다:

1. 레거시 시스템 자동화

API가 없는 내부 ERP, HR 시스템, 관리자 패널에서 반복 작업(데이터 입력, 보고서 추출, 승인 처리)을 자동화한다. 기존 RPA 도구(UiPath, Automation Anywhere)와 유사하지만, AI 모델이 화면을 "이해"하므로 UI 변경에 더 유연하게 대응한다.

2. 크로스 앱 워크플로우

이메일에서 정보를 읽고 → CRM에 입력하고 → 슬랙에 알림을 보내는 멀티앱 작업. 각 앱에 API 연동을 구축하는 대신 Computer Use로 화면 전환과 입력을 자동화한다.

3. 웹 스크래핑/데이터 수집

JavaScript 렌더링이 필요한 동적 웹페이지에서 데이터를 수집한다. Playwright나 Selenium 스크립트를 작성하는 대신 AI가 화면을 보고 필요한 데이터를 추출한다.

4. QA/테스트 자동화

UI 테스트를 AI가 "사용자처럼" 수행한다. 테스트 시나리오를 자연어로 기술하면 AI가 화면을 보며 클릭·입력·검증을 수행한다.

Anthropic Computer Use와 비교

Computer Use를 제공하는 주요 모델은 현재 두 계열이다: Anthropic의 Claude(3.5 Sonnet부터 도입, Claude 4.x에서 강화)와 OpenAI의 GPT-5.4. 실무 선택에 필요한 비교:

항목	Claude Computer Use	GPT-5.4 Computer Use
도입 시점	2024년 10월 (Claude 3.5 Sonnet)	2026년 3월 (GPT-5.4)
컨텍스트 윈도우	1M 토큰 (Opus 4.6)	1.05M 토큰
코드 생성 접근	Playwright 코드 생성 우수	Playwright 코드 생성 + 직접 조작 모두 지원
통합 플랫폼	Claude Code, API	ChatGPT, Codex, API
안전 장치	권한 요청 기반 승인	operator 가이드라인 기반 제한

두 모델 모두 Computer Use에서 Playwright 라이브러리를 통한 코드 생성에 특히 강하다. 직접 마우스/키보드 조작보다는 Playwright 스크립트를 작성해서 실행하는 방식이 더 안정적이고 재현 가능한 결과를 낸다.

선택 기준: 이미 Claude API 기반 워크플로우가 구축되어 있다면 Claude Computer Use를, OpenAI 생태계(ChatGPT, Codex)를 쓰고 있다면 GPT-5.4를 선택하는 것이 통합 비용을 최소화한다.

GPT-5.4 Computer Use 실행 예시 — 브라우저에서 폼을 자동으로 채우는 AI 에이전트 — Computer Use는 API가 없는 레거시 시스템 자동화에서 진가를 발휘한다.

GPT-5.4 mini와 nano — 소형 모델 라인업

GPT-5.4 출시 12일 후인 3월 17일, OpenAI는 GPT-5.4 mini와 GPT-5.4 nano를 발표했다. "가장 뛰어난 소형 모델"이라는 포지셔닝이다.

GPT-5.4 mini는 텍스트/이미지 입력, tool use, function calling, 웹 검색, 파일 검색, Computer Use, skills까지 지원한다. 대형 모델의 기능 세트를 거의 그대로 유지하면서 비용과 지연 시간을 낮춘 것이 특징이다.

개발자 관점에서 mini/nano의 의미:

프로덕션 비용 절감: GPT-5.4의 추론 비용은 대규모 배포에서 부담이 된다. mini는 동일한 기능 세트를 낮은 비용으로 제공하므로, 프로토타입을 5.4로 검증한 뒤 프로덕션은 mini로 전환하는 패턴이 일반적이 될 것이다.
저지연 Computer Use: Computer Use는 스크린샷 처리 때문에 대형 모델에서 응답이 느리다. mini/nano에서 Computer Use를 쓰면 응답 시간이 단축되며, 실시간 상호작용이 필요한 자동화에 적합하다.
에지 배포: nano는 경량화를 통해 온디바이스 또는 에지 환경에서의 활용을 목표로 한다.

Computer Use 보안 주의사항: AI가 화면을 보고 직접 조작한다는 것은 보안 관점에서 신중히 접근해야 한다. 1) 민감한 정보가 화면에 노출된 상태에서 Computer Use를 사용하면 해당 정보가 모델에 전송된다. 2) AI의 클릭/입력이 의도치 않은 작업(삭제, 결제 등)을 트리거할 수 있다. 3) 프로덕션 환경에서는 반드시 샌드박스(격리된 VM/컨테이너) 안에서 Computer Use를 실행하고, 중요 작업 전 사람의 승인을 거치는 human-in-the-loop 체계를 구축하라.

GPT-5.4Computer UseOpenAIAI 에이전트RPA자동화Codex