한 줄 요약: OpenAI가 GPT-5.4에 네이티브 컴퓨터 사용(Operator) 기능을 탑재했다. 스크린샷을 보고 마우스·키보드를 직접 조작하며, OSWorld-V 벤치마크에서 인간 기준(72.4%)을 처음 넘긴 75%를 기록했다. 개발자가 알아야 할 핵심을 정리한다.
이 글이 필요한 사람
- RPA/업무 자동화를 LLM 기반으로 전환하려는 개발자
- GPT-5.4의 Operator 기능을 실무에 적용하려는 엔지니어
- Claude Computer Use와 GPT-5.4 Operator를 비교하려는 기술 리더
- 에이전틱 AI의 컴퓨터 사용 능력이 어디까지 왔는지 파악하려는 실무자
기준일: 2026년 3월 23일. 출처: OpenAI 공식 발표, VentureBeat, Applying AI
GPT-5.4는 OpenAI가 2026년 3월 5일 출시한 범용 모델로, 네이티브 컴퓨터 사용(Computer Use) 기능이 처음으로 기본 탑재됐다. OpenAI는 이 기능을 "Operator"라 부른다.
Operator는 플러그인이 아니다. 모델 자체가 스크린샷을 해석하고, 마우스 클릭·키보드 입력·스크롤·탭 전환 등의 조작 명령을 생성한다. 사람이 단계별로 지시하지 않아도, 목표만 주면 여러 소프트웨어를 넘나들며 작업을 완수한다.
핵심 수치:
- OSWorld-V 벤치마크: 75% (인간 기준 72.4%를 최초 돌파)
- 컨텍스트 윈도우: 100만 토큰
- Tool Search 메커니즘: 도구 집약 워크플로우에서 토큰 비용 47% 절감
- GDPVal 벤치마크: 83.0% (경제적 가치 있는 작업에서 전문가 수준)
Operator의 작동 흐름은 크게 세 단계로 나뉜다:
1단계: 시각 인식
데스크톱 또는 브라우저 환경의 스크린샷을 촬영하고, 화면 요소(버튼, 입력 필드, 메뉴, 텍스트 등)를 인식한다. 단순 OCR이 아니라 UI 요소의 의미와 상태(활성/비활성, 선택됨/아님)까지 파악한다.
2단계: 액션 생성
인식된 화면 상태와 사용자의 목표를 비교해, 다음에 수행할 마우스/키보드 명령을 생성한다. 클릭 좌표, 입력할 텍스트, 단축키 조합 등이 포함된다. Playwright 같은 라이브러리를 통해 코드를 작성해 조작하는 방식도 지원한다.
3단계: 실행 및 피드백 루프
액션을 실행한 뒤 다시 스크린샷을 촬영해 결과를 확인한다. 예상과 다른 결과(에러 다이얼로그, 로딩 화면 등)가 나타나면 자동으로 대안 경로를 탐색한다. 이 "관찰→행동→관찰" 루프가 Operator의 핵심이다.
GPT-5.4 Operator는 개발자 메시지(developer message)를 통해 행동을 세밀하게 제어할 수 있다. 단순히 "컴퓨터를 조작하는 AI"가 아니라 프로덕션 환경에 맞게 튜닝 가능한 API로 설계됐다.
주요 개발자 제어 기능:
- 커스텀 확인 정책(Confirmation Policy): 결제, 파일 삭제 등 고위험 작업 전에 사용자 확인을 요구하는 규칙을 설정할 수 있다
- 위험 허용도 레벨: low / medium / high 3단계로 안전 행동을 조절한다
- 도구 제한: 접근 가능한 앱·웹사이트·파일 경로를 화이트리스트로 제한할 수 있다
- Tool Search: 도구가 많은 워크플로우에서 관련 도구만 동적으로 로드해 토큰 비용을 47% 줄인다
이 제어 체계 덕분에 기업은 "AI가 무한정 조작할 수 있는 환경"이 아니라 "허용된 범위 내에서만 자율 작업하는 환경"을 구축할 수 있다.
| 항목 | GPT-5.4 Operator | Claude Computer Use |
|---|
| 출시 | 2026년 3월 | 2025년 10월 (베타) |
| OSWorld-V | 75% | 공개 미정 |
| 컨텍스트 | 100만 토큰 | 20만 토큰 (표준) |
| 조작 방식 | 스크린샷 + Playwright 코드 | 스크린샷 + 좌표 기반 |
| 확인 정책 | 커스텀 3단계 | 기본 내장 |
| 엔터프라이즈 | 재무 플러그인 번들 | MCP 서버 연동 |
두 제품 모두 "AI가 컴퓨터를 직접 조작한다"는 같은 비전을 공유하지만 접근법이 다르다. GPT-5.4는 Playwright 코드 생성과 재무 특화 플러그인으로 엔터프라이즈 자동화에, Claude는 MCP 프로토콜과 개발자 도구 통합에 강점이 있다.
Operator가 실무에서 즉시 적용 가능한 시나리오를 정리한다:
1. 레거시 시스템 자동화
API가 없는 사내 ERP, 관리자 패널, 구형 웹 앱에서 데이터를 추출하거나 반복 작업을 수행한다. 스크린샷 기반이므로 API 연동 없이도 작동한다.
2. 재무·회계 워크플로우
OpenAI는 Microsoft Excel, Google Sheets용 재무 플러그인을 번들로 제공한다. 재무제표 데이터를 시트에 정리하고, 공식을 적용하고, 차트를 생성하는 전 과정을 자동화할 수 있다.
3. QA 테스트 자동화
웹 앱의 UI 테스트를 자연어로 기술하면 Operator가 실제 브라우저에서 시나리오를 실행한다. Playwright 코드를 직접 생성하므로 테스트 스크립트 작성 시간이 줄어든다.
4. 데이터 수집 파이프라인
로그인이 필요한 대시보드, 정부 포털, 내부 시스템에서 정기적으로 데이터를 수집하는 에이전트를 구축할 수 있다. 기존 웹 스크래핑과 달리 DOM 구조 변경에 강건하다.
GPT-5.4 Operator는 강력하지만 실무 도입 전에 반드시 인지해야 할 한계가 있다:
속도: 스크린샷 촬영→인식→액션 생성→실행의 루프는 사람보다 느리다. 단순 반복 작업은 기존 RPA(UiPath, Automation Anywhere)가 더 빠를 수 있다. Operator의 강점은 비정형 작업 적응력이다.
비용: 100만 토큰 컨텍스트를 사용하는 긴 세션은 API 비용이 상당하다. Tool Search로 47% 절감이 가능하지만, 고빈도 작업에는 여전히 비용 최적화가 필요하다.
프롬프트 인젝션 위험: 웹 페이지의 악의적 텍스트가 Operator의 행동을 변경할 수 있다. 금융 거래나 파일 삭제 같은 고위험 작업에는 반드시 확인 정책(Confirmation Policy)을 활성화해야 한다.
멀티 모니터/해상도 제한: 현재 단일 디스플레이 환경에 최적화되어 있다. 멀티 모니터 설정에서는 예상치 못한 좌표 오류가 발생할 수 있다.