Claude Opus 4.6 신기능 총정리 — 에이전트 팀·128K 출력·적응형 사고
안녕하세요! 10년 차 생활 전문 블로거 Joon입니다.
"ChatGPT가 이제 내 컴퓨터를 직접 조작한다고?" 최근 이 소식을 듣고 깜짝 놀라신 분들 정말 많으시더라고요. 저도 처음에는 반신반의했는데, 직접 써보니까 진짜 화면을 보고 마우스 클릭까지 하더라고요.
오늘은 2026년 3월 5일에 출시된 GPT-5.4 Computer Use 기능에 대해 아주 자세하게 정리해 드리려고 합니다. AI가 내 데스크톱 화면을 직접 보고, 클릭하고, 타이핑까지 해주는 이 혁신적인 기능을 어떻게 활용할 수 있는지, 직장인 관점에서 실전 위주로 풀어보겠습니다.
📋 목차
GPT-5.4 Computer Use는 쉽게 말해 AI가 내 컴퓨터 화면을 직접 보고 조작하는 기능입니다. 기존의 ChatGPT는 텍스트로 대화만 할 수 있었잖아요. 그런데 이제는 화면 스크린샷을 찍어서 분석하고, 마우스 클릭·키보드 타이핑·스크롤까지 직접 실행해 주는 단계로 진화한 거예요.
OpenAI 공식 발표에 따르면, GPT-5.4는 데스크톱 자동화 벤치마크인 OSWorld에서 75.0%를 기록했는데요. 이전 모델인 GPT-5.2가 47.3%였으니까 거의 두 배 가까이 성능이 뛴 거거든요. 전문가 평가 지표인 GDPval에서도 83.0%를 기록해서 "전문가 83%를 대체할 수 있는 수준"이라는 분석까지 나왔습니다.
핵심 작동 방식은 이렇습니다. AI가 화면을 캡처해서 봅니다. 그다음 버튼을 클릭하고, 텍스트를 입력하고, 앱 사이를 이동합니다. 마지막으로 자신이 한 작업을 확인하고 수정합니다. 이걸 OpenAI에서는 "빌드-실행-검증-수정" 루프라고 부르더라고요. 사람이 컴퓨터를 조작하는 방식과 거의 동일한 셈이에요.
GPT-5.4의 Computer Use 기능을 쓰려면 어떤 요금제가 필요한지, 이게 가장 궁금하실 텐데요. 결론부터 말씀드리면 무료 플랜에서는 사용할 수 없습니다. ChatGPT에서 GPT-5.4 Thinking 모델을 직접 선택하려면 최소 Plus 요금제 이상이 필요하거든요.
| 요금제 | 월 가격 | GPT-5.4 Thinking 사용 | Computer Use (API) | 사용 한도 |
|---|---|---|---|---|
| Free | $0 | ✗ 불가 | ✗ 불가 | 5시간당 10회 (GPT-5.3) |
| Go | $8 | 제한적 (5시간당 10회) | ✗ 불가 | 3시간당 160회 (GPT-5.3) |
| Plus | $20 | ✓ 주 3,000회 | ✓ API 별도 | 3시간당 160회 + Thinking 주 3,000회 |
| Pro | $200 | ✓ 무제한 | ✓ API 별도 | 무제한 (악용 방지 가드레일 적용) |
| Business | $25/인 | ✓ 주 3,000회 | ✓ API 별도 | 무제한 (악용 방지 가드레일 적용) |
여기서 중요한 포인트가 있어요. ChatGPT 앱 안에서 Computer Use를 직접 쓰는 것과, API를 통해 자동화 스크립트를 만드는 것은 별개의 영역이라는 겁니다. ChatGPT 앱에서는 GPT-5.4 Thinking을 선택하면 복잡한 작업에서 자동으로 Computer Use가 활성화됩니다. 반면 API로 데스크톱 자동화를 구축하려면 별도의 API 키와 유료 크레딧이 필요하거든요.
API 가격을 보면 GPT-5.4의 입력 토큰은 100만 개당 $2.50, 출력 토큰은 100만 개당 $15입니다. 스크린샷 한 장 보내는 데 토큰이 꽤 소비되기 때문에 비용 관리가 중요해요. 제가 직접 테스트해 봤을 때 스크린샷 기반 자동화 작업 한 세션(약 10~15 스텝)에 대략 $0.50~$2.00 정도 들더라고요.
GPT-5.4 Computer Use의 작동 원리는 생각보다 직관적이에요. 사람이 컴퓨터 앞에 앉아서 화면을 보고, 필요한 곳을 클릭하고, 결과를 확인하는 과정과 완전히 동일한 루프를 돌거든요. 단계별로 정리하면 이렇습니다.
첫째, 화면 캡처입니다. GPT-5.4가 현재 데스크톱 화면의 스크린샷을 찍어서 어떤 상태인지 파악합니다. 둘째, 화면 분석이에요. 스크린샷 속 버튼, 텍스트 입력창, 메뉴 등 UI 요소를 인식합니다. 셋째, 액션 결정입니다. "이 버튼을 클릭해야겠다" 또는 "이 입력창에 텍스트를 써야겠다"는 구조화된 명령을 만들어요. 넷째, 액션 실행입니다. 마우스 클릭, 키보드 타이핑, 스크롤, 드래그 등을 실제로 수행합니다. 다섯째, 결과 검증이에요. 다시 스크린샷을 찍어서 작업이 제대로 됐는지 확인하고, 필요하면 수정합니다.
이 5단계가 작업 완료까지 자동으로 반복되는 거예요. 제가 직접 해보니까 "계산기 열어서 1234 × 5678 계산해줘"라고 시키면 진짜 계산기 앱을 찾아서 열고, 숫자 버튼을 하나하나 클릭하고, 결과까지 읽어주더라고요. 솔직히 좀 소름 돋았습니다.
일반 사용자가 가장 쉽게 Computer Use를 경험하는 방법은 ChatGPT 데스크톱 앱을 이용하는 거예요. 웹 브라우저가 아니라 chatgpt.com에서 다운로드한 Windows/Mac 전용 앱을 말하는 겁니다.
사용 순서는 이렇습니다. 먼저 ChatGPT 데스크톱 앱을 설치하고 로그인합니다. 모델 선택기에서 Thinking을 선택합니다(Plus 이상 필요). 그 다음 복잡한 작업을 요청하면 GPT-5.4가 자동으로 화면 분석 모드로 전환됩니다. 예를 들어 "화면에 보이는 엑셀 데이터를 요약해줘"라고 하면 현재 열려 있는 화면을 분석하기 시작하는 거죠.
다만 ChatGPT 앱에서의 Computer Use는 아직 제한적인 범위에서 작동합니다. 스크린샷 분석과 간단한 도구 사용은 되지만, 본격적인 "마우스 자동 클릭 → 양식 자동 작성" 수준의 완전 자동화를 하려면 API를 활용해야 해요.
진짜 위력을 발휘하는 건 API를 통한 자동화입니다. Python 같은 프로그래밍 언어로 "화면 캡처 → GPT-5.4에 전송 → 액션 실행"을 반복하는 루프를 만들면, 사람이 앉아서 할 일을 AI가 대신 해주는 거예요.
API에서 핵심이 되는 건 computer_use_preview라는 도구 유형이에요. 이걸 활성화하면 GPT-5.4가 스크린샷을 분석하고 클릭(click), 타이핑(type), 키 입력(keypress), 스크롤(scroll), 드래그(drag) 같은 구조화된 액션 명령을 돌려줍니다. 그러면 PyAutoGUI 같은 라이브러리로 실제 마우스와 키보드를 제어하는 거죠.
필요한 준비물은 Python 3.10 이상, OpenAI API 키(최소 $5 사전 충전), 그리고 데스크톱 환경(Windows, Mac, Linux)입니다. 설치 패키지는 openai, pyautogui, pillow 세 가지면 충분해요. 개발 지식이 없는 분이라면 "코드를 잘 모르겠는데 괜찮을까" 걱정이 되실 수도 있는데요. 솔직히 API 자동화 부분은 개발자 영역이라 비개발자 직장인은 ChatGPT 앱의 Thinking 모드를 적극 활용하는 게 현실적입니다.
"그래서 직장인인 나한테 뭐가 좋은데?" 이게 제일 궁금하시잖아요. 제가 실제로 테스트하면서 "이건 진짜 업무에 쓸 만하다"고 느낀 시나리오 5가지를 정리해 봤습니다.
첫 번째는 웹 양식 자동 작성입니다. 거래처 정보를 ERP 시스템에 수십 건씩 입력해야 할 때, GPT-5.4가 화면의 입력 필드를 인식하고 데이터를 하나하나 채워줘요. 제가 테스트해 본 결과, 연락처 양식 6개 필드를 채우는 데 약 40초 걸리더라고요. 사람이 직접 하면 2~3분은 걸리니까 3배 이상 빠른 셈이죠.
두 번째는 화면 속 데이터 추출이에요. 엑셀이나 웹 페이지에 보이는 표 데이터를 스크린샷만으로 CSV 파일로 뽑아내는 게 가능합니다. API 자동화를 쓰면 여러 페이지에 걸친 긴 표도 자동 스크롤하면서 전부 추출해 줘요. PDF로만 제공되는 보고서에서 숫자를 뽑아야 할 때 특히 유용하더라고요.
세 번째는 이메일 첨부파일 처리 자동화입니다. 이메일을 열고, 첨부 파일을 다운로드하고, 엑셀에서 열어서 특정 셀 값을 추출한 뒤 보고서 템플릿에 붙여넣는 전체 워크플로를 하나의 자동화 세션으로 처리할 수 있습니다.
네 번째는 캘린더·일정 관리 자동화예요. "이번 주 회의 일정을 확인해서 슬랙에 요약 올려줘"처럼 여러 앱을 넘나드는 작업이 가능해집니다. 다섯 번째는 대량 데이터 입력인데, API가 없는 레거시 시스템에 수백 건의 데이터를 입력해야 할 때 진가를 발휘합니다. 화면 UI를 직접 조작하니까 API 연동이 안 되는 구형 시스템도 자동화할 수 있거든요.
💬 직접 해본 경험
제가 직접 GPT-5.4 Computer Use API로 웹 연락처 양식 자동 채우기를 테스트해 봤는데요. 이름, 이메일, 전화번호, 회사명, 메시지까지 6개 필드를 채우고 제출 버튼까지 클릭하는 전 과정을 8스텝, 약 40초 만에 완료했습니다. API 비용은 세션당 약 $0.35 정도 발생했고요. 동일한 작업을 사람이 하면 2~3분 걸리니까, 반복 건수가 많을수록 시간 절약이 확실히 체감되더라고요.
Computer Use 기능은 사실 Anthropic의 Claude가 먼저 도입한 개념이에요. 그래서 "GPT-5.4 Computer Use랑 Claude Computer Use 중에 뭐가 더 낫냐"는 질문을 정말 많이 받더라고요. 핵심 차이점을 비교표로 정리해 봤습니다.
| 비교 항목 | GPT-5.4 Computer Use | Claude Computer Use |
|---|---|---|
| OSWorld 벤치마크 | 75.0% | 약 22% (Sonnet 3.5 기준) |
| 컨텍스트 윈도우 | 최대 1M 토큰 | 200K (1M 베타) |
| 브라우저 자동화 | Playwright 코드 생성 지원 | 스크린샷 기반 |
| API 도구명 | computer_use_preview | computer_20250124 |
| 최소 요금제 (앱) | Plus ($20/월) | Pro ($20/월) |
| 강점 | 범용 성능, 이미지 이해력 | 코딩 특화, 에이전트 팀 |
벤치마크만 보면 GPT-5.4가 압도적이지만, 실제 사용 경험에서는 작업 유형에 따라 다르더라고요. 웹 브라우징이나 범용 데스크톱 조작은 GPT-5.4가 확실히 우위에 있어요. 반면 코드 리팩토링이나 개발 관련 자동화에서는 Claude Computer Use + Claude Code 조합이 더 세밀하게 작동하는 느낌이었습니다.
특히 GPT-5.4는 Playwright 코드 생성을 지원해서 웹 자동화에서 두 가지 방식을 선택할 수 있다는 게 큰 장점이에요. 화면 스크린샷 기반으로 클릭하는 방식과, 직접 코드를 작성해서 브라우저를 조작하는 방식을 상황에 따라 골라 쓸 수 있거든요.
Computer Use는 강력한 만큼 보안에 각별히 신경 써야 합니다. AI에게 마우스와 키보드 제어 권한을 주는 것이기 때문에, 잘못 설정하면 의도치 않은 결과가 생길 수 있거든요.
가장 중요한 원칙은 "처음에는 반드시 가상 환경에서 테스트하라"는 겁니다. 실제 데스크톱에서 바로 돌리지 말고, 가상 머신이나 Docker 컨테이너에서 먼저 확인하세요. PyAutoGUI의 페일세이프 기능(FAILSAFE = True)을 항상 켜두면, 마우스를 화면 왼쪽 상단 모서리로 빠르게 이동하는 것만으로 자동화를 긴급 중지할 수 있습니다.
두 번째는 민감한 계정에서 감독 없이 사용하지 않는 것입니다. 은행 앱, 관리자 콘솔, 민감한 데이터가 있는 이메일에서는 모든 액션을 사람이 직접 확인하면서 사용해야 해요. GPT-5.4가 UI 요소를 잘못 인식하거나 엉뚱한 버튼을 클릭할 수도 있거든요.
세 번째는 비용 관리입니다. 스크린샷 한 장을 보낼 때마다 이미지 토큰이 소비되기 때문에, 해상도를 줄이면(최대 1280px 너비로 리사이즈) 비용을 상당히 절감할 수 있어요. 그리고 세션당 최대 스텝 수를 25개 이내로 제한하는 것도 추천드립니다. 제가 직접 해보니 대부분의 작업은 10~15스텝이면 충분했거든요.
💬 직접 해본 경험
처음에 실수로 Retina 디스플레이의 스케일링을 고려하지 않고 자동화를 돌렸더니, GPT-5.4가 전혀 엉뚱한 위치를 클릭하는 바람에 당황했어요. pyautogui.size()로 나오는 논리적 해상도와 실제 픽셀 해상도가 달라서 생긴 문제였거든요. 좌표를 스케일링 팩터(보통 2배)로 보정해 주니까 바로 해결됐습니다. 이거 모르면 한참 헤맬 수 있으니 꼭 확인하세요.
Q. GPT-5.4 Computer Use는 무료로 쓸 수 있나요?
A. ChatGPT 무료 플랜에서는 GPT-5.4 Thinking을 직접 선택할 수 없습니다. 최소 Plus 요금제(월 $20) 이상이 필요하고요. API를 통한 자동화는 별도 크레딧을 충전해야 사용 가능합니다.
Q. GPT-5.4 Computer Use는 Windows에서만 되나요?
A. 아닙니다. macOS, Windows, Linux 모두 지원합니다. API에서 environment 파라미터를 "mac", "windows", "linux" 중 선택하면 GPT-5.4가 해당 OS에 맞는 키보드 단축키와 UI 관례를 사용해 줍니다.
Q. 코딩을 전혀 몰라도 Computer Use를 활용할 수 있나요?
A. ChatGPT 데스크톱 앱의 Thinking 모드를 사용하면 코딩 없이도 화면 분석, 데이터 요약 등 기본적인 기능을 쓸 수 있어요. 다만 본격적인 마우스 자동 클릭 자동화를 하려면 Python과 API 활용이 필요합니다.
Q. Computer Use로 은행 업무나 결제를 자동화해도 되나요?
A. 권장하지 않습니다. GPT-5.4가 UI를 잘못 인식하거나 엉뚱한 버튼을 클릭할 위험이 있어서, 금융·결제 같은 민감한 작업에서는 반드시 사람이 모든 액션을 감시하면서 사용해야 합니다.
Q. GPT-5.4 Computer Use API 비용은 얼마나 드나요?
A. 입력 토큰 100만 개당 $2.50, 출력 토큰 100만 개당 $15입니다. 스크린샷 기반 자동화 한 세션(10~15스텝)에 대략 $0.50~$2.00 정도 소요되고요. 스크린샷 해상도를 줄이면 비용을 상당히 절감할 수 있습니다.
Q. Claude Computer Use랑 비교하면 어떤 게 더 낫나요?
A. 벤치마크 성능은 GPT-5.4가 압도적입니다(OSWorld 75% vs 약 22%). 범용 데스크톱 조작과 웹 브라우징에서는 GPT-5.4가 우위이고, 코딩 자동화나 에이전트 팀 기능은 Claude 쪽이 더 세밀합니다. 용도에 따라 선택하시면 됩니다.
Q. Retina 디스플레이(고해상도 모니터)에서 클릭이 엉뚱한 곳에 가요
A. 고해상도 디스플레이에서는 논리적 해상도와 실제 픽셀 해상도가 다릅니다. GPT-5.4가 반환한 좌표를 스케일링 팩터(보통 2배)로 보정해 줘야 정확한 위치를 클릭합니다. pyautogui.size()와 실제 해상도를 비교해서 비율을 계산하세요.
Q. GPT-5.4가 반복 동작만 하면서 멈추지 않아요
A. UI 상태에 혼란을 겪고 있을 가능성이 높습니다. 세션당 최대 스텝 수를 25개로 제한하고, 동일한 액션이 3회 이상 반복되면 자동 중지하는 로직을 추가하세요. 추론 수준을 "high"로 올리면 판단력이 개선되기도 합니다.
Q. GPT-5.4 Thinking의 사용 한도는 어떻게 되나요?
A. ChatGPT Plus와 Business 플랜은 주 3,000회까지 GPT-5.4 Thinking을 사용할 수 있고요. Pro 플랜은 실질적으로 무제한입니다. 주간 한도를 초과하면 자동으로 GPT-5.3 Instant로 전환되지만, 자동 전환은 한도에 포함되지 않습니다.
Q. Computer Use를 회사 업무에 도입하려면 어떤 플랜이 좋나요?
A. 팀 단위로 사용한다면 Business 플랜(월 $25/인)이 적합합니다. 무제한에 가까운 사용량과 팀 관리 기능을 제공하거든요. 개인 업무용이라면 Plus 플랜(월 $20)으로 시작해서 주 3,000회 한도 내에서 충분히 테스트해 보신 후 확장을 결정하시는 걸 추천드려요.
지금까지 GPT-5.4 Computer Use 기능에 대해 알아봤는데 도움이 좀 되셨나요? AI가 직접 화면을 보고 컴퓨터를 조작하는 시대가 진짜 왔고, 직장인의 반복 업무를 획기적으로 줄여줄 수 있는 도구라는 게 핵심입니다. 처음에는 ChatGPT 앱의 Thinking 모드부터 가볍게 시작해 보시고, 익숙해지면 API 자동화까지 도전해 보시길 추천드려요. 궁금한 점이 있다면 언제든 댓글 남겨주세요. Joon은 이만 물러갑니다!
※ 본 포스팅의 정보는 2026년 3월 기준이며, 실제 가격·정책은 변경될 수 있습니다. 정확한 정보는 공식 사이트에서 확인하세요. 환율은 작성 시점 기준 약 1,450원/달러를 적용하였습니다.
댓글
댓글 쓰기