Anthropic이 Claude Opus 4.7을 출시했습니다. 이번 모델은 단순한 대화형 AI를 넘어 실제 컴퓨터를 스스로 조종하는 수준에 도달한 것으로 평가받고 있습니다.

OSWorld 벤치마크: 인간 평균을 초월

Claude Opus 4.7은 OSWorld 벤치마크에서 78%를 기록했습니다. 이 수치는 인간 평균 72.4%를 이미 넘어선 결과입니다. OSWorld는 실제 컴퓨터 환경에서 AI가 마우스·키보드·파일·브라우저를 다루는 능력을 측정하는 벤치마크로, 가장 실용적인 AI 성능 지표 중 하나로 꼽힙니다.

실제 컴퓨터를 혼자 다룬다

Claude Opus 4.7은 사용자의 개입 없이 실제 운영체제 위에서 작동합니다. 마우스 클릭, 키보드 입력, 파일 관리, 웹 브라우저 조작까지 AI 단독으로 수행합니다. 이전 세대 모델과 달리 단순한 텍스트 생성을 벗어나 물리적 인터페이스를 직접 제어하는 수준입니다.

코딩 능력도 크게 향상

소프트웨어 엔지니어링 벤치마크인 SWE-bench Pro에서 Claude Opus 4.7은 64.3%를 기록했습니다. 전작 대비 10%p 이상 향상된 수치로, 실제 코드베이스에서 버그를 찾아 수정하는 능력이 크게 개선됐습니다.

가격 동결

Anthropic은 Claude Opus 4.7 출시와 함께 가격을 기존과 동일하게 유지한다고 밝혔습니다. 성능이 대폭 향상됐음에도 가격을 올리지 않아 기업 고객과 개발자 모두에게 매력적인 선택지가 됐습니다.

AI 에이전트 시대의 본격화

Claude Opus 4.7은 AI 에이전트 분야에서 중요한 전환점으로 평가됩니다. 대화하는 AI에서 실제로 작업을 수행하는 AI로 진화한 것입니다. 컴퓨터를 스스로 조종하는 AI는 업무 자동화, 소프트웨어 테스트, 반복 작업 처리 등 다양한 분야에서 활용될 가능성이 높습니다.

영상 보러가기