한눈에 보기

OpenAI가 2026년 4월 23일 Introducing GPT-5.5를 공개했습니다. 한 줄로 정리하면, GPT-5.5는 단순 답변 모델이라기보다 코드를 고치고, 컴퓨터를 쓰고, 문서를 만들고, 리서치 흐름을 이어가는 쪽에 더 초점을 둔 모델입니다.

핵심은 네 가지입니다. GPT-5.5는 ChatGPT Plus, Pro, Business, Enterprise와 Codex에 순차 출시됩니다. Codex에서는 400K context window를 제공합니다. OpenAI 발표 상단 업데이트와 API pricing page 기준으로 GPT-5.5 API도 제공 상태와 가격이 공개됐습니다. 동시에 biological/chemical 및 cybersecurity capability는 Preparedness Framework상 High로 취급됩니다.

그래서 이번 뉴스는 "GPT-5.5가 몇 점 올랐다"보다 "OpenAI가 모델을 실제 업무 워크플로를 처리하는 agentic system으로 밀고 있다"는 쪽에서 보는 게 더 정확합니다.

이번 발표 뭐가 나왔나

OpenAI는 GPT-5.5를 real work를 위한 새 모델로 소개했습니다. 사용자가 세세한 단계를 계속 지시하기보다, 모델이 의도를 이해하고, 도구를 쓰고, 중간 결과를 점검하면서 더 긴 작업을 이어가는 방향입니다.

OpenAI가 강조한 영역은 agentic coding, computer use, knowledge work, early scientific research입니다. 코딩만 놓고 보면 Codex에서 구현, 리팩터링, 디버깅, 테스트, 검증까지 이어지는 장기 작업을 더 잘 처리한다는 설명입니다.

출시 범위도 이 방향과 맞물립니다. GPT-5.5는 ChatGPT Plus, Pro, Business, Enterprise와 Codex에 순차 출시되고, GPT-5.5 Pro는 Pro, Business, Enterprise용 ChatGPT에 제공됩니다.

핵심 변화 3가지

1. Codex가 긴 작업을 더 오래 붙잡는 방향으로 간다

GPT-5.5 발표에서 개발자들이 가장 먼저 볼 부분은 Codex입니다. OpenAI는 Codex 기준 400K context window를 제공한다고 밝혔습니다.

400K context window는 대형 코드베이스 작업에서 의미가 있습니다. 이슈 설명, 관련 파일 여러 개, 테스트 출력, 과거 구현 패턴, 문서 조각이 함께 들어가야 하는 작업에서는 모델이 볼 수 있는 재료가 늘어납니다.

다만 긴 컨텍스트가 자동으로 좋은 설계를 보장하지는 않습니다. 핵심은 모델이 파일 하나만 보고 과감하게 고치는 대신, 주변 계약과 테스트까지 함께 보며 작업을 끝까지 밀고 갈 가능성이 커졌다는 점입니다.

2. 벤치마크가 "답변"보다 "업무 수행" 쪽으로 이동했다

OpenAI가 공개한 수치는 모두 공식 발표 기준입니다. GPT-5.5는 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%, OSWorld-Verified에서 78.7%, GDPval에서 84.9%, Tau2-bench Telecom에서 98.0%, BrowseComp에서 84.4%, CyberGym에서 81.8%를 기록했다고 설명됩니다.

이 숫자만 보면 "성능이 올랐다"로 끝낼 수 있습니다. 그런데 더 중요한 건 벤치마크의 성격입니다. Terminal-Bench와 SWE-Bench Pro는 실제 개발 작업에 가까운 문제 해결 능력을 봅니다. OSWorld-Verified는 컴퓨터 환경을 조작하는 능력과 연결됩니다. GDPval, Tau2-bench Telecom, BrowseComp는 업무 흐름, 고객 응대, 브라우징 기반 문제 해결에 더 가깝습니다.

즉 OpenAI가 GPT-5.5로 보여주려는 방향은 "정답을 더 잘 맞힌다"보다 "업무를 더 오래 붙잡고 처리한다"에 가깝습니다.

3. API와 가격도 실제 도입 판단의 일부가 됐다

OpenAI 발표는 4월 24일 업데이트에서 GPT-5.5와 GPT-5.5 Pro가 API에서 제공된다고 덧붙였습니다. API pricing page에는 GPT-5.5가 flagship model로 올라와 있고, 표준 가격은 input 1M tokens당 5달러, cached input 1M tokens당 0.50달러, output 1M tokens당 30달러로 표시됩니다.

이 가격은 가벼운 대량 작업용이라기보다, 복잡한 코딩과 전문 업무에 써야 계산이 맞는 수준입니다. 반복 호출이 많은 워크플로라면 GPT-5.4 mini 같은 낮은 단가 모델과 역할을 나눠야 합니다.

결국 GPT-5.5는 "가장 좋은 모델 하나로 전부 처리"보다, 중요한 판단과 긴 작업에 집중 배치하는 쪽이 현실적입니다.

본문 이미지

GPT-5.5 workflow and benchmark overview

Bio Bug Bounty가 같이 나온 이유

이번 발표에서 놓치면 안 되는 부분은 Bio Bug Bounty입니다. OpenAI는 같은 날 GPT-5.5 Bio Bug Bounty를 공개했습니다. 범위는 GPT-5.5 in Codex Desktop입니다.

OpenAI는 GPT-5.5의 biological/chemical capability를 High로 취급한다고 밝혔고, system card에서도 관련 safeguards를 설명합니다. 그러니 Bio Bug Bounty는 단순 이벤트가 아니라, 모델 능력이 올라간 만큼 안전장치도 더 강하게 검증하겠다는 신호입니다.

챌린지는 초대와 신청 기반이며, 선정된 참가자에게 NDA가 적용됩니다. 외부에서 세부 테스트 결과나 프롬프트를 일반적으로 확인하기는 어렵습니다. 그래서 지금은 "OpenAI가 고위험 영역을 별도로 검증 대상으로 올렸다"는 사실 자체가 더 중요합니다.

사이버보안도 High로 취급한다

OpenAI system card는 GPT-5.5의 cybersecurity capability도 Preparedness Framework상 High로 취급하지만 Critical에는 도달하지 않았다고 설명합니다. 동시에 cyber safeguards 범위를 확대했다고 밝힙니다.

이 부분은 개발자와 보안팀 모두에게 양면성이 있습니다. 모델이 취약점 분석, 방어 자동화, 코드 보안 검토에 더 유용해질 수 있습니다. 동시에 misuse 가능성도 커질 수 있습니다.

앞으로 고성능 모델 경쟁은 "보안 업무를 얼마나 잘 돕는가"와 "위험한 요청을 어떤 조건에서 제한하는가"를 같이 봐야 합니다. 접근 제어와 모니터링이 제품 경쟁력의 일부가 되는 흐름입니다.

실제로 뭐가 달라지나

일반 ChatGPT 사용자에게는 복잡한 문서 업무, 리서치 정리, 분석, 코딩 질문에서 체감이 커질 가능성이 있습니다. 다만 순차 출시라서 계정, 플랜, 지역, 워크스페이스 정책에 따라 보이는 시점은 달라질 수 있습니다.

개발자와 Codex 사용자에게는 400K context window와 agentic coding 성능이 더 직접적입니다. 모델이 코드를 생성하는 수준을 넘어, 구현, 테스트, 실패 분석, 수정, 재검증을 이어가는 쪽으로 이동합니다.

기업 입장에서는 가격, 권한, 데이터 정책, 감사 로그, 보안 정책이 더 중요해집니다. GPT-5.5는 강한 모델이지만 비용도 높은 편이라, 팀별 사용량과 실패 재시도 비용까지 같이 계산해야 합니다.

좋은 점

가장 좋은 점은 발표의 초점이 실무적이라는 것입니다. OpenAI가 내세운 벤치마크와 사례는 단순 질의응답보다 긴 작업 흐름에 맞춰져 있습니다.

Codex 400K context window도 실용적입니다. 대형 코드베이스에서 주변 맥락을 더 많이 볼 수 있다는 건 단순 편의가 아니라 작업 실패율과도 연결됩니다.

안전 이슈를 발표 주변부로 밀어두지 않은 점도 중요합니다. Preparedness Framework상 High 취급, system card, Bio Bug Bounty가 같이 나왔다는 건 성능 향상과 위험 관리가 같은 제품 이야기 안에 들어왔다는 의미입니다.

아쉬운 점

첫째, 벤치마크는 OpenAI 발표 기준입니다. 실제 체감은 사용 환경, 프롬프트, 도구 권한, 검증 루프에 따라 달라질 수 있습니다.

둘째, 가격은 높은 편입니다. GPT-5.5가 더 token efficient하다는 설명이 있지만, 긴 작업을 많이 맡기는 팀은 총비용을 별도로 계산해야 합니다.

셋째, Bio Bug Bounty는 초대 및 신청 기반이고 NDA가 적용됩니다. 프로그램 운영 결과가 공개될지, 공개된다면 어느 수준까지 공개될지는 아직 확인이 필요합니다.

내 생각

GPT-5.5 발표에서 제일 눈에 들어온 건 모델 이름보다 워크플로입니다. OpenAI는 이제 모델이 답을 잘하는지보다, 일을 얼마나 오래 붙잡고 갈 수 있는지를 더 강하게 말하고 있습니다.

Codex의 400K context window, agentic coding 벤치마크, computer use 지표, API 가격, Bio Bug Bounty가 모두 같은 방향을 가리킵니다. 모델은 더 많은 일을 처리하려 하고, 그만큼 비용과 안전장치도 더 중요한 변수가 됩니다.

결국 GPT-5.5의 관전 포인트는 세 가지입니다. 얼마나 큰 작업을 맡길 수 있는지, 그 작업을 얼마나 빠르고 비용 효율적으로 처리하는지, 그리고 위험한 능력을 어떤 접근 제어와 안전장치 안에서 제공하는지입니다.

요약 카드 이미지

GPT-5.5 summary card

결론

GPT-5.5는 OpenAI가 agentic workflow를 더 전면에 내세운 모델입니다. ChatGPT에서는 복잡한 지식 업무와 리서치, Codex에서는 긴 코드 작업과 검증 루프, API에서는 전문 업무용 고성능 모델이라는 방향이 이어집니다.

하지만 이번 발표의 또 다른 핵심은 안전입니다. OpenAI는 GPT-5.5의 biological/chemical 및 cybersecurity capabilities를 High로 취급하고, Bio Bug Bounty와 system card를 통해 안전장치 검증을 강조했습니다.

GPT-5.5는 더 강한 모델이기도 하지만, 동시에 더 강한 운영 규칙이 필요한 모델에 가깝습니다.

한 줄 평

OpenAI GPT-5.5는 코딩과 지식 업무를 더 길게 처리하는 agentic workflow 모델이고, Bio Bug Bounty는 그 능력 상승에 맞춘 안전 검증 신호입니다.

참고 출처