OpenAI가 2026년 5월 7일 Realtime API용 새 음성 모델 3종을 공개했다. GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper다. 핵심은 음성 AI가 단순히 말소리를 텍스트로 바꾸고 다시 읽어주는 기능을 넘어, 실시간으로 추론하고 도구를 호출하고 번역과 전사를 처리하는 API 레이어로 올라가고 있다는 점이다.
며칠 전 OpenAI가 공개한 WebRTC relay 구조가 "음성 AI를 낮은 지연 시간으로 안정적으로 전달하는 인프라"에 가까웠다면, 이번 발표는 그 위에서 돌아가는 모델 라인업 업데이트다. 즉 이번 후보는 기존 WebRTC 인프라 글과 중복이 아니라, Realtime API 제품 자체의 새 모델 발표로 보는 것이 맞다.
한눈에 보기
- 발표 내용: OpenAI가 Realtime API용 오디오 모델 3종을 공개했다.
- 모델 구성: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper.
- 핵심 변화: 음성 대화 안에서 reasoning, tool call, correction, interruption 대응을 더 직접적으로 지원한다.
- 가격: GPT-Realtime-2는 audio input 100만 토큰당 32달러, audio output 100만 토큰당 64달러다. Translate는 분당 0.034달러, Whisper는 분당 0.017달러다.
- 한 줄 결론: 음성 AI는 "말하는 챗봇"에서 "말로 일하는 실시간 에이전트" 쪽으로 이동하고 있다.

새 모델 3종
첫 번째는 GPT-Realtime-2다. OpenAI는 이를 GPT-5-class reasoning을 갖춘 첫 음성 모델로 설명한다. live voice interaction에서 사용자의 요청을 이해하고, 대화를 이어가며, 도구를 호출하고, 사용자의 정정이나 끼어들기에 대응하도록 설계됐다는 설명이다.
두 번째는 GPT-Realtime-Translate다. 70개 이상 입력 언어의 음성을 13개 출력 언어로 실시간 번역하는 모델이다. 단순 번역 텍스트를 뒤늦게 보여주는 것이 아니라, 말하는 속도에 맞춰 대화 흐름을 유지하는 것이 목표다.
세 번째는 GPT-Realtime-Whisper다. 사용자가 말하는 동안 음성을 실시간으로 텍스트화하는 streaming speech-to-text 모델이다. 회의 자막, 실시간 노트, 고객지원 후속 처리처럼 음성이 발생하는 순간부터 워크플로에 쓰이도록 하는 쪽에 가깝다.
GPT-Realtime-2의 변화
OpenAI가 강조한 GPT-Realtime-2의 핵심은 음성 대화 안에서 reasoning과 action을 함께 처리한다는 점이다. 모델은 요청을 처리하기 전 짧은 preamble을 말할 수 있고, 여러 도구를 병렬 호출할 수 있으며, 도구를 쓰는 상황을 음성으로 사용자에게 드러낼 수 있다.
이 변화는 고객지원, 예약, 검색, 업무 자동화 같은 시나리오에서 중요하다. 지금까지 많은 음성 AI는 잠깐 멈춘 뒤 결과만 읽어주는 느낌이 강했다. 도구 호출이 길어지거나 오류가 나면 대화 흐름도 쉽게 깨졌다. GPT-Realtime-2는 이 부분을 더 대화형으로 만들려는 모델이다.
context window가 32K에서 128K로 늘어난 점도 중요하다. 긴 상담, 복잡한 업무 안내, 여러 단계의 task flow에서는 이전 대화와 도구 호출 결과를 유지하는 능력이 품질을 좌우한다. OpenAI는 domain terminology retention, recovery behavior, tone and delivery control도 개선됐다고 설명했다.

실시간 번역과 전사
GPT-Realtime-Translate는 live multilingual voice experience를 겨냥한다. OpenAI는 70개 이상 입력 언어와 13개 출력 언어를 지원한다고 밝혔다. 고객지원, 국제 행사, 교육, 미디어, creator platform처럼 언어 장벽이 대화 흐름을 끊는 분야가 먼저 타깃이 될 수 있다.
GPT-Realtime-Whisper는 low-latency transcription을 담당한다. 회의나 강의처럼 말이 계속 이어지는 상황에서 자막과 노트가 뒤늦게 생성되면 업무 흐름에 들어가기 어렵다. streaming transcription은 말하는 동안 바로 텍스트가 생기기 때문에 후속 요약, 검색, CRM 기록, 고객지원 티켓 생성 같은 작업과 연결하기 쉽다.
이 두 모델은 GPT-Realtime-2와 역할이 다르다. 하나의 거대한 음성 모델로 모든 것을 처리하기보다, 대화형 추론, 실시간 번역, 실시간 전사를 각각 API 모델로 나눈 구조다.
개발자가 봐야 할 포인트
개발자에게는 선택지가 명확해졌다.
- 대화형 음성 에이전트: GPT-Realtime-2
- 실시간 통역과 multilingual support: GPT-Realtime-Translate
- live caption, meeting notes, voice workflow input: GPT-Realtime-Whisper
가격도 제품 설계에 직접 영향을 준다. GPT-Realtime-2는 audio input 100만 토큰당 32달러, cached input token은 0.40달러, audio output 100만 토큰당 64달러다. Translate는 분당 0.034달러, Whisper는 분당 0.017달러다.
즉 음성 제품은 모델 품질만으로 판단하기 어렵다. 지연 시간, audio token 사용량, 캐시 효과, 도구 호출 빈도, 음성 출력 길이, fallback 전략까지 같이 계산해야 한다.

안전과 고지 의무
OpenAI는 Realtime API에 active classifiers를 사용하고, 개발자가 Agents SDK 등으로 guardrails를 추가할 수 있다고 설명했다. 또 맥락상 명확하지 않은 경우, 최종 사용자에게 AI와 상호작용하고 있다는 점을 분명히 알려야 한다고 밝혔다.
이 부분은 제품팀에게 부담이자 필수 요건이다. 음성 AI는 텍스트 챗봇보다 사람처럼 느껴질 수 있고, 사용자는 상대가 실제 사람인지 AI인지 혼동할 수 있다. 고객센터, 의료, 금융, 교육처럼 민감한 영역에서는 고지, 녹취, 보관, 삭제, 인증, escalation flow를 초기에 설계해야 한다.
기존 WebRTC 글과 다른 점
이번 글은 OpenAI의 새 음성 모델 발표다. 반면 2026년 5월 5일에 다룬 How OpenAI delivers low-latency voice AI at scale은 WebRTC relay와 transceiver 구조를 설명한 인프라 글이었다.
둘은 같은 음성 AI 흐름에 있지만 초점이 다르다.
- WebRTC 글: 실시간 음성을 낮은 지연 시간과 안정적인 네트워크 경로로 전달하는 방법.
- 이번 글: 그 실시간 음성 인터페이스에서 추론, 번역, 전사를 담당하는 새 API 모델.
음성 AI 제품을 만들 때는 둘 다 필요하다. 좋은 모델만 있어도 media path가 흔들리면 품질이 나쁘고, 좋은 미디어 인프라가 있어도 모델이 대화 흐름과 도구 호출을 못 다루면 제품이 얕아진다.
결론
OpenAI의 새 Realtime 모델 3종은 음성 AI가 단순 STT/TTS 보조 기능에서 실시간 업무 인터페이스로 이동하고 있음을 보여준다. GPT-Realtime-2는 대화 중 reasoning과 tool use를 담당하고, GPT-Realtime-Translate는 언어 장벽을 줄이며, GPT-Realtime-Whisper는 음성이 발생하는 순간부터 텍스트 워크플로를 시작하게 만든다.
다만 실제 승부는 데모가 아니라 운영에서 갈릴 것이다. latency, 비용, 오인식, 잘못된 도구 호출, AI 고지, 안전장치, 민감한 음성 데이터 처리까지 모두 제품 품질의 일부가 된다.
한 줄 평: "GPT-Realtime-2는 음성 AI를 말하는 챗봇에서 말로 일하는 에이전트로 밀어붙인 발표다."