OpenAI đã bổ sung ba mô hình giọng nói mới vào Realtime API, phục vụ các tác vụ hội thoại, dịch trực tiếp và phiên âm theo thời gian thực.
Theo TechCrunch ngày 8/5/2026 (giờ địa phương), bộ mô hình mới gồm GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper.
Trong đó, GPT-Realtime-2 là mô hình hội thoại thời gian thực. OpenAI cho biết phiên bản này, khác với GPT-Realtime-1.5, được nâng lên mức năng lực suy luận ở cấp GPT-5 và có thể xử lý tốt hơn các yêu cầu phức tạp từ người dùng.
Mô hình thứ hai, GPT-Realtime-Translate, hỗ trợ dịch trực tiếp theo tốc độ hội thoại. Mô hình này có thể tiếp nhận đầu vào bằng hơn 70 ngôn ngữ và xuất ra bản dịch bằng 13 ngôn ngữ.
Mô hình còn lại là GPT-Realtime-Whisper, cho phép chuyển giọng nói thành văn bản theo thời gian thực trong suốt cuộc đối thoại.
OpenAI cho biết loạt mô hình mới được phát triển để mở rộng khả năng của âm thanh thời gian thực, vượt ra ngoài các tác vụ hỏi đáp đơn giản, hướng tới giao diện giọng nói có thể nghe, suy luận, dịch, phiên âm và phản hồi ngay trong lúc cuộc trò chuyện diễn ra.
Các lĩnh vực ứng dụng chính gồm dịch vụ khách hàng, giáo dục, truyền thông, sự kiện và các nền tảng dành cho nhà sáng tạo. OpenAI cũng cho biết đã tích hợp các biện pháp kiểm soát nhằm hạn chế hành vi lạm dụng như spam và lừa đảo, đồng thời có cơ chế tự động ngắt hội thoại nếu phát hiện nội dung vi phạm chính sách an toàn.
Cả ba mô hình hiện đều có thể sử dụng thông qua OpenAI Realtime API. Trong đó, GPT-Realtime-Translate và GPT-Realtime-Whisper được tính phí theo phút, còn GPT-Realtime-2 tính phí theo số token sử dụng.