OpenAI vừa công bố loạt tính năng trí tuệ nhân tạo (AI) giọng nói mới dành cho giao diện lập trình ứng dụng (API), cho phép các nhà phát triển xây dựng những ứng dụng có khả năng trò chuyện, phiên âm và dịch hội thoại theo thời gian thực với mức độ tự nhiên cao hơn đáng kể.
Theo thông báo mới của công ty công nghệ có trụ sở tại San Francisco (Mỹ), điểm nhấn đáng chú ý nhất là mô hình GPT Realtime 2 — thế hệ AI giọng nói mới được xây dựng trên nền tảng suy luận cấp GPT-5.

Biểu tượng của Hãng OpenAI. Ảnh: REUTERS/TTXVN
Không giống phiên bản tiền nhiệm GPT-Realtime-1.5 vốn chủ yếu phục vụ các cuộc hội thoại đơn giản, GPT Realtime 2 được thiết kế để xử lý các yêu cầu phức tạp hơn, đồng thời tạo ra khả năng mô phỏng giọng nói tự nhiên và linh hoạt hơn trong giao tiếp với người dùng.
Bên cạnh đó, OpenAI cũng giới thiệu GPT Realtime Translate — công cụ dịch hội thoại trực tiếp theo thời gian thực. Hệ thống này hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra, cho phép AI theo kịp tốc độ trò chuyện tự nhiên giữa nhiều người dùng khác ngôn ngữ.
Một tính năng khác là GPT-Realtime-Whisper, công nghệ chuyển giọng nói thành văn bản theo thời gian thực. OpenAI cho biết hệ thống có thể ghi nhận và xử lý lời nói ngay khi cuộc trò chuyện đang diễn ra, mở ra khả năng ứng dụng trong chăm sóc khách hàng, trợ lý ảo, dịch vụ y tế, giáo dục trực tuyến và các nền tảng giao tiếp đa ngôn ngữ.
OpenAI nhấn mạnh các mô hình mới đang đưa AI âm thanh “từ kiểu hỏi–đáp đơn giản sang các giao diện giọng nói thực sự có thể làm việc”, bao gồm nghe, suy luận, dịch thuật, phiên âm và thực hiện hành động ngay trong quá trình hội thoại.