Safety y RiesgosNoticia

OpenAI lanza tres nuevos modelos de IA que procesan voz en tiempo real

Los modelos GPT-Realtime pueden razonar, traducir y transcribir mientras las personas hablan, ya disponibles para desarrolladores.

Hipertextual8 de mayo de 20263 min de lectura· Generado con IA

OpenAI presentó tres nuevos modelos de inteligencia artificial especializados en procesamiento de voz en tiempo real: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, todos disponibles a través de su API para desarrolladores.

GPT-Realtime-2 es el más avanzado del grupo, con capacidades de razonamiento equivalentes a GPT-5. Puede manejar conversaciones complejas manteniendo el contexto, gestionar interrupciones y ajustar su tono según la situación. Una característica destacada es su uso de frases de transición como "déjame verificar eso" para evitar silencios incómodos, y puede ejecutar múltiples herramientas simultáneamente mientras las anuncia en voz alta. Cuenta con una ventana de contexto de 128,000 tokens y cinco niveles configurables de razonamiento.

GPT-Realtime-Translate se enfoca en traducción simultánea, admitiendo más de 70 idiomas de entrada y traduciendo a 13 idiomas de salida en tiempo real. OpenAI destaca su utilidad para atención al cliente, educación y eventos en vivo. Deutsche Telekom ya está probando este modelo para permitir que sus clientes se comuniquen en su idioma preferido.

GPT-Realtime-Whisper convierte audio en texto mientras la persona habla, ideal para subtitulado en vivo y generación de notas durante conversaciones. Reduce significativamente la latencia típica de los sistemas de transcripción tradicionales.

Los precios varían según el modelo: GPT-Realtime-2 cuesta $32 por millón de tokens de entrada y $64 por salida, mientras que los modelos de traducción y transcripción se cobran por minuto ($0.034 y $0.017 respectivamente).

Para América Latina, estos desarrollos representan oportunidades significativas en sectores como educación bilingüe, atención al cliente multiidioma y accesibilidad digital, especialmente considerando la diversidad lingüística de la región y la creciente digitalización de servicios públicos y privados.

Fuente original: Hipertextual

Este resumen fue generado con asistencia de IA y revisado editorialmente por Algoré.

OpenAI lanza tres nuevos modelos de IA que procesan voz en tiempo real

También en Safety y Riesgos