OpenAI lanza tres nuevos modelos de IA que procesan voz en tiempo real
Los modelos GPT-Realtime pueden razonar, traducir y transcribir mientras las personas hablan, ya disponibles para desarrolladores.
OpenAI presentó tres nuevos modelos de inteligencia artificial especializados en procesamiento de voz en tiempo real: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, todos disponibles a través de su API para desarrolladores.
GPT-Realtime-2 es el más avanzado del grupo, con capacidades de razonamiento equivalentes a GPT-5. Puede manejar conversaciones complejas manteniendo el contexto, gestionar interrupciones y ajustar su tono según la situación. Una característica destacada es su uso de frases de transición como "déjame verificar eso" para evitar silencios incómodos, y puede ejecutar múltiples herramientas simultáneamente mientras las anuncia en voz alta. Cuenta con una ventana de contexto de 128,000 tokens y cinco niveles configurables de razonamiento.
GPT-Realtime-Translate se enfoca en traducción simultánea, admitiendo más de 70 idiomas de entrada y traduciendo a 13 idiomas de salida en tiempo real. OpenAI destaca su utilidad para atención al cliente, educación y eventos en vivo. Deutsche Telekom ya está probando este modelo para permitir que sus clientes se comuniquen en su idioma preferido.
GPT-Realtime-Whisper convierte audio en texto mientras la persona habla, ideal para subtitulado en vivo y generación de notas durante conversaciones. Reduce significativamente la latencia típica de los sistemas de transcripción tradicionales.
Los precios varían según el modelo: GPT-Realtime-2 cuesta $32 por millón de tokens de entrada y $64 por salida, mientras que los modelos de traducción y transcripción se cobran por minuto ($0.034 y $0.017 respectivamente).
Para América Latina, estos desarrollos representan oportunidades significativas en sectores como educación bilingüe, atención al cliente multiidioma y accesibilidad digital, especialmente considerando la diversidad lingüística de la región y la creciente digitalización de servicios públicos y privados.
Fuente original: Hipertextual
Este resumen fue generado con asistencia de IA y revisado editorialmente por Algoré.