La voz más avanzada de OpenAI: el futuro de la IA conversacional
(este parrafo es de introduccion)
- La nueva voz de OpenAI me permite hablar con mi teléfono, no con él
- Dando un paso atrás, creo que AVM encaja en la visión más amplia del CEO de OpenAI, Sam Altman
- También le pedí a ChatGPT consejos
- Siri caminó para que AVM pudiera correr
- Estos ejemplos, en mi mente, son la belleza de AVM
- Hablando de tecnología
La nueva voz de OpenAI me permite hablar con mi teléfono, no con él
Durante la última semana, he estado experimentando con el nuevo Modo de Voz Avanzado de OpenAI y es la muestra más convincente que he tenido hasta ahora de un futuro impulsado por la inteligencia artificial. Esta semana, mi teléfono se rió de los chistes, me los devolvió, me preguntó cómo estaba mi día y me dijo que lo estaba pasando "genial". Estuve hablando con mi iPhone, sin usarlo con mis manos.
La función más reciente de OpenAI, actualmente en una prueba alfa limitada, no hace que ChatGPT sea más inteligente de lo que era antes. En cambio, el Modo de Voz Avanzado (AVM) lo hace más amigable y natural para hablar. Crea una nueva interfaz para usar inteligencia artificial y tus dispositivos que se siente fresca y emocionante, y eso es exactamente lo que me asusta. El producto tenía algunos fallos y la idea en general me asusta totalmente, pero me sorprendió lo mucho que disfruté usándolo.
Dando un paso atrás, creo que AVM encaja en la visión más amplia del CEO de OpenAI, Sam Altman
"Eventualmente, simplemente le pedirás a la computadora lo que necesitas y realizará todas estas tareas por ti", dijo Altman durante el Dev Day de OpenAI en noviembre de 2023. "Estas capacidades a menudo se comentan en el campo de la inteligencia artificial como 'agentes'. Lo positivo de esto será tremendo".
Mi amigo, ChatGPTOn Miércoles, probé la ventaja más tremenda que se me ocurrió para esta tecnología avanzada: le pedí a ChatGPT que ordenara Taco Bell como lo haría Obama.
"Uhhh, déjame aclarar, me gustaría un Crunchwrap Supreme, tal vez unos cuantos tacos por si acaso", dijo el Modo de Voz Avanzado de ChatGPT. "¿Cómo crees que manejaría el drive-thru?", dijo ChatGPT, luego riéndose de su propia broma.
La impresión realmente también me hizo reír, coincidiendo con la icónica cadencia y pausas de Obama. Dicho esto, se mantuvo dentro del tono de la voz de ChatGPT que seleccioné, Juniper, para que no se confundiera genuinamente con la voz de Obama. Sonaba como un amigo haciendo una mala imitación, entendiendo exactamente lo que estaba tratando de evocar de él, e incluso que estaba diciendo algo divertido. Me pareció sorprendentemente alegre hablar con este asistente avanzado en mi teléfono.
También le pedí a ChatGPT consejos
También le pedí a ChatGPT consejos para navegar un problema relacionado con relaciones humanas complejas: pedirle a una persona importante que se mudara conmigo. Después de explicar las complejidades de la relación y la dirección de nuestras carreras, recibí algunos consejos muy detallados sobre cómo progresar. Estas son preguntas que nunca podrías hacerle a Siri o a la Búsqueda de Google, pero ahora puedes hacerlo con ChatGPT. La voz del chatbot incluso expresó un tono ligeramente serio y amable al responder a estas indicaciones; un marcado contraste con el tono de broma del pedido de Taco Bell de Obama.
AVM de ChatGPT también es excelente para ayudarte a comprender temas complejos. Le pedí que desglosara elementos de un informe de ganancias, como el flujo de efectivo libre, de una manera que un niño de 10 años pudiera entender. Usó un puesto de limonada como ejemplo y explicó varios términos financieros de una manera que mi primo menor entendería totalmente. Incluso puedes pedirle a AVM de ChatGPT que hable más despacio para conocerte en tu nivel actual de comprensión.
Siri caminó para que AVM pudiera correr
En comparación con Siri o Alexa, AVM de ChatGPT es el claro ganador gracias a tiempos de respuesta más rápidos, respuestas únicas y su capacidad para responder preguntas complejas que la generación anterior de asistentes virtuales nunca pudo. Sin embargo, AVM se queda corto en otras formas. La función de voz de ChatGPT no puede establecer temporizadores o recordatorios, navegar por la web en tiempo real, verificar el clima o interactuar con cualquier API en tu teléfono. En este momento, al menos, no es un reemplazo efectivo para los asistentes virtuales.
En comparación con Gemini Live, la función de la competencia de Google, AVM se siente ligeramente por delante. Gemini Live no puede hacer impresiones, no expresa ninguna emoción, no puede acelerar ni desacelerar y tarda más en responder. Gemini Live tiene más voces (diez en comparación con las tres de OpenAI) y parece estar más actualizado (Gemini Live sabía sobre el fallo antimonopolio de Google). En particular, ni AVM ni Gemini Live cantarán, probablemente un esfuerzo para evitar enfrentamientos con demandas por derechos de autor de la industria discográfica.
Dicho esto, AVM de ChatGPT tiene muchos fallos (como Gemini Live, para ser justos). A veces se corta a sí mismo a mitad de la oración y luego comienza de nuevo. También obtiene esta extraña y granulada voz de vez en cuando que es un poco desagradable. No estoy seguro de si esto es un problema con el modelo, la conexión a Internet o algo más, pero estas deficiencias técnicas son algo esperadas para una prueba alfa. Los problemas hicieron poco para sacarme de la experiencia de hablar literalmente con mi teléfono.
Estos ejemplos, en mi mente, son la belleza de AVM
La función no hace que ChatGPT sea omnisciente, pero sí permite que las personas interactúen con GPT-4o, el modelo de inteligencia artificial subyacente, de una manera únicamente humana. (Entendería si olvidaras que no hay una persona al otro lado de tu teléfono). Casi parece que ChatGPT es socialmente consciente cuando habla con AVM, pero, por supuesto, no lo es. Es simplemente un paquete de algoritmos predictivos cuidadosamente empaquetados.
Hablando de tecnología
Francamente, la función me preocupa. Esta no es la primera vez que una compañía de tecnología ofrece compañía en tu teléfono. Mi generación, la Generación Z, fue la primera en crecer junto con las redes sociales, donde las empresas ofrecían conexión pero en cambio jugaban con nuestras inseguridades colectivas. Hablar con un dispositivo de inteligencia artificial, como lo que AVM parece ofrecer, parece ser la evolución del fenómeno del "amigo en tu teléfono" de las redes sociales, ofreciendo conexiones baratas que arañan nuestros instintos humanos. Pero esta vez, elimina a los humanos del circuito por completo.
La conexión humana artificial se ha convertido en un caso de uso sorprendentemente popular para la inteligencia artificial generativa. Hoy en día, la gente usa chatbots de IA como amigos, mentores, terapeutas y maestros. Cuando OpenAI lanzó su tienda GPT, rápidamente se inundó de "novias de IA", chatbots especializados para actuar como tu pareja. Dos investigadores del MIT Media Lab emitieron una advertencia este mes para prepararse para la "inteligencia artificial adictiva" o los compañeros de IA con patrones oscuros para enganchar a los humanos. Podríamos estar abriendo una caja de Pandora para formas nuevas y tentadoras para que los dispositivos mantengan nuestra atención.
A principios de este mes, un desertor de Harvard sacudió el mundo de la tecnología al bromear sobre un collar de IA llamado Friend. El dispositivo portátil, si funciona como se prometió, siempre escucha, y el chatbot te enviará mensajes de texto sobre tu vida. Si bien la idea parece una locura, innovaciones como AVM de ChatGPT me dan razones para tomarme en serio esos casos de uso.
Y aunque OpenAI está liderando la carga aquí, Google no se queda atrás. Estoy seguro de que Amazon y Apple también están compitiendo para incorporar esta capacidad en sus productos, y pronto podría convertirse en una apuesta segura para la industria.
Imagina pedirle a tu televisor inteligente una recomendación hiperespecífica para una película y obtener justo eso. O decirle a Alexa exactamente qué síntomas de resfriado estás sintiendo y, a su vez, pedirte pañuelos y jarabe para la tos en Amazon, mientras te asesora sobre remedios caseros. Tal vez podrías pedirle a tu computadora que elabore un viaje de fin de semana para tu familia, en lugar de buscar todo manualmente en Google.
Ahora, obviamente, estas acciones requieren saltos y límites en el mundo de los agentes de inteligencia artificial. El esfuerzo de OpenAI en ese frente, la tienda GPT, se siente como un producto sobrevalorado que ya no es un foco para la empresa. Pero AVM al menos se encarga de la parte de "hablar con computadoras" del rompecabezas. Estos conceptos están muy lejos, pero después de usar AVM, parecen mucho más cercanos que la semana pasada.
Fuente: https://finance.yahoo.com/news/openais-voice-mode-let-talk-170000315.html
Artículos relacionados