Meta y Google apuestan por los asistentes de voz con IA. ¿Despegarán?

Un par de gafas de Meta toma una foto cuando dices: «Oye, Meta, toma una foto». Una computadora en miniatura que se engancha a tu camisa, el Ai Pin, traduce idiomas extranjeros a tu lengua materna. Una pantalla con inteligencia artificial presenta un asistente virtual con el que hablas a través de un micrófono.

El año pasado, OpenAI actualizó su chatbot ChatGPT para responder con palabras habladas y, recientemente, Google presentó Gemini, un reemplazo de su asistente de voz en teléfonos Android.

Las empresas de tecnología están apostando por un renacimiento de los asistentes de voz, muchos años después de que la mayoría de la gente decidiera que hablar con las computadoras no era bueno.

¿Funcionará esta vez? Quizás, pero puede que tarde un poco.

Grandes sectores de personas todavía nunca han utilizado asistentes de voz como Alexa de Amazon, Siri de Apple y el Asistente de Google, y la gran mayoría de los que sí lo hacen dijeron que nunca quisieron que los vieran hablando con ellos en público, según estudios realizados en la última década. .

También rara vez uso asistentes de voz, y en mi reciente experimento con las gafas de Meta, que incluyen una cámara y parlantes para proporcionar información sobre el entorno, llegué a la conclusión de que hablar con una computadora frente a los padres y sus hijos en el zoológico todavía era increíblemente extraño.

Me preguntaba si esto alguna vez se sentiría normal. No hace mucho, hablar por teléfono con auriculares Bluetooth hacía que la gente pareciera rara, pero ahora todo el mundo lo hace. ¿Veremos algún día tanta gente caminando y hablando por ordenador como en las películas de ciencia ficción?

Planteé esta pregunta a investigadores y expertos en diseño, y el consenso fue claro: a medida que los nuevos sistemas de inteligencia artificial mejoran la capacidad de los asistentes de voz para comprender lo que decimos y realmente ayudarnos, es probable que hablemos con más frecuencia con dispositivos cercanos. . futuro, pero aún nos quedan muchos años antes de que lo hagamos en público.

Esto es lo que debe saber.

Los nuevos asistentes de voz funcionan con inteligencia artificial generativa, que utiliza estadísticas y algoritmos complejos para adivinar qué palabras van juntas, similar a la función de autocompletar del teléfono. Esto los hace más capaces de utilizar el contexto para comprender solicitudes y preguntas de seguimiento que los asistentes virtuales como Siri y Alexa, que solo podían responder una lista finita de preguntas.

Por ejemplo, si le dice a ChatGPT: «¿Cuáles son algunos vuelos de San Francisco a Nueva York la próxima semana?» – y continúe con «¿Cómo está el clima allí?» y «¿Qué debo empacar?» – el chatbot puede responder estas preguntas porque crea conexiones entre palabras para comprender el contexto de la conversación. (El año pasado, el New York Times demandó a OpenAI y su socio Microsoft por utilizar artículos de noticias protegidos por derechos de autor sin permiso para entrenar chatbots).

Un asistente de voz más antiguo como Siri, que reacciona a una base de datos de comandos y preguntas para cuya comprensión ha sido programado, fallaría a menos que se usaran palabras específicas, como «¿Cómo está el clima en Nueva York?» y «¿Qué debo empacar para un viaje a Nueva York?»

La primera conversación parece más fluida, como la forma en que las personas se hablan entre sí.

Una de las principales razones por las que la gente abandonó los asistentes de voz como Siri y Alexa fue que las computadoras no podían entender gran parte de lo que les preguntaban y era difícil determinar qué preguntas funcionaban.

Dimitra Vergyri, directora de tecnología de voz en SRI, el laboratorio de investigación detrás de la versión inicial de Siri antes de que fuera adquirida por Apple, dijo que la IA generativa aborda muchos de los problemas con los que los investigadores han luchado durante años. La tecnología hace que los asistentes de voz sean capaces de comprender el habla espontánea y responder con respuestas útiles, afirmó.

John Burkey, un ex ingeniero de Apple que trabajó en Siri en 2014 y ha sido un crítico abierto del asistente, dijo que cree que debido a que la IA generativa ha hecho que sea más fácil para las personas obtener ayuda de las computadoras, es probable que muchos de nosotros hablemos a ellos. asistentes pronto, y que cuando muchos de nosotros comencemos a hacerlo, podría convertirse en la norma.

«Siri tenía un tamaño limitado: sólo conocía una cierta cantidad de palabras», dijo. «Ahora tienes mejores herramientas».

Pero podrían pasar años antes de que la nueva ola de asistentes de IA sea ampliamente adoptada porque introducen nuevos problemas. Los chatbots, incluidos ChatGPT, Gemini de Google y Meta AI, son propensos a sufrir «alucinaciones», que es cuando inventan cosas porque no pueden encontrar las respuestas correctas. Cometieron errores en tareas básicas como contar y resumir información de la web.

Incluso si la tecnología de voz mejora, es poco probable que hablar reemplace o reemplace las interacciones tradicionales de la computadora con un teclado, dicen los expertos.

Actualmente, las personas tienen buenas razones para hablar con las computadoras en algunas situaciones en las que están solas, como establecer un destino en el mapa mientras conducen un automóvil. En público, sin embargo, hablar con un asistente no sólo puede hacerte parecer extraño, sino que la mayoría de las veces resulta poco práctico. Cuando usé lentes Meta en una tienda de comestibles y les pedí que identificaran un producto, un comprador que escuchaba a escondidas respondió descaradamente: «Eso es un nabo».

Tampoco querrás dictar un correo electrónico de trabajo confidencial a otras personas en un tren. Asimismo, sería imprudente pedirle a un asistente de voz que lea mensajes de texto en voz alta en una cafetería.

“La tecnología resuelve un problema”, dijo Ted Selker, un veterano en diseño de productos que trabajó en IBM y Xerox PARC. “¿Cuándo solucionamos los problemas y cuándo los creamos?”

Sin embargo, es fácil imaginar momentos en los que hablar con una computadora te ayuda tanto que no te importa lo extraño que pueda parecerles a los demás, dijo Carolina Milanesi, analista de Creative Strategies, una firma de investigación.

Mientras camina hacia su próxima reunión en la oficina, sería útil pedirle a un asistente de voz que le informe sobre las personas que está a punto de conocer. Mientras camina por un sendero, preguntarle a un asistente de voz dónde girar sería más rápido que detenerse para ver un mapa. Mientras visitas un museo, sería bueno que un asistente de voz pudiera darte una lección de historia sobre la pintura que estás mirando. Algunas de estas aplicaciones ya se están desarrollando con nueva tecnología de IA.

Mientras probaba algunos de los últimos productos controlados por voz, vislumbré ese futuro. Por ejemplo, cuando estaba grabando un vídeo horneando una barra de pan y usando las gafas Meta, fue útil poder decir: «Oye, Meta, graba un vídeo», porque tenía las manos ocupadas. Y pedirle a Ai Pin de Humane que dictara mi lista de tareas pendientes fue más conveniente que detenerme a mirar la pantalla de mi teléfono.

«A medida que avanzas, ese es el punto ideal», dijo Chris Schmandt, quien ha trabajado en interfaces de voz durante décadas en el Laboratorio de Medios del Instituto Tecnológico de Massachusetts.

Cuando fue uno de los primeros en adoptar uno de los primeros teléfonos móviles hace unos 35 años, la gente lo miraba fijamente mientras deambulaba por el campus del MIT hablando por teléfono. Ahora esto es normal.

Estoy convencido de que llegará el día en que la gente hablará ocasionalmente con los ordenadores cuando estén fuera de casa, pero esto sucederá muy lentamente.