Meta, Google y otros están impulsando un renacimiento de los asistentes de voz, pero la gente considera que la tecnología no es atractiva desde hace más de una década.

Derek Abella

Brian X. Chen / The New York Times

Brian X. Chen es el redactor principal de tecnología de consumo del Times y autor de Tech Fix , una columna sobre las implicaciones sociales de la tecnología que utilizamos.

Un par de anteojos de Meta toman una fotografía cuando dices: “Oye, Meta, toma una foto”. Una computadora en miniatura que se engancha a tu camisa, la Ai Pin , traduce idiomas extranjeros a tu lengua materna. Una pantalla con inteligencia artificial presenta un asistente virtual con el que hablas a través de un micrófono .

El año pasado, OpenAI actualizó su chatbot ChatGPT para responder con palabras habladas y, recientemente, Google presentó Gemini , un reemplazo de su asistente de voz en teléfonos Android.

Las empresas de tecnología están apostando por un renacimiento de los asistentes de voz, muchos años después de que la mayoría de la gente decidiera que hablar con las computadoras no estaba bien.

¿Funcionará esta vez? Tal vez, pero podría llevar un tiempo.

Grandes sectores de personas todavía nunca han utilizado asistentes de voz como Alexa de Amazon, Siri de Apple y el Asistente de Google, y la abrumadora mayoría de los que sí lo hacen dijeron que nunca quisieron que los vieran hablando con ellos en público, según estudios realizados en la última década.

Yo también rara vez uso asistentes de voz, y en mi reciente experimento con las gafas de Meta , que incluyen una cámara y parlantes para proporcionar información sobre el entorno, llegué a la conclusión de que hablar con una computadora frente a padres y sus hijos en un zoológico todavía era asombrosamente incómodo.

Me hizo preguntarme si esto alguna vez se sentiría normal. No hace mucho, hablar por teléfono con auriculares Bluetooth hacía que la gente pareciera chiflada, pero ahora todo el mundo lo hace. ¿Veremos algún día a mucha gente caminando y hablando con sus computadoras como en las películas de ciencia ficción?

Planteé esta pregunta a investigadores y expertos en diseño, y el consenso fue claro: debido a que los nuevos sistemas de inteligencia artificial mejoran la capacidad de los asistentes de voz para comprender lo que decimos y realmente nos ayudan, es probable que hablemos con dispositivos con más frecuencia en los próximos años. futuro, pero aún faltan muchos años para que esto se haga en público.

Esto es lo que debe saber.

Los nuevos asistentes de voz funcionan con inteligencia artificial generativa, que utiliza estadísticas y algoritmos complejos para adivinar qué palabras van juntas, similar a la función de autocompletar de su teléfono. Eso los hace más capaces de utilizar el contexto para comprender solicitudes y preguntas de seguimiento que los asistentes virtuales como Siri y Alexa, que sólo pueden responder a una lista finita de preguntas.

Por ejemplo, si le dice a ChatGPT: “¿Cuáles son algunos vuelos de San Francisco a Nueva York la próxima semana?” – y continúe con “¿Qué tiempo hace allí?” y “¿Qué debo empacar?” – el chatbot puede responder esas preguntas porque hace conexiones entre palabras para comprender el contexto de la conversación. (El New York Times demandó a OpenAI y su socio, Microsoft , el año pasado por utilizar artículos de noticias protegidos por derechos de autor sin permiso para entrenar chatbots).

Un asistente de voz más antiguo como Siri, que reacciona a una base de datos de comandos y preguntas para cuya comprensión fue programado, fallaría a menos que se usaran palabras específicas, como “¿Qué tiempo hace en Nueva York?” y “¿Qué debo empacar para un viaje a Nueva York?”

La primera conversación suena más fluida, como la forma en que las personas se hablan entre sí.

Una de las principales razones por las que la gente abandonó los asistentes de voz como Siri y Alexa fue que las computadoras no podían entender gran parte de lo que les preguntaban y era difícil saber qué preguntas funcionaban.

Dimitra Vergyri, directora de tecnología del habla en SRI, el laboratorio de investigación detrás de la versión inicial de Siri antes de que fuera adquirida por Apple, dijo que la IA generativa aborda muchos de los problemas con los que los investigadores habían luchado durante años. La tecnología hace que los asistentes de voz sean capaces de comprender el habla espontánea y responder con respuestas útiles, afirmó.

John Burkey, un ex ingeniero de Apple que trabajó en Siri en 2014 y ha sido un crítico abierto del asistente, dijo que creía que debido a que la IA generativa hacía que fuera más fácil para las personas obtener ayuda de las computadoras, era probable que más de nosotros estuviéramos hablando con asistentes pronto, y que cuando muchos de nosotros comencemos a hacerlo, eso podría convertirse en la norma.

“Siri tenía un tamaño limitado: sólo conocía un número limitado de palabras”, dijo. “Ahora tienes mejores herramientas”.

Pero podrían pasar años antes de que la nueva ola de asistentes de IA sea ampliamente adoptada porque introducen nuevos problemas. Los chatbots, incluidos ChatGPT, Gemini de Google y Meta AI, son propensos a sufrir “alucinaciones”, que es cuando inventan cosas porque no pueden encontrar las respuestas correctas. Han cometido errores en tareas básicas como contar y resumir información de la web.

Incluso a medida que la tecnología del habla mejora, es poco probable que hablar reemplace o supere las interacciones tradicionales de la computadora con un teclado, dicen los expertos.

Actualmente, las personas tienen razones de peso para hablar con las computadoras en algunas situaciones cuando están solas, como establecer un destino en el mapa mientras conducen un automóvil. En público, sin embargo, hablar con un asistente no sólo puede hacerte lucir raro, sino que la mayoría de las veces no es práctico. Cuando estaba usando los lentes Meta en una tienda de comestibles y les pedí que identificaran un producto, un comprador que escuchaba a escondidas respondió descaradamente: “Eso es un nabo”.

Tampoco querrás dictar un correo electrónico de trabajo confidencial a otras personas en un tren. Asimismo, sería desconsiderado pedirle a un asistente de voz que lea mensajes de texto en voz alta en un bar.

“La tecnología resuelve un problema”, dijo Ted Selker, un veterano en diseño de productos que trabajó en IBM y Xerox PARC. “¿Cuándo estamos resolviendo problemas y cuándo estamos creando problemas?”

Sin embargo, es sencillo encontrar ocasiones en las que hablar con una computadora te ayuda tanto que no te importa lo extraño que les parezca a los demás, dijo Carolina Milanesi, analista de Creative Strategies, una firma de investigación.

Mientras camina hacia su próxima reunión en la oficina, sería útil pedirle a un asistente de voz que le informe sobre las personas que estaba a punto de conocer. Mientras camina por un sendero, preguntarle a un asistente de voz dónde girar sería más rápido que detenerse para abrir un mapa. Mientras visita un museo, sería genial si un asistente de voz pudiera darle una lección de historia sobre la pintura que está mirando. Algunas de estas aplicaciones ya se están desarrollando con nueva tecnología de IA.

Cuando estaba probando algunos de los últimos productos controlados por voz, vislumbré ese futuro. Mientras grababa un vídeo mío haciendo una barra de pan y usando las gafas Meta, por ejemplo, fue útil poder decir: “Oye, Meta, graba un vídeo”, porque tenía las manos ocupadas. Y pedirle a Ai Pin de Humane que dictara mi lista de tareas pendientes fue más conveniente que detenerme a mirar la pantalla de mi teléfono.

“Mientras estás caminando, ese es el punto ideal”, dijo Chris Schmandt, quien trabajó en interfaces de voz durante décadas en el Laboratorio de Medios del Instituto Tecnológico de Massachusetts.

Cuando se convirtió en uno de los primeros en adoptar uno de los primeros teléfonos móviles hace unos 35 años, cuenta, la gente lo miraba fijamente mientras deambulaba por el campus del MIT hablando por teléfono. Ahora esto es normal.

Estoy convencido de que llegará el día en que la gente ocasionalmente hable con las computadoras cuando esté fuera de casa, pero llegará muy lentamente.

Brian X. Chen es el redactor principal de tecnología de consumo de The Times. Revisa productos y escribe Tech Fix , una columna sobre las implicaciones sociales de la tecnología que utilizamos.

Fuente: https://www.nytimes.com/2024/05/01/technology/personaltech/ai-voice-assistants.html

Deja una respuesta

Tu dirección de correo electrónico no será publicada.