Alexa se sumerge en la madriguera del conejo conversacional

Alexa se sumerge en la madriguera del conejo conversacional

by

in

En el escenario de re:Mars esta semana, Amazon mostró una característica en desarrollo de Alexa destinada a imitar el flujo del lenguaje natural. La conversación entre dos humanos rara vez sigue una estructura predefinida. Va a lugares extraños e inesperados. Un tema pasa a otro, a medida que los participantes inyectan su experiencia vivida.

En una demostración, una conversación sobre árboles se convierte en una sobre caminatas y parques. En el contexto de la IA de la compañía, el vicepresidente senior y científico principal de Alexa, Rohit Prasad, se refiere al fenómeno como “exploración de conversación”. No es un nombre propio para una característica propia, exactamente. No hay un interruptor que se active para habilitar repentinamente las conversaciones durante la noche. Más bien, es parte de una noción en evolución de cómo Alexa puede interactuar con los usuarios de una manera más humana, o quizás más humana.

Los asistentes inteligentes como Alexa han proporcionado tradicionalmente un modelo de preguntas y respuestas mucho más simple. Pregúntale a Alexa el clima y Alexa te dirá el clima en un área predeterminada. Pregúntele el puntaje de A (o, honestamente, probablemente no lo haga), y Alexa le dirá el puntaje de A. Es una interacción directa, similar a escribir una pregunta en un motor de búsqueda. Pero, de nuevo, las conversaciones del mundo real rara vez se desarrollan de esta manera.

“Hay toda una gama de preguntas que recibe Alexa, que contienen mucha información. Cuando surgen esas preguntas, puede imaginar que no son preguntas puntuales”, dijo Prasad a TechCrunch en una conversación en el evento. “Realmente se trata de algo sobre lo que el cliente quiere aprender más. Lo que está en lo más alto de nuestras mentes en este momento es lo que está sucediendo con la inflación. Recibimos un montón de solicitudes de Alexa como esa, y te brinda ese tipo de experiencia de exploración”.

Tales características de conversación, sin embargo, son la forma en que se prepara un asistente doméstico como Alexa. Ocho años después de su lanzamiento por parte de Amazon, el asistente todavía está aprendiendo: recopila datos y determina las mejores formas de interactuar con los consumidores. Incluso cuando algo llega al punto en que Amazon está listo para mostrarlo en un escenario principal, aún se requieren ajustes.

“Alexa necesita ser un experto en muchos temas”, explicó Prasad. “Ese es el gran cambio de paradigma, y ​​ese tipo de experiencia lleva tiempo lograrlo. Este será un viaje, y con las interacciones de nuestros clientes, no será como si Alexa lo supiera todo desde el primer día. Pero estas preguntas pueden convertirse en más exploraciones en las que terminas haciendo algo que no creías que hacías”.

Ver la palabra “Empatía” en letras grandes y en negrita en el escenario detrás de Prasad me llamó la atención, aunque quizás no tanto como lo que vino después.

Hay algunos escenarios sencillos en los que el concepto de empatía podría o debería tenerse en cuenta durante una conversación con humanos y asistentes inteligentes por igual. Tomemos, por ejemplo, la capacidad de leer señales sociales. Es una habilidad que adquirimos a través de la experiencia: la capacidad de leer el lenguaje a veces sutil de rostros y cuerpos. La inteligencia emocional para Alexa es una noción que Rashad ha estado discutiendo durante años. Eso comienza con cambiar el tono del asistente para responder de una manera que transmita felicidad o decepción.

La otra cara es determinar la emoción de un orador humano, un concepto que la empresa ha estado trabajando para perfeccionar durante varios años. Es un trabajo que se ha manifestado de varias maneras, incluido el debut en 2020 del controvertido dispositivo portátil Halo de la compañía, que ofrece una función llamada Tone que pretendía “analizar la energía y la positividad en la voz de un cliente para que puedan entender cómo suenan para los demás y mejorar su comunicación y relaciones”.

“Creo que tanto la empatía como el afecto son formas bien conocidas de interactuar, en términos de construir relaciones”, dijo Prasad. “Alexa no puede ignorar tu estado emocional. Si entraste y no estás de buen humor, es difícil decir qué debes hacer. Alguien que te conoce bien reaccionará de manera diferente. Es un listón muy alto para la IA, pero es algo que no puedes ignorar”.

El ejecutivo señala que Alexa ya se ha convertido en una especie de compañero para algunos usuarios, particularmente entre los de mayor edad. Un enfoque más conversacional probablemente solo mejoraría ese fenómeno. En las demostraciones de Astro esta semana, la compañía se refirió con frecuencia al robot doméstico como una función casi similar a la de una mascota en el hogar. Tales nociones tienen sus limitaciones, sin embargo.

“No debería ocultar el hecho de que es una IA”, agregó Prasad. “Cuando se trata del punto [where] es indistinguible, de lo cual estamos muy lejos, aún debería ser muy transparente”.

Un video posterior demostró una nueva e impresionante tecnología de síntesis de voz que utiliza tan solo un minuto de audio para crear una aproximación convincente de una persona hablando. En él, la voz de una abuela lee a su nieto “El mago de Oz”. La idea de conmemorar a los seres queridos a través del aprendizaje automático no es del todo nueva. Empresas como MyHeritage están utilizando tecnología para animar imágenes de familiares fallecidos, por ejemplo. Pero estos escenarios invariablemente, y comprensiblemente, generan algunos problemas.

Prasad se apresuró a señalar que la demostración era más una prueba de concepto, destacando las tecnologías de voz subyacentes.

“Se trataba más de la tecnología”, explicó. “Somos una empresa científica muy obsesionada con el cliente. Queremos que nuestra ciencia signifique algo para los clientes. A diferencia de muchas cosas en las que la generación y la síntesis se han utilizado sin las puertas correctas, esto parece que a los clientes les encantaría. Tenemos que darles el conjunto correcto de controles, incluyendo de quién es la voz”.

Con eso en mente, no hay una línea de tiempo para tal función, si es que, de hecho, tal función existirá alguna vez en Alexa. Sin embargo, el ejecutivo señala que la tecnología que lo impulsaría está en funcionamiento en los laboratorios de Amazon. Aunque, de nuevo, si llega, requeriría algo de la transparencia antes mencionada.

“A diferencia de los deepfakes, si eres transparente acerca de para qué se está utilizando, hay un tomador de decisiones claro y el cliente tiene el control de sus datos y para qué quiere que se utilicen, creo que este es el conjunto correcto de pasos. ”, explicó Prasad. “No se trataba de la ‘abuela muerta’. La abuela está viva en este, solo para ser muy claro al respecto”.

Cuando se le preguntó cómo se vería Alexa dentro de 10 a 15 años en el futuro, Prasad explica que se trata de elegir, aunque no tanto de dotar a Alexa de personalidades individuales y únicas como de ofrecer una plataforma informática flexible para los usuarios.

“Debería ser capaz de lograr cualquier cosa que quieras”, dijo. “No es solo a través de la voz; es inteligencia en el momento adecuado, que es donde entra la inteligencia ambiental. Debería ayudarlo de manera proactiva en algunos casos y anticiparse a su necesidad. Aquí es donde llevamos la exploración conversacional más allá. Cualquier cosa que busque: imagine cuánto tiempo dedica a reservar unas vacaciones [when you don’t] tener un agente de viajes. Imagina cuánto tiempo dedicas a comprar esa cámara o televisor que deseas. Cualquier cosa que requiera que dediques tiempo a buscar debería ser mucho más rápida”.


Source link