Hogar Con visión de futuro Asistentes inteligentes: ¿qué viene después de siri?

Asistentes inteligentes: ¿qué viene después de siri?

2024

Video: Alexa vs Siri vs Google Assistant, ¿cuál es el mejor asistente inteligente en 2020? (Noviembre 2024)

Los asistentes inteligentes, Siri, Google Now, Cortana y similares, pasaron de ser curiosidades y trucos de salón hace solo unos años a herramientas esenciales que muchas personas usan en su vida diaria. La semana pasada, asistí a la Conferencia de Asistentes Inteligentes en Nueva York, presentada por Opus Research, y me impresionó el progreso que el software está haciendo en una variedad de industrias, incluido el progreso de las compañías financieras, de seguros y médicas en la construcción de agentes específicos..

El fundador de Opus Research, Dan Miller, explicó que muchas de las tecnologías centrales, como el reconocimiento de voz, existen desde hace más de 20 años. Aunque recientemente ha visto algunas grandes mejoras, en lugar de una revolución, dijo "estamos en un camino evolutivo", con muchos productos en un continuo con diferentes capacidades. Señaló que hay cientos de asistentes inteligentes empresariales que se pueden usar para una conversación simple basada en texto en inglés simple usando un conjunto de datos fijos, y para cosas como navegar por un sitio web o un FAQ. En el otro extremo del espectro, es probable que solo haya unas pocas docenas de "aplicaciones dinámicas y con sentimientos humanos" que tengan más conversación y sean más conscientes del contexto.

Miller señaló las aplicaciones que ganaron premios en la conferencia. Julie de Amtrak comenzó hace años como un agente de servicio telefónico interactivo de respuesta de voz, pero ahora se ha convertido en un agente que trabaja en el sitio web para guiar a los viajeros a través de Amtrak.com, basado en un agente de Next IT. Telefónica México tiene un agente llamado Nico que tiene un avatar y también brinda soporte a través de Twitter y Facebook, basado en la plataforma de AgentBot. ING Netherlands tiene Inge, una aplicación que le permite verificar el saldo de su cuenta bancaria o transferir dinero por voz, utilizando la tecnología biométrica de voz de Nuance, para autenticar su identidad.

Las menciones honoríficas incluyen aplicaciones de atención médica, como una aplicación que lo ayuda a elegir un plan de atención médica. Otras aplicaciones que escuché en el programa incluyen Domino's Pizza, que tiene una aplicación llamada Dom que te permite usar la voz para pedir pizza; y BMW, que tiene un agente virtual como parte de su brazo de financiación de automóviles Up2drive.

Brett Beraneck de Nuance habló sobre cómo los avances en las redes neuronales de aprendizaje profundo han mejorado cosas como la comprensión del lenguaje natural, así como el reconocimiento de voz, y cómo esto ahora se está uniendo para permitir un mayor interés en el campo. El asistente Nina de Nuance fue un ejemplo temprano, y desde entonces ha crecido a muchas aplicaciones específicas, que van desde sistemas interactivos de respuesta de voz en compañías de seguros hasta aplicaciones de compras. Cada una de estas aplicaciones tiene una personalidad diferente, dependiendo de lo que esté tratando de ayudarlo a hacer.

Una gran característica nueva que discutió fue la biometría de voz, en la cual su voz reemplaza una contraseña. Habló sobre cómo compañías como ING en Europa están desarrollando agentes que no solo usan el reconocimiento de voz y el procesamiento del lenguaje natural, sino que también están comenzando a usar la voz para reconocer a la persona que llama. Dijo que esto era más seguro y más natural que una contraseña tradicional.

Si bien los estudios recientes temen que las grabaciones de voz puedan engañar a tales sistemas, Nuance señaló que la tecnología actual incluye características destinadas a detectar anomalías de la voz grabada y señaló otros estudios que tomaron un punto de vista diferente. Además, dijo, los diseñadores pueden usar diferentes niveles de biometría de voz para diferentes funciones, como usar el reconocimiento simple para verificar el saldo de una cuenta o pedirle que repita una secuencia aleatoria de palabras para transferencias de dinero significativas.

La biometría de voz ciertamente parece estar ganando un poco de tracción. En el Simposio Gartner de la semana pasada, una sesión sobre "casos de clientes interesantes" en servicios financieros incluyó una aplicación Citibank que utilizó esta función.

MyWave tiene un asistente llamado Frank que debe ser habilitado por múltiples negocios para permitirle interactuar con ellos de una manera más conversacional, en lugar de que cada negocio desarrolle el suyo. Los primeros usos incluyen un banco de Nueva Zelanda y una aplicación llamada Saveawatt diseñada para ayudarlo a elegir su proveedor de electricidad.

La directora ejecutiva, Geraldine McBride, explicó que la compañía está tratando de crear asistentes que cierren la brecha entre los clientes y las aplicaciones de servicio, con lo que llama "relaciones administradas por el cliente" o CMR, un giro en las aplicaciones CRM tradicionales. Una gran diferencia, dijo, es que el cliente está a cargo de todos sus datos, en lugar de la empresa.

Otra compañía relativamente nueva, Expect Labs, tiene un producto llamado MindMeld que funciona como back-end para varias compañías que desean ofrecer una interfaz de voz para reemplazar las interfaces tradicionales y manejar preguntas y respuestas. Esto podría usarse para una variedad de aplicaciones, como ver programas de televisión simplemente preguntando el nombre y haciendo que el sistema consulte varios sistemas. (Fire TV de Amazon tiene algunas de estas características, pero no está integrado con su decodificador de cable, mientras que uno de los inversores en Expect Labs es la compañía de cable Liberty Global).

El CEO Tim Tuttle explicó que MindMeld tiende a usar el reconocimiento de voz ya disponible en la mayoría de los dispositivos y, en cambio, se enfoca en la comprensión del lenguaje natural y en la construcción de un gráfico de conocimiento de la información disponible. Dijo que la empresa está tratando de escalar el sistema para incluir más información de múltiples fuentes y desglosar las jerarquías de las diferentes categorías de información que forman parte de la mayoría de dichos sistemas. Comprender realmente las preguntas significa ser capaz de comprender la intención en una variedad de categorías, dijo.

Una cosa que escuché de varios asistentes fueron las estadísticas que sugieren que alrededor del 10 por ciento de todas las búsquedas en la web ahora se realizan a través de agentes de inteligencia. (El pionero de la inteligencia artificial Andrew Ng dijo que esto era cierto para la búsqueda por voz en Baidu el año pasado y varias personas dijeron que ahora también era cierto en Google, pero no he escuchado ninguna confirmación de primera mano).

Mirando hacia el futuro, Miller de Opus Research dijo que aún había mucho trabajo por hacer. La precisión básica de los sistemas tiene mucho margen de mejora, particularmente al pasar de lo que usted dice a lo que quiere decir y qué hacer como resultado. Mencionó una charla del CEO de Xerox PARC, Stephen Hoover, en la conferencia, quien dijo que los sistemas actuales tienen hasta un 90 por ciento de precisión para comprender lo que queremos decir, pero ese 10 por ciento sigue siendo un problema porque es lo que la mayoría de la gente recuerda cuando trata un sistema. Y Miller dijo que hay espacio para una mejor personalización, porque si el sistema sabe con quién está hablando, puede dar mejores resultados. Por ejemplo, señaló que Facebook sabe quién está usando el sistema porque has iniciado sesión; y dijo que hacerlo sin problemas con más agentes será más importante.

Ciertamente es una categoría fascinante, y espero que todos pasemos mucho más tiempo hablando con nuestros teléfonos y computadoras, e interactuando con agentes que no son del todo humanos. Encuentro esta una de las tendencias más interesantes en informática en estos días.