06 octubre 2022

Cómo funciona la inteligencia artificial en los asistentes de voz

Tiempo de lectura
6 min.
Secciones de la noticia

El número de altavoces inteligentes en todo el mundo sumaba los 186 millones en 2021, mientras que se prevé alcanzar los 200 millones en 2022, según datos de Statista. Es un negocio valorado en cerca de 9.500 millones de euros anuales, y se estima que crecerá hasta los 35.930 millones en 2028.

El mercado de los asistentes de voz está liderado por las grandes tecnológicas. Empresas como Amazon, Google, Alibaba, Xiaomi y Apple comercializan diferentes modelos compatibles con sus sistemas operativos: Alexa, Google Assistant, Siri, etcétera.

La gama de altavoces inteligentes Echo habilitado para Alexa Voice Service (AVS) de Amazon son los más vendidos con un 28% de cuota de mercado, seguido de Google y sus modelos Google Home (ahora Nest), con el 22%. Alibaba y Baidu, con una fuerte presencia en China y Asia, y Apple, que comercializa los modelos HomePod compatibles con Siri, completan esta lista.

Gran parte del éxito en esta rápida penetración de los asistentes de voz es su bajo coste, así como la posibilidad de sincronizarlos con aplicaciones de música (Spotify, Google Play), vídeo (Youtube, HBO Max, Netflix, Amazon Prime), y otros dispositivos inteligentes (tablet, smartphone) y gadgets del hogar (luces, cámaras de vigilancia, televisión, persianas, etcétera).

¿Cómo funcionan los asistentes de voz? Siri, OK Google, y Alexa

Los altavoces inteligentes son dispositivos relativamente simples, compuestos por conexión wifi y bluetooth, micrófono, y amplificadores de sonido. Gracias a Internet, todas las órdenes enviadas al altavoz pasan por la nube de los principales operadores, donde son procesadas en sus sistemas (Alexa, Siri, Google Assitant…) y se envían de vuelta para ejecutarlas.

Los algoritmos de Inteligencia Artificial son los encargados de entrenar a los asistentes de voz, por lo que el conjunto de aplicaciones que son capaces realizar no ha parado de crecer en los últimos años. Por ejemplo, el sistema Alexa de Amazon estaba muy enfocado en sus inicios al comercio online y los buscadores de internet, pero ya se puede pedir comida a domicilio en APPs compatibles, encargar un taxi, apagar las luces de casa, o realizar pagos online.

Big Data y Machine Learning

Además de la inteligencia artificial, que se encarga de ejecutar y afinar la fiabilidad del sistema, los asistentes de voz necesitan de datos y machine learning para seguir mejorando y ampliando sus capacidades. Si Alexa, Siri u OK Google (o 'Hey Google') cometen un error al analizar una solicitud, el aprendizaje automático reinterpreta esos datos para que la próxima orden cumpla con el propósito del usuario. En este campo, Google Assitant cuenta con la posibilidad de acceder a bases más extensas que Amazon y Apple, por lo que su asistente OK Google es el que cuenta con mejores palancas para el Procesamiento del Lenguaje Natural (Natural Language Processing).

Debido a esta necesidad de acceder a gran cantidad de datos, los asistentes de voz han sido muy criticados por escuchar y registrar todas las conversaciones. Y no solo cuando los activamos con los comandos especiales 'Alexa', 'OK Google' o 'Oye Siri'. Para evitarlo, lo más sencillo es apagar el micrófono del altavoz, de esta manera el asistente de voz no podrá oír nada hasta que no se vuelva a activar. En mayor o menor medida, lo mismo sucede con nuestros teléfonos móviles.

Natural Language Processing

Como herramienta vinculada a la inteligencia artificial, el Procesamiento del Lenguaje Natural permite obtener respuestas escritas y verbales en función de los datos que procesa el sistema informático. A pesar de lo abundante y complejo de los idiomas, las capacidades actuales de las máquinas para la generación y el procesamiento del lenguaje se están volviendo muy sofisticadas. Y son los avances en esta tecnología los que han permitido un crecimiento espectacular de los asistentes de voz inteligentes, como Alexa, Siri, y OK Google.

Al margen de la plantilla de informáticos e ingenieros, Amazon, Apple y Google cuentan con especialistas en filosofía, filología, antropología, y otras ramas de las ciencias sociales para ayudar a que sus asistentes virtuales de voz sean más eficientes, más humanos, y más cercanos.

Los asistentes de voz, cuál es mejor

Aunque los asistentes inteligentes que hay en el mercado son todos parecidos, existe una serie diferencias evidentes según las aplicaciones, usos y funcionalidad que busque el usuario.

Por ejemplo, no es lo mismo tener un smartphone con el sistema operativo iOS de Apple que un Android, ya que muchas APPs de nuestro teléfono se pueden ejecutar con los asistentes de voz.

Mientras que Alexa sale perdiendo en este apartado, Amazon ha centrado sus esfuerzos en los artículos del hogar. La domótica es uno de sus puntos fuertes, y su plataforma de e-commerce comercializa marcas propias para la iluminación inteligente, cámaras, sensores, altavoces y home cinema para la televisión, etcétera.

Recientemente, Amazon adquirió la empresa iRobot, especializada en robots aspiradores y aparatos para la limpieza del hogar, además de disponer de los servicios asociados Amazon Prime de vídeo y Amazon Music para escuchar canciones en streaming. 

La inteligencia artificial es el corazón de los asistentes de voz, pero hemos visto como su funcionamiento y aplicaciones estaría incompleto sin otras tecnologías asociadas: las capacidades del cloud, Big Data, Machine Learning, y Procesamiento del Lenguaje Natural, fundamentalmente.

Si te interesa el mundo de las IA y sus aplicaciones en empresas, te recomendamos asistir a Grex World Congress, la feria de robótica, Industria 4.0 y A.I que se celebra en IFEMA MADRID.