El asistente de Google ha encogido. Los modelos que se utilizaban para su funcionamiento ocupaban 100 GB y residían en la nube, pero Google ha logrado reducirlos a apenas medio gigabyte, algo sencillamente fantástico que permitirá algo mucho más importante de lo que parece: podremos usar el asistente y sus prestaciones en local, sin que haya conexión con la nube de Google.
El nuevo asistente de Google es en esencia el mismo de siempre, pero esa capacidad de funcionar en local hará que todo sea mucho más rápido. Muchísimo. Lo vimos en la demo de ayer de Google I/O en una interacción mucho más fluida y que ahora permite nuevos y sorprendentes hitos que tienen un efecto colateral prometedor: Google cuida (al menos un poco más) nuestra privacidad.
Las implicaciones para la interacción con el asistente de Google son claras, sobre todo porque esa velocidad de funcionamiento que demostraron en escena da pie a que utilicemos mucho más y mucho mejor esta plataforma que ahora se hace más atractiva que nunca.
Google Assistant now makes it faster to navigate your phone by voice than finger. This will give super powers to always-in earbuds pic.twitter.com/pL9cf4rrpx
— Josh Constine (@JoshConstine) 7 de mayo de 2019
Algunos analistas comentaban por ejemplo cómo esto podría ser toda una revolución para que el control por voz (por ejemplo a través de auriculares conectados) se convirtiera en una opción mucho más potente que antes, y ciertamente esto podría impulsar esos escenarios.
Ese funcionamiento en local se une a la mejora del reconocimiento del lenguaje natural que permite que una vez más el asistente destaque en esas búsquedas por contexto que nos permiten enlazar órdenes relacionadas por el contexto sin dar demasiados detalles que ya se asumen de las primeras consultas.
El ejemplo del vídeo mostraba esos avances. En él podemos ver a una mujer interactuando con el asistente y diciendo: "Muéstrame imágenes de Yelloswtone" y a continuación, sin decir nada más, decir "las que tienen animales" para cerrar con un "Envíaselas a Justin".
La cosa no acababa ahí, porque cuando su interlocutor le preguntaba cuándo volvía de un viaje, ella primer consultaba el dato en el asistente para luego contestar (siempre con la voz) en la aplicación de mensajería y dar el dato. El salto entre aplicaciones era transparente y muy rápido, algo que hace pensar que usar el móvil con la voz podría llegar a ser pronto más cómodo y rápido que hacerlo con los dedos (si uno se acostumbra y tiene soltura al hacerlo).
Google mostró cómo funcionaba esa capacidad del asistente, y prometió que todas esas mejoras -había varias más que describían en un post en su blog oficial- llegarían a los móviles de la gama Pixel este año (probablemente en otoño). Pero... ¿cómo funciona todo por debajo?
La velocidad con la que funciona el asistente es otro factor fundamental para que nos relacionemos más y mejor con esta plataforma automatizada: la latencia es crítica al conversar con máquinas (y con humanos, claro), y uno se pone rápidamente nervioso si hace una pregunta y la respuesta tarda en llegar más de lo que espera.
Para mejorar esa latencia Google anunciaba en marzo sus avances en el reconocimiento del habla, que ahora está implementado en local gracias al uso de un modelo entrenado con el llamado "transductor de redes neuronales recurrentes" (RNN transducer).
Este modelo es una evolución de técnicas que Google había usado antes como las redes neuronales profundas (DNNs), redes neuronales recurrentes (RNNs), redes de memoria de corto y largo plazo (LSTMs) o redes neuronales convolucionales (CNNs).
El logro de este modelo es el de su eficiencia. El llamado grafo de búsqueda que se utilizaba para los modelos de producción que Google usaba y usa en el reconocimiento del habla ocupaba 2 GB aproximadamente, pero lograron reducir ese tamaño a 450 MB gracias a este modelo. Una serie de técnicas adicionales permitieron comprimir esos datos y hacerlos accesibles a la misma velocidad en tan solo 80 MB.
Eso, añdían en Google, hace que esa capacidad del asistente lo haga "lo suficientemente compacto como para poder residir en un móvil". Google describía esta tecnología en profundidad tanto en ese post como en este estudio (PDF), y sus resultados cristalizaron ayer. Parece que esas capacidades solo estarán disponibles a pleno rendimiento en los dispositivos más potentes, pero habrá que esperar a su despliegue definitivo, probablemente en otoño de 2019.
Una consecuencia fundamental de este cambio en el funcionamiento del asistente de Google puede ser aún más importante para el mercado actual: se trata de la percepción de privacidad que tendremos al usar el servicio.
Hasta ahora al usar el asistente nos conectábamos con la nube, y eran los servidores de Google los que procesaban la información para que el asistente nos contestara. Ahora todo funciona en local y podremos usar buena parte de las funciones de ese asistente sin necesidad de tener una conexión de datos activa.
Solo por eso la sensación de usar el asistente de Google será para muchos mucho más inocua que antes. Esto es más importante de lo que parece, sobre todo teniendo en cuenta los recientes escándalos de privacidad en empresas como Facebook y los que Amazon ha sufrido en su familia de asistentes de voz Echo.
Google hace lo mismo, claro, y uno de sus ejecutivos admitía cómo "una pequeña fracción" de peticiones de voz del asistente se comparten con un equipo humano en Google que trabaja en la mejora de sus sistemas de inteligencia artificial.
Hace tiempo que Apple se había postulado como defensora de la privacidad pero puede que este movimiento ayude a Google a ganar enteros en este terreno. Será difícil teniendo en cuenta cómo ganan dinero una y otra empresa, pero desde luego que las cosas se ejecuten en local sin conexión a la nube es un elemento fundamental para que nuestra percepción de cómo protege Google nuestra privacidad cambie.
Pichai de hecho incidía en este apartado también durante su participación en Google I/O, pero fue más allá con un artículo editorial escrito por él y publicado en The New York Times en el que sin mencionar a Apple directamente sí que afirmaba que "la privacidad no puede ser un producto de lujo" que solo esté disponible para "gente que se puede permitir comprar productos y servicios premium".
Queda por ver si el asistente logra funcionar de esta manera no solo en sus Pixel, sino en todo tipo de dispositivos Android y, por supuesto, en los altavoces inteligentes que poco a poco están conquistando nuestros hogares. Cale hondo o no ese mensaje, lo cierto es que el asistente de Google ha dado un paso importante para ayudar a que confiemos más en él.
.