Tras cada tecnología de conducción autónoma, tras cada generador online de rostros artificiales o tras cada sistema de reconocimiento facial masivo, hay una ingente labor de etiquetado de los datos que luego servirán para entrenar las IAs correspondientes. Es una labor pesada que obliga a que miles de personas se pasen el día identificando características de una imagen, un vídeo o un archivo de audio.
Aunque los focos suelen situarse sobre la tecnología que se desarrolla a partir de esos datos, también hay compañías innovando para lograr avances y mejoras en el campo del etiquetado. Una de ellas es Scale AI, una startup fundada en 2016 (cuando su actual CEO contaba tan sólo con 19 años) y que acaba de lograr recaudar 100 millones de dólares en su ronda C de financiación (más de 5 veces lo recaudado en la serie B el año pasado).
Tras esto, la compañía ha sido valorada en 1000 millones de dólares, lo que la convierte en miembro del selecto club de 'unicornios' del sector tecnológico. "Estamos orgullosos de lo que hemos construido en estos últimos tres años", explica Alexandr Wang, el CEO de Scale AI.
Peter Thiel, inversor tecnológico y ex-asesor de Donald Trump, tiene clara la importancia de esta compañía: "Las compañías de IA van y vienen, ya que compiten para encontrar las aplicaciones de machine learning más eficaces. Pero Scale AI va a durar más tiempo, gracias a que es el proveedor de la infraestructura central de los principales jugadores de este mercado". Entre esos 'jugadores' están muchas de las grandes compañías de Silicon Valley: Waymo, Uber, OpenAI, Airbnb o Lyft pueden citarse entre sus clientes.
Según Wang, "se requieren miles o miles de millones de datos de ejemplo para que los sistemas de inteligencia artificial alcancen un nivel de rendimiento equiparable al humano. Existe una gran brecha entre unas pocas compañías gigantes que pueden permitirse esta clase de entrenamiento y las muchas que no pueden". Pero el número de datos disponibles no es el único reto al que se enfrentan las compañías: los datos deben ser también de buena calidad.
No todos estos datos requieren del mismo trabajo de etiquetado. En el caso de las fotos destinadas al entrenamiento de sistemas de conducción autónoma, esta labor puede exigir entre 10 minutos y dos horas: el humano que analiza y etiqueta cada imagen debe marcar con el puntero del ratón el contorno de cada automóvil, peatón, edificio o semáforo que aparece en ella. Para otros clientes, la labor puede consistir en analizar una amplia variedad de textos para optimizar el procesamiento de lenguaje natural.
El objetivo de Scale AI es optimizar el proceso de etiquetado tanto para hombres como para maquinas: para las primeras ha desarrollado un conjunto de herramientas de software que etiquetan automáticamente las imágenes en una primera etapa, para entregársela posteriormente a la red de 30.000 trabajadores freelance que sólo deben repasar y corregir este primer etiquetado. "Las tareas que solían requerir horas terminan resolviéndose en solo un par de minutos".
En lo que respecta al factor humano, han desarrollado también software para identificar a los mejores etiquetadores. "Los humanos tienen un papel fundamental para lo que estamos haciendo porque están ahí para asegurarse de que todos los datos que proporcionamos sean realmente de alta calidad", explica Wang.
Si Scale AI destaca no es por falta de competencia: hace dos meses, Uber adquirió otra startup como un perfil similar (Mighty AI) y otras compañías, tanto consolidadas (Amazon, a través de Mechanical Turk) o de nueva creación (como Hive) realizan una labor similar. Pero según los inversores de Scale AI, sus herramientas destacan por ser más precisas, rápidas y baratas.
Vía | TechCrunch & Bloomberg
.