Entrenamiento de IA: los datos falsos son más baratos que los datos reales

Mural de la ciencia del vuelo, aeropuerto Sky Harbor
¡Por favor comparta esta historia!
Los tecnócratas siempre han sido adictos a los datos, pero ahora no hay suficientes datos del mundo real para satisfacer la sed de más. ¿La respuesta? Cree datos falsos que otros programas de IA "sinteticen" para alimentar otros algoritmos de IA principales que están siendo "entrenados" para obtener ciertos resultados. Entonces, ¿los datos falsos son realmente mejores que los datos reales? Tú decides. ⁃Editor de TN

Los bebés aprenden a hablar al escuchar a otros humanos, principalmente a sus padres, producir sonidos repetidamente. Lentamente, a través de la repetición y el descubrimiento de patrones, los bebés comienzan a conectar esos sonidos con el significado. A través de mucha práctica, eventualmente logran producir sonidos similares que los humanos a su alrededor pueden entender.

Aprendizaje automático Los algoritmos funcionan de la misma manera, pero en lugar de tener un par de padres de quienes copiar, usan datos cuidadosamente categorizados por miles de humanos que tienen que revisar manualmente el datos y decirle a la máquina lo que significa.

Sin embargo, este proceso tedioso y lento no es el único problema con los datos del mundo real que se utilizan para entrenar algoritmos de aprendizaje automático.

Tomar detección de fraude en siniestros de seguros. Para que un algoritmo pueda diferenciar con precisión un caso de fraude de reclamos legítimos, necesita ver ambos. Miles y miles de ambos. Y porqué AI los sistemas a menudo son suministrados por terceros, por lo que no son administrados por la propia compañía de seguros; esos terceros deben tener acceso a todos esos datos confidenciales. Llegas a dónde va esto, porque lo mismo se aplica a los registros de atención médica y los datos financieros.

Más esotéricos pero igual de preocupantes son todos los algoritmos entrenados en texto, imágenes y videos. Aparte de cuestiones de derechos de autormuchos los creadores han expresado su desacuerdo con su trabajo absorbido en un conjunto de datos para entrenar una máquina que eventualmente podría tomar (parte de) su trabajo. Y eso suponiendo que sus creaciones no sean racistas o problemáticas de otra manera, lo que a su vez podría generar resultados problemáticos.

Además, ¿qué sucede si simplemente no hay suficientes datos disponibles para entrenar una IA en todas las eventualidades? en un Informe de la Corporación RAND 2016, los autores calcularon cuántas millas, "una flota de 100 vehículos autónomos que conducen las 24 horas del día, los 365 días del año, a una velocidad promedio de 25 millas por hora", tendría que conducir para demostrar que su tasa de falla (resultando en muertes o lesiones), fue confiablemente más bajo que el de los humanos. ¿Su respuesta? 500 años y 11 mil millones de millas.

No es necesario ser un genio supercerebro para darse cuenta de que el proceso actual no es el ideal. Entonces, ¿qué podemos hacer? ¿Cómo podemos crear suficientes datos etiquetados con precisión, que respeten la privacidad, que no presenten problemas y que cubran todas las eventualidades? Lo has adivinado: más IA.

Los datos falsos pueden ayudar a las IA a lidiar con datos reales

Incluso antes del informe RAND, estaba totalmente claro para las empresas que trabajan en la conducción autónoma que lamentablemente no estaban equipadas para recopilar suficientes datos para entrenar algoritmos de manera confiable para conducir de manera segura en cualquier condición o circunstancia.

Tomemos como ejemplo a Waymo, la empresa de conducción autónoma de Alphabet. En lugar de depender únicamente de sus vehículos del mundo real, crearon un mundo totalmente simulado, en el que los automóviles simulados con sensores simulados podían conducir sin cesar, recopilando datos reales en su forma simulada. De acuerdo con la compañía, para 2020 había recopilado datos sobre 15 mil millones de millas de conducción simulada, en comparación con unos míseros 20 millones de millas de conducción en el mundo real.

En la jerga de la IA, esto se denomina datos sintéticos, o "datos aplicables a una situación determinada que no se obtienen mediante medición directa", si desea ser técnico. O menos técnicamente: las IA están produciendo datos falsos para que otras IA puedan aprender sobre el mundo real a un ritmo más rápido.

Un ejemplo es tarea2sim, un modelo de IA creado por MIT-IBM Watson AI Lab que crea datos sintéticos para el entrenamiento de clasificadores. En lugar de enseñarle al clasificador a reconocer un objeto a la vez, el modelo crea imágenes que pueden usarse para enseñar múltiples tareas. los escalabilidad de este tipo de modelo hace que la recopilación de datos consuma menos tiempo y sea menos costosa para las empresas hambrientas de datos.

Sumado a esto, Rogerio Feris, un IBM El investigador que fue coautor del artículo sobre Task2Sim dijo:

La belleza de las imágenes sintéticas es que puede controlar sus parámetros: el fondo, la iluminación y la forma en que se posan los objetos.

Gracias a todas las preocupaciones enumeradas anteriormente, la producción de todo tipo de datos sintéticos se ha disparado en los últimos años, con docenas de nuevas empresas en el campo floreciendo y recogiendo cientos de millones de dólares en inversión.

Los datos sintéticos generados van desde 'datos humanos' como registros financieros o de salud hasta imágenes sintetizadas de una amplia gama de rostros humanos, hasta conjuntos de datos más abstractos como datos genómicos, que imitan la estructura del ADN.

Cómo hacer datos realmente falsos

Hay un par de formas en que ocurre esta generación de datos sintéticos, la más común y mejor establecida se llama GAN o redes antagónicas generativas.

En una GAN, dos IA se enfrentan entre sí. Una IA produce un conjunto de datos sintéticos, mientras que la otra intenta establecer si los datos generados son genuinos. La retroalimentación de este último vuelve al anterior 'entrenándolo' para que sea más preciso en la producción de datos falsos convincentes. Probablemente hayas visto uno de los muchos esto-x-no-existe sitios web, que van desde personas hasta gatos y edificios, que generan sus imágenes basadas en GAN.

Últimamente, han ido ganando terreno más métodos para producir datos sintéticos. Los primeros son conocidos como modelos de difusión, en el que las IA se entrenan para reconstruir ciertos tipos de datos mientras se agrega más y más ruido (datos que corrompen gradualmente los datos de entrenamiento) a los datos del mundo real. Eventualmente, la IA puede recibir datos aleatorios, que vuelven a funcionar en un formato en el que se entrenó originalmente.

Los datos falsos son como datos reales sin, bueno, la realidad

Los datos sintéticos, sin importar cómo se produzcan, ofrecen una serie de ventajas muy concretas sobre el uso de datos del mundo real. En primer lugar, es más fácil recolectar mucho más, porque no tienes que depender de los humanos para crearlo. En segundo lugar, los datos sintéticos vienen perfectamente etiquetados, por lo que no es necesario depender de centros de datos intensivos en mano de obra para etiquetar (a veces incorrectamente) los datos. En tercer lugar, puede proteger la privacidad y los derechos de autor, ya que los datos son sintéticos. Y finalmente, y quizás lo más importante, puede reducir los resultados sesgados.

Dado que la IA desempeña un papel cada vez más importante en la tecnología y la sociedad, las expectativas en torno a los datos sintéticos son bastante optimistas. Gartner ha estimado que El 60 % de los datos de entrenamiento serán datos sintéticos para 2024. Analista de mercado Cognilytica valoró el mercado de generación de datos sintéticos a $ 110 millones en 2021, y creciendo a $ 1.15 mil millones para 2027.

Los datos han sido llamados el producto más valioso en la era digital. La gran tecnología se ha sentado sobre montañas de datos de usuarios que le dieron una ventaja sobre los competidores más pequeños en el espacio de la IA. Los datos sintéticos pueden dar a los jugadores más pequeños la oportunidad de cambiar las tornas.

Como puede sospechar, la gran pregunta con respecto a los datos sintéticos es la llamada fidelidad, o qué tan cerca se asemejan a los datos del mundo real. El jurado todavía está deliberando sobre esto, pero la investigación parece mostrar que la combinación de datos sintéticos con datos reales da resultados estadísticamente sólidos. Este año, investigadores del MIT y el MIT-IBM AI Watson Lab demostraron que un clasificador de imágenes que fue entrenado previamente en datos sintéticos en combinación con datos reales, así como un clasificador de imágenes entrenado exclusivamente en datos reales.

En general, los semáforos sintéticos y del mundo real parecen estar en verde para el dominio en el futuro cercano de los datos sintéticos en el entrenamiento de modelos de IA más seguros y respetuosos con la privacidad, y con eso, un posible futuro de IA más inteligentes para nosotros está justo en el horizonte. .

Lea la historia completa aquí ...

Acerca del Editor

Patrick Wood
Patrick Wood es un experto líder y crítico en Desarrollo Sostenible, Economía Verde, Agenda 21, Agenda 2030 y Tecnocracia histórica. Es autor de Technocracy Rising: The Trojan Horse of Global Transformation (2015) y coautor de Trilaterals Over Washington, Volumes I and II (1978-1980) con el fallecido Antony C. Sutton.
Suscríbete
Notificar de
invitado

3 Comentarios
Más antiguo
Más Nuevos Más votados
Comentarios en línea
Ver todos los comentarios

[…] Tecnocracia.news […]

[…] Entrenamiento de IA: los datos falsos son más baratos que los datos reales […]