Gracias a la recopilación de millones de datos que arroja la humanidad en su vida cotidiana, la informática cuenta conm múltiples estrategias para entender, gestionar, estudiar y potenciar dichos datos, sin embargo, la información tomada en el “Mundo Real” supone graves limitaciones como la privacidad desencadenando vacíos en el campo del “Big Data” y la “Inteligencia Artificial” (AI).
Los “Datos Sintéticos” emergen como la mejor alternativa para suplir estos vacíos.
¿Por qué son tan importantes los datos sintéticos en el nuevo orden digital global?
Por: Gabriel Levy Bravo
www.galevy.com
Se conoce como datos sintéticos a la información generada artificialmente en computadoras y que pueden utilizarse para múltiples propósitos informáticos, en remplazo de datos reales.
Generalmente los datos sintéticos se utilizan para entrenar modelos de Inteligencia Artificial, cuando los conjuntos de datos reales carecen de calidad, volumen, variedad, están protegidos por las leyes de privacidad o simplemente son insuficientes.
Para la analista de Gartner Svetlana Sicular, experta en gestión de datos, antes de que finalice esta década el 60% de los datos utilizados para el desarrollo de soluciones de Inteligencia Artificial IA y análisis de mercados, serán generados sintéticamente. Para el año 2020 menos del 1% pertenece a esta categoría.
Para el experto Manuel Delgado Tenorio, el concepto de datos sintéticos, no se refiere particularmente a un producto, sino más bien a una metodología de trabajo:
“Los datos sintéticos (en inglés, «Synthetic Data«) son un método para, a partir de un conjunto de datos que queremos proteger pero que necesitamos compartir con terceros, generar un nuevo conjunto de datos que conserva las características informacionales del conjunto origen pero que no permite recomponer los datos originales a partir de los creados artificialmente” . Manuel Delgado Tenorio[1]
El ejemplo de Sciencer Nigeria
Un análisis realizado por Will Douglas Heaven, uno de los editores del Mit Technology Review[2], encontró que en 2021, la organización Science Nigeria quería entrenar algoritmos de visión artificial basado en datos de ropa occidental, sin embargo los ingenieros se encontraron que no existía data de ropa africana.
Es por esta razón que el equipo abordó ese desequilibrio usando inteligencia artificial (IA) para generar imágenes artificiales de moda africana, creando un conjunto de datos completamente nuevo desde cero, un ejemplo perfecto de la generación de “Datos Sintéticos”.
Las muestras que generaron mediante tecnología informática, respetó las características estadísticas que el objeto de estudio original, sin embargo el sistema fue capaz de producir información totalmente nueva.
“Estos datos falsos se pueden utilizar para entrenar IA en áreas donde los datos reales son escasos o demasiado sensibles para su uso, como en el caso de informes médicos o datos financieros personales” [3].
El Caso de los Autos Autónomos
El Concepto de Autos Sintéticos no es nuevo, desde hace varios años los autos autónomos o sin un conductor humano, han utilizado esta tecnología, mediante la cual, los algoritmos que se encargarán de conducir los autos son entrenados en calles creadas virtualmente a partir de las calles reales, permitiendo crear todo tipo de situaciones posibles e in-imaginadas, de tal forma que el algoritmo sepa siempre que hacer cuando se enfrente al mundo real.
El complejo Universo del Big Data
El concepto de Big Data no tiene un solo autor, los primeros textos se remontan a 1983 cuando el japonés Takuya Katayama escribió un artículo denominado: “Treatment of Big Values in an applicative lenguage HGP” y se cree que fue la primera vez que se referenció en un artículo académico el término de Big Data. Posteriormente en la última década del siglo XX Quien lo popularizó fue John Mashey un investigador Ph.D. en ciencias de la computación de la Universidad Estatal de Pennsylvania, quien en diversas referencias masificó el concepto.
En 2003 un texto publicado por google, define un modelo de ficheros distribuidos denominado: “Google File System (GFS)” el cual puede ser empleado para la gestión del Big Data recopilada por el motor de búsqueda, convirtiendo el concepto en realidad materializada.
En 2005 los ingenieros de “Apache Doug Cutting” llevaron los principios de Google a la creación de la primera plataforma Big Data Open Source, la que denominaron “Hadoop” y que sirvió de inspiración y referencia para los sistemas de Big Data contemporáneo, y sobre la que ha crecido un enorme ecosistema de herramientas que lo utilizan como su estructura principal.
En la actualidad el manejo masivo de datos requiere de tres grandes variables, conocidas como las 3V:
Volumen: Referido a la cantidad de datos que deben ser recopilados y procesados.
Velocidad: Referido a la rapidez con la que se debe recopilar y procesar el volumen de información.
Variedad: Referido a la diversidad del tipo de información que se debe recopilar y procesar, ya sea texto, números, algoritmos, ecuaciones, video, audio, datos oscuros, etc.
Prácticamente todas las decisiones comerciales que toman hoy en día las grandes empresas se hacen basadas en modelos de “Big Data”, lo que ocasionó la aparición de un nuevo concepto: “Business intelligence”, o Inteligencia de Negocios, que le permite a las organizaciones decidir que estrategias implementar, a partir de los datos recolectados por Internet desde los hábitos de consumo, preferencias, gustos, pensamientos, comportamientos, etc.
El Boom del mercado de los Datos Sintéticos
En los últimos años la tecnología de los “Datos Sintéticos” dejó de ser un asunto del inframundo de los laboratorios, para convertirse en un creciente mercado, dando lugar a un importante número de start-ups y centros educativos dedicados a proveer este tipo de servicios.
“Datagen y Synthesis AI, por ejemplo, proporcionan rostros humanos digitales bajo demanda. Otras empresas ofrecen datos sintéticos para finanzas y seguros. El proyecto Synthetic Data Vault, lanzado en 2021 por Data to AI Lab del MIT, produce herramientas de código abierto para crear una amplia variedad de tipos de datos” [4].
Simular el Futuro
Una de las mayores dificultas a las que se enfrentan los analistas de mercado en su conjunto, es al cambio constante en las tendencias de comportamiento, que podríamos definir como modas.
Cuando las modas cambian, los datos históricos quedan generalmente obsoletos en muy cortos periodos de tiempo. Por ejemplo, cuando la gente cambió el CD de música por aplicaciones en línea, todos esos datos históricos de los clientes que compraban música en las discotiendas, perdieron su valor predictivo.
Mediante tecnologías como los motores de recomendación que se basan en datos de entrenamiento antiguos, la información original de la compra de discos y la forma en que cambiaron los hábitos de consumo de los usuarios al suscribirse a plataformas como Spotify, permitirían desarrollar un modelo predictivo respecto de como evolucionará el consumo digital en los próximos años, lo cual sería en últimas un muy útil tipo de “Datos Sintéticos”.
Las redes generativas Antagónicas GAN
Si bien es fácil plantear el concepto de los “Datos Sintéticos”, en la práctica resulta muy complejo de materializar, es por esta razón que mediante “Inteligencia Artificial” se han desarrollado prototipos que permiten simplificar esta adaptación, tal es el caso de las redes generativas antagónicas o GAN[5], un tipo de IA capaz de generar ejemplos realistas pero falsos, ya sea de imágenes o de informes médicos.
La imparcialidad y Neutralidad dependerán del Entrenamiento
De acuerdo con la revisión realizada por Will Douglas Heaven, uno de los editores del Mit Technology Review, los “Datos Sintéticos” pueden evitar el sesgo que abunda en muchos conjuntos de datos reales, siempre y cuando los datos originales utilizados para generarlos, sean también imparciales.
“Por ejemplo, si una red GAN se entrena en menos rostros negros que blancos podría crear un conjunto de datos sintéticos con una mayor proporción de rostros negros, pero esos rostros pueden acabar siendo menos reales debido a los limitados datos originales” [6].
En Conclusión, los denominados “Datos Sintéticos” prometen solucionar muchos de los inconvenientes actuales que hacen parte del complejo mundo de la Inteligencia Artificial y el Big Data, rellenado los espacios oscuros, anticipando nuevos comportamientos, protegiendo la privacidad de las personas y mejorando el comportamiento de los algoritmos autónomos.