Recientemente se conoció el caso de un pirata informático que capturó la información de 700 millones de usuarios de LinkedIn de todo el mundo y la puso a la venta por unos cinco mil dólares en la Dark Web, este fenómeno se ha denominado “Scraping” y aunque no se puede definir precisamente como un delito, se ha convertido en un dolor de cabeza para las grandes tecnológicas de internet.
¿Qué es el Scaping y cómo impacta en los usuarios?
Por: Gabriel E. Levy B.
www.galevy.com
El Web Scraping o simplemente Scraping, traducido literalmente como “raspado web”, es una técnica informática que, mediante programas especializados de software, extraen información de sitios web, aprovechándose especialmente de los sistemas de indexación que utilizan robot o códigos automáticos para la organización de la información, una técnica utilizada prácticamente por todos los motores de búsqueda y Website que almacenan grandes cantidades de información o Big Dada.
Es importante aclara que la técnica del Web Scraping puede usarse con fines legítimos como la indexación de data o fines maliciosos como el robo de esta[1].
Como su nombre lo indica, el Scraping se hace «raspando» la superficie pública de las plataformas que utilizan programas automáticos para tomar cualquier contenido que esté disponible sobre los usuarios, almacenando sistemáticamente la información obtenida paso a paso.
La técnica del Scraping a diferencia de otras actividades delictivas realizadas por piratas informáticos, no se trata de filtrar información protegida o confidencial, tal como una contraseña o un número de documento, sino de masivamente obtener la información pública de los usuarios, para posteriormente ser comercializada, ya sea o con fines extorsivos, comerciales o de mercadeo.
En un sentido práctico, la mayor dificultad con el Scraping es que a partir de la masificación de los datos individualizados, promueve actividades perjudiciales para los internautas.
El experto en seguridad cibernética: Troy Hunt, que fue consultado por la BBC en una entrevista reciente, afirmó que:
«Definitivamente, no se trata de infracciones. La mayoría de estos datos son públicos de todos modos»… «La pregunta que debe formularse en cada caso es cuánta de esta información es de acceso público por elección del usuario y cuánta no se espera que lo sea»[2] Troy Hunt.
Un esquema que demanda mucha paciencia
La obtención de información mediante la técnica de Scraping es como el llenado de una piscina gota a gota, lo cual sería prácticamente imposible de lograr, sino fuera por el uso de software muy especializado que utilizan los piratas informáticos, para recabar la información en paquetes más grandes, no obstante, toma mucho tiempo y se podría definir como una técnica artesanal dentro de la informática.
El autodenominado: «Tom Liner», un pirata informático, del cual se desconoce su origen y verdadero nombre, recientemente compiló en una base de datos la información de 700 millones de usuarios de LinkedIn de todo el mundo y la puso a la venta por unos US$5.000[3].
El Hacker afirmó en una entrevista realizada por Joe Tidy, periodista de la BBC, que fue muy dispendioso obtener la información:
«Me tomó varios meses hacerlo. Fue muy complejo. Tuve que piratear la API de LinkedIn. Si haces demasiadas solicitudes de datos de usuario al mismo tiempo, el sistema te veta permanentemente», Tom Liner.
El mercado de datos
Los Data Brokers, también conocidos como vendedores o comercializadores de datos, son personas o empresas que se dedican a recoger información de los consumidores mediante algoritmos, ya sea con o sin su permiso o que la compran en los mercados, legal o ilegalmente y que la venden a un tercero que esté interesado en obtenerla, lo anterior para múltiples fines, legales o no.
Los piratas que utilizan la técnica del Scraping para construir bases de datos, encontrarán siempre clientes potenciales en la Dark Web, pues este es un mercado creciente, en el que siempre hay empresas, personas y organizaciones dispuestos a pagar por la información.
Un fenómeno acrecentado por la Pandemia
El confinamiento prolongado que derivó de la actual pandemia, aumentó significativa y exponencialmente el uso de Internet a nivel global, lo cual a su vez también desencadenó una mayor generación de datos por parte de los usuarios, tanto en compras virtuales, uso de plataformas y dispositivos, como en el aumento de la huella digital, lo que ha potenciado el negocio del comercio de datos, incluso para muchas personas que hasta ahora se resistían al uso de plataformas digitales, pero que por cuenta de la pandemia se vieron obligadas como único mecanismo de comunicación a estar conectados y por consiguiente a tener que sacrificar su privacidad.
La actual pandemia ha representado un importante punto de inflexión, pues ya no se trata de Internet como una alternativa, sino Internet como el principal medio de comunicación humano.
Las empresas minimizan el impacto
Las recientes declaraciones de LinkedIN, respecto de la acción emprendida por el pirata “Tom Liner», se limitan a enfatizar en que no hubo filtración de datos sensibles y que finalmente se trató de información pública:
«No fue una filtración de datos de LinkedIn y no se expusieron los datos privados de ningún miembro de LinkedIn. La extracción de datos de LinkedIn es una violación de nuestros Términos de servicio y trabajamos constantemente para garantizar que la privacidad de nuestros miembros esté protegida” Comunicador de prensa oficial de LinkedIN
Si bien tanto LinkedIN ahora, como Facebook en el pasado, han tratado de minimizar el impacto de este tipo de acciones, haciéndolo ver como datos públicos, es inevitable ocultar que representa un riesgo para todas las partes y es finalmente, la credibilidad de estas empresas, la que termina comprometida y muchos usuarios prefieren simplemente dejar de publicar contenido, razón por la cual, las grandes compañías tecnológicas de Internet, deberían emprender acciones mucho más contundentes para evitar que este tipo de acciones se repitan.
En Conclusión, aunque en estricto sentido el Scraping no puede considerarse una actividad delictiva, existe un perjuicio directo para los usuarios que ven expuesta su información para usos extorsivos o comerciales, al tiempo que las grandes tecnológicas de Internet pierden credibilidad de sus usuarios, razón por la cual es conveniente que el tema reciba más atención de las autoridades y las mismas empresas tecnológicas.