Aunque Google transformó los alcances de las búsquedas en Internet, dando un salto exponencial en el perfeccionamiento de los modelos y metodologías de clasificación e identificación de la información, a medida que la inagotable producción de datos alcanza volúmenes casi infinitos de bites, el mundo urge por nuevas tecnologías que gestionen eficientemente la avalancha de información que se produce a cada segundo en la red.
¿Está preparada la humanidad para encontrar lo que necesita en la RED?
Por: Gabriel E. Levy B.
Durante los próximos 60 segundos, mientras usted lee este párrafo, se estarán produciendo 208 mil reuniones en Zoom de las cuales 20 mil quedarán colgadas en la nube, los usuarios de Facebook subirán 147 mil fotos, en Instagram se publicarán 277 mil historias, mientras los usuarios de Youtube colgarán 500 horas de video, en Spotify se registrarán 28 nuevas canciones, en cuanto por WhatsApp se enviarán 41 millones de mensajes, y se publicarán 500 mil tweets en Twitter, al tiempo que 600 nuevas páginas web serán creadas y puestas en funcionamiento[1]. En Google ocurrirán 5 millones de búsquedas y fueron descargadas 400 mil aplicaciones en el App Store y todo esto constituye el 4% de la Internet que es visible e indexable, pues de forma oculta el 96% restante ocurre en la Dark Web, sin que exista un registro medible, trazable y calculable de la información que por allí circula, desde transacciones bancarias, intercambio de datos entre servidores, hasta actividades delictivas[2].
La humanidad y sus desarrollos digitales se convirtieron en colosales máquinas de saturación de información y a medida que estas cifras crecen de forma desbordada cada minuto, se hace mucho más complejo encontrar mecanismos que permitan la gestión, clasificación, pero sobre todo búsqueda y localización de los datos.
Un modelo de búsqueda obsoleto
Hasta ahora las búsquedas de información en Internet han estado asociadas a los metadatos, es decir un conjunto de datos que describen el contenido informativo de un recurso, de archivos o de información. En otras palabras, se trata de un tipo de información que describe otro tipo de información, lo que por supuesto, crece exponencialmente la cantidad de información almacena[3].
Cuando alguien sube un sitio web a Internet o una imagen a Instagram o un video a YouTube, incluye al momento de subir la información los Metadatos o palabras claves, referencias, conceptos o incluso Hashtags asociados al elemento que ha publicado, de tal forma que un motor de búsqueda como Google o Bing asocian esas palabras al contenido, y cuando una persona realiza una búsqueda igual o similar a estos metadatos, los motores de búsqueda arrojan como resultado el contenido que ha sido publicado, modelo que se combina con muchas otras variables, como la correlación con el contenido publicado, la frecuencia de actualización de la información, el score del sitio, la experiencia de usuario, la cantidad de contenido multimedia, entre muchos otros factores, que en su conjunto constituye un tipo de estrategia denominada SEO (Search Engine Optimization)[4].
Los algoritmos de motores de búsqueda como el de Google se han venido perfeccionado con el paso del tiempo, aprendiendo sistemáticamente con cada búsqueda que realizan los usuarios, creando patrones de comportamiento, identificando prioridades e intereses y haciendo las búsquedas cada vez más eficientes. Sin embargo, siempre ha existido un elemento común: Las búsquedas requieren que el usuario introduzca la frase, concepto, palabra o imagen clave que necesita.
Este modelo que hasta ahora a resultado funcional, es insuficiente e ineficiente, lo cual conduce a que un porcentaje muy pequeño de la información pueda ser localizada, mientras millones de datos se pierden almacenados e inutilizados en servidores y computadoras, simplemente porque no existen vectores que permitan su localización eficaz. En otras palabras, billones de páginas web, fotos, textos, podcast, videos y datos en general, carecen de tráfico, no por la falta de interés en el público, sino por la incapacidad para ser localizados y consumidos por el público.
Elastic-search como alternativa
Como respuesta ante la necesidad de mejores y más eficientes búsquedas en la web, en los últimos años surgió una tecnología de código abierto que pareciera ser muy prometedora para solucionar los problemas de búsqueda y clasificación de la información, se trata de Elasticsearch, un motor de análisis distribuido, gratuito y abierto para todos los tipos de datos, incluidos textuales, numéricos, geoespaciales, estructurados y no estructurados. Elasticsearch está desarrollado a partir de Apache Lucene y está compuesto por un conjunto de herramientas gratuitas y abiertas para la ingesta, el enriquecimiento, el almacenamiento, el análisis y la visualización de todo tipo datos, es decir que no solo trabaja con texto y fotos[5].
En una entrevista concedida por el fundador de Elastic: Sahy Banon, a la BBC del Reino unido, afirmó que:
“En el pasado, la búsqueda implicaba teclear un texto. En la actualidad eso no es así. Las búsquedas pueden involucrar deslizar hacia la derecha, mover un mapa con tus dedos o hablar directamente a una app”. Sahy Banon[6]
Gracias a la Tecnología desarrollada por Banon, aplicaciones como Tinder aprenden a través de los dedos de sus usuarios, que al deslizar hacia la derecha o hacia la izquierda una foto, están entregando información indispensable al medio social para determinar el tipo de intereses y gustos del usuario, y de esa forma con cada foto deslizada mejora la calidad de los resultados arrojados en las siguientes entregas.
Pero Tinder no es la única empresa que está transformando la manera de buscar información en Internet, ya que Netflix cambió por completo la experiencia de búsquedas de video mediante un sofisticado algoritmo que ofrece al usuario contenidos para ser visualizados sin necesidad que este introduzca ninguna palabra clave o información adicional, aprendiendo de cada selección que el usuario realiza, del tiempo que dedica a cada contenido, entre otras muchas variables.
En el caso de Uber la tecnología de Elastic les ha permitido conectar conductores con usuarios a partir de la geo referenciación, la información histórica y estadística del tráfico, logrando de esta manera que el conductor con la probabilidad estadística de menor tiempo de distancia preste el servicio al usuario que lo requiere, al tiempo que se evalúan paralelamente otros aspectos como la calificación, la experiencia, la ruta de destino, entre muchas otras variables.
En Conclusión, La indexación eficiente de información ante la colosal avalancha de datos que se producen cada minuto en Internet, es uno de los mayores desafíos para la industria y todo el sector TIC en general, siendo uno de los mayores desafíos tecnológicos de la contemporaneidad.
La humanidad experimenta una paradoja en donde el problema no es la existencia de la información sino la incapacidad para ubicarla y gestionarla de forma eficiente, razón por la cual se hace necesario el diseño de nuevas tecnologías de indexación o búsqueda, siendo Elasticsearch la herramienta que promete dar solución a muchos de estos problemas en los próximos años, al tiempo que nuevos desarrollos y experimentos están surgiendo de forma paralela.
[1] Infografia ¿Qué pasa en Internet en un minuto?
[2] Artículo BBVA sobre la Dark Net y Dark Web
[3] Definición de Metadato en Power Data
[4] Blog sobre Marketing Digital y estrategias de SEO
[5] Sitio oficial de Elastic
[6] Artículo de BBC Mundo