Principal >> El inmenso campo de la recuperación de información en internet

El inmenso campo de la recuperación de información en internet

La recuperación de información en internet y explotación de dicha información es un campo de infinitas posibilidades. Actualmente se multiplican los proyectos basados en crear valor mediante agregar información disponible en otras fuentes y explotar dicha información, y varios informes de consultoras lo señalan como uno de los campos donde se va a producir un crecimiento mayor en los próximos años.

Para entender la escena es necesario tener en cuenta los triggers tecnológicos que se han producido. Por un lado, la disminución del tamaño de la electrónica a un ritmo vertiginoso, conocido como ley de moore, hace accesibles incluso para pequeñas empresas enormes cantidades de capacidad de proceso, almacenamiento y ancho de banda.

Estas pequeñas empresas tenían que lidiar todavía con un importante problema: la escalabilidad. Sin embargo, la arquitectura en la nube ha barrido también esa frontera. En Cierzo Development podemos levantar hasta un centenar de servidores en menos de 10 minutos si se produce un pico de demanda de nuestros clientes. Antes, hubiéramos necesitado un espacio físico, hardware, licencias, administración, personal…. ahora todo esta en la nube. Podemos competir en calidad de servicio con empresas de 100 veces más tamaño que nosotros escalando de manera muy proporcional a la demanda.

Otro trigger tecnológico ha sido la disponibilidad de información en la red. Históricamente, la información se explotaba allí donde estaba. Los científicos que aparecen en la película Ágora no podían estar en cualquier lugar. Si la biblioteca estaba en Alejandría, aquellos que querían explotar su información debían estar en Alejandría. Desde hace 15 años la información disponible en internet crece exponencialmente. Todo se vuelca a la red: textos, bases de datos, fotografías, vídeos, etc. Es un enorme campo para explotar. Es como el lejano oeste en el que todo son nuevas fronteras para los exploradores. Al fin y al cabo, eso es una araña, o spider, un explorador automatizado que viaja por la red a ver lo que encuentra.

El último trigger es el software libre. Sistemas operativos, bases de datos… todo software libre. Pero incluso a nivel funcional más concreto en cuanto a recuperación de información: crawlers, parseadores, tokenizadores…. todo todo todo software libre, en un movimiento imparable que sobrepasa la capacidad de producción de software incluso de grandes empresas como Microsoft o Google. Esto hace que el punto de salida para una startup sea la construcción de valor, y no la construcción de infraestructura. Gracias al código libre disponible el time to market de una startup en cuanto a desarrollo de producto se acorta sustancialmente. Cuando Cierzo Development comenzó a desarrollar sistemas de IR para internet estuvimos visitando una empresa que había puesto a 6 informáticos durante 9 meses para desarrollar un sistema… de base de datos distribuida, lo cual iba a ser para ellos una gran ventaja competitiva … mmm … señores … conocen ustedes Hadoop? … se han dado una vuelta ultimamente por los servicios escalables big table que están comenzando a ofrecer Google o Amazon? El software libre nos permite concentrarnos únicamente en las funcionalidades que el usuario final va a percibir, y elimina de nuevo una ventaja competitiva de las grandes respecto a las pequeñas. La competición se centra en el conocimiento y la creatividad, y no en la fuerza bruta. Como startup, estamos acostumbrados a que empresas mucho más grandes se acerquen a nosotros “a inspirarse”, por decirlo muy respetuosamente. Su gran infraestructura se ha comido toda la creatividad y valentía de sus miembros.

Con estos cambios en tan solo pocos años no es de extrañar que el campo de la recuperación de información en internet esté creciendo increiblemente. Según botsvsbrowsers.com, actualmente hay ahí fuera más de 3500 robots conocidos, 10.000 desconocidos, y cerca de 300.000 agentes web!
Tenemos probablemente 10.000 empresas rastreando internet para generar valor añadido en el conocimiento volcado en la red en ámbitos muy diferentes de especialización. Esto es una barbaridad! Generar conocimiento es muy valioso para una civilización, pero ordenarlo y agregarlo lo es todavía más, porque amplía la base de la pirámide social y por lo tanto la hace más eficiente.

Este es un movimiento que va a continuar en los próximos años. Recuperación de información en internet (web information retrieval) y la explotación de dichos datos mediante minería de datos (data minning, text minning, semantic analysis) serán campos de un tremendo auge donde veremos nacer las próximas Google.

Tags: , , , , , ,

One Response to “El inmenso campo de la recuperación de información en internet”

  1. Smmart, social media marketing internet. 3SME » Previsiones IDC mercado búsqueda y descubrimiento de información Dice:

    [...] a este nuevo documento pero seguro que será muy interesante. Como dijimos hace algún tiempo, el campo de la recuperación de la información tiene un potencial tremendo y a día de hoy no se le ve techo, puesto que gran parte de la información que puede ser producida [...]

Deja un comentario