Principal >> Entradas con la etiqueta ‘apache lucene’

Entradas con la etiqueta ‘apache lucene’

Open Goverment: Cada vez más datos, y cada vez menos expertos

Martes, agosto 24th, 2010

En un post anterior “Necesitamos expertos en la ciencia de los datos“, comentaba la impresionante demanda de expertos en tecnologías avanzadas para manejar datos, como computación en la nube (como Amazon o Google), almacenamiento (bases de datos nosql), distribución (como Hadoop), rastreo y recuperación (Nutch, Apache Lucene) y tantas otras variantes. Marc desde su trabajo en Londres donde tuvo que emigrar para trabajar en lo suyo (computación distribuida) me comenta:

” Que alegría ver una empresa española que hable de la ‘ciencia de datos’. Actualmente estoy en Londres y sólo se habla de esto, en España parece que vamos unos años por detrás en temas tecnológicos. En fin, parece que hay esperanza. “

Cada vez hay más datos ahí fuera, y cada vez es más difícil de manejarlos sin tecnología. Las bases de datos relacionales  se quedan pequeñas, los centros de datos se quedan pequeños, los paradigmas de programación tradicionales… bueno, estos aguantan el tirón a duras penas, pero tengan por seguro que los programadores del futuro estarán más cerca de ser científicos expertos en matemáticas, computación cuántica, y programación probabilística que diseñadores de algoritmos. Sin lugar a dudas, las ciudades con mejores facultades de matemáticas dominarán el desarrollo tecnológico los próximos 50 años.

Ahora se aproxima una nueva avalancha de datos disponibles: el Open Goverment. Las administraciones públicas, siguiendo la estela del gobierno Obama, se han convencido a si mismas de que poner datos en internet mejorará de alguna manera la calidad de los ciudadanos. Lideran este movimiento los gobiernos americano (data.gov) y británico (data.gov.uk). En España son ejemplos representativos las comunidades de Euskadi y Asturias, y los Ayuntamientos de Zaragoza y Gijón. Todos ellos volcados en el tema del RISP (reutilización de información en el sector público).

Si 5000 municipios de tamaño medio – grande de España comienzan a publicar en tiempo real decenas de fuentes de información. Tendremos una base de datos semiestructurada que crecerá a un ritmo de 1GB x segundo y necesitará 500 horas / máquina a la hora para poder “masticar” estos datos. Por supuesto, nadie se encargará de almacenarlo todo, ni nadie se encargará de masticarlo todo (Precisamente el paradigma del Open Data es que las administraciones hacen públicos datos para que cada uno coja y utilice lo que quiera) ¿o sí?

¿Hasta donde enseñar la liga?

Jueves, julio 15th, 2010

A pesar de lo que pueda parecer este post va sobre medios de comunicación y en concreto medios digitales.

Dentro del juego de la superviviencia, es evidente que la capacidad de cooperar es una ventaja evolutiva. Una definición muy particular del término (mía :) ) es que compartes parte de tus recursos en espera de que 1. otra parte también lo haga y 2. el resultado conjunto sea mejor que la suma de las partes. Cooperar significa aceptar una incertidumbre en pos de un objetivo compartido, y no todas las especies están igual de preparadas para cooperar.

flor_de_loto_x

cfiles39804

En el pasado Apache Lucene Eurocon 2010 pudimos conocer la excelente estrategia online de The Guardian, que estaba abriendo sus contenidos a terceros para que pudieran explotarlos a través de su The Guardian Open Platform.

Solo un párrafo para hablar sobre los detalles técnicos de la plataforma, que hubiera sido imposible con arquitecturas tradicionales. The Guardian ha implementado una pasarela desde sus anticuados sistemas hacia Apache Lucene Solr, que es un sistema de almacenamiento/buscador/servidor en el estado del arte de técnicas que vamos a oir mucho próximamente como bases de datos nosql, o sistemas de búsqueda faceted, clusstering dinámico y un largo etcetera.

Felicidades a The Guardian por el camino que ha elegido, tan diferente del que están siguiendo muchos medios, agarrados a la esperanza de que el Ipad y el Iphone les permitan seguir siendo los únicos poseedores y transformadores de la información:
- felicidades por haber elegido una plataforma open source (sin coste) que supera en un orden de magnitud el rendimiento del software propietario de los de siempre.
- felicidades por seguir una estrategia evolutiva basada en la cooperación.

Una planta con flor decide dejar de “copularse a si misma”. Esto tiene el riesgo de depender de animalicos voladores para portar su simiente, y la hace por su visibilidad muy sujeta a todo tipo de abusos (como ser comida por un reno despistado). Sin embargo, la capacidad de alcanzar zonas menos pobladas o cruzar su adn con otros miembros de la especie más distantes supera con creces los riesgos.

La flor se abre a cooperar y automáticamente obtiene una ventaja evolutiva que le hace destacar de su entorno y en última instancia sobrevivir.

Otro punto de vista es que hay un desequilibrio entre la información de la que dispone (su adn) y u capacidad de distribuirlo (muy limitada!). Al cambiar de estrategia limita su control de la situación pero alcanza capacidad de ditribucion.

En la misma encrucijada están los medios digitales, con un montón de información de calidad, con unas hemerotecas que rebosan información (como el adn de las flores), pero débilmente explotadas por un conjunto de humanos que son muy buenos en tratar información en pequeña escala (este artículo sobre Iker casillas), pero muy malos en la gran escala (esos 10 millones de documentos aparecidos en internet sobre Iker Casillas en 24h).

Para reducir ese desequilibrio, The Guardian permeabiliza sus fronteras y permite que otros le saquen partido a la información para hacerla llegar a su destino. The Guardian manda un mensaje, como lo es el color de las flores: “espertos en gestionar información a gran escala, ustedes abejas informáticas acérquense a mi nectar y hagan con él lo que estimen oportuno, siempre que yo salga beneficiado”.

Así si!

——————————————
Este blog publica habitualmente 6 artículos mensuales relacionados con el Social Media, el marketing digital y la recuperación de información en internet. ¿Por que no suscribirte para mantenerte informado de las novedades?
Add to Google

Seguro que conoces a alguien en Facebook o Twitter a quien pueda interesarle este artículo.

Share/Bookmark