Principal >> Entradas con la etiqueta ‘ec2’

Entradas con la etiqueta ‘ec2’

Open Goverment: Cada vez más datos, y cada vez menos expertos

Martes, agosto 24th, 2010

En un post anterior “Necesitamos expertos en la ciencia de los datos“, comentaba la impresionante demanda de expertos en tecnologías avanzadas para manejar datos, como computación en la nube (como Amazon o Google), almacenamiento (bases de datos nosql), distribución (como Hadoop), rastreo y recuperación (Nutch, Apache Lucene) y tantas otras variantes. Marc desde su trabajo en Londres donde tuvo que emigrar para trabajar en lo suyo (computación distribuida) me comenta:

” Que alegría ver una empresa española que hable de la ‘ciencia de datos’. Actualmente estoy en Londres y sólo se habla de esto, en España parece que vamos unos años por detrás en temas tecnológicos. En fin, parece que hay esperanza. “

Cada vez hay más datos ahí fuera, y cada vez es más difícil de manejarlos sin tecnología. Las bases de datos relacionales  se quedan pequeñas, los centros de datos se quedan pequeños, los paradigmas de programación tradicionales… bueno, estos aguantan el tirón a duras penas, pero tengan por seguro que los programadores del futuro estarán más cerca de ser científicos expertos en matemáticas, computación cuántica, y programación probabilística que diseñadores de algoritmos. Sin lugar a dudas, las ciudades con mejores facultades de matemáticas dominarán el desarrollo tecnológico los próximos 50 años.

Ahora se aproxima una nueva avalancha de datos disponibles: el Open Goverment. Las administraciones públicas, siguiendo la estela del gobierno Obama, se han convencido a si mismas de que poner datos en internet mejorará de alguna manera la calidad de los ciudadanos. Lideran este movimiento los gobiernos americano (data.gov) y británico (data.gov.uk). En España son ejemplos representativos las comunidades de Euskadi y Asturias, y los Ayuntamientos de Zaragoza y Gijón. Todos ellos volcados en el tema del RISP (reutilización de información en el sector público).

Si 5000 municipios de tamaño medio – grande de España comienzan a publicar en tiempo real decenas de fuentes de información. Tendremos una base de datos semiestructurada que crecerá a un ritmo de 1GB x segundo y necesitará 500 horas / máquina a la hora para poder “masticar” estos datos. Por supuesto, nadie se encargará de almacenarlo todo, ni nadie se encargará de masticarlo todo (Precisamente el paradigma del Open Data es que las administraciones hacen públicos datos para que cada uno coja y utilice lo que quiera) ¿o sí?