Principal >> Entradas con la etiqueta ‘analisis semantico’

Entradas con la etiqueta ‘analisis semantico’

El 15M NO estaba manipulado. Estudio científico

Viernes, junio 17th, 2011

Hace un momento acaba de finalizar la rueda de prensa que ha presentado el “Estudio sobre el 15M en las redes sociales“, fruto de una colaboración entre el BIFI (Universidad de Zaragoza) y Cierzo Development (SMMART). Algunos resultados del estudio, como el vídeo de las iteraciones entre los usuarios o los modelos de propagación vírica, son bastante espectaculares. Hay una conclusión que tiene cierta transcendencia pues se afirma que “esta efervescencia es un dato que apoya también la hipótesis de “espontaneidad” o emergencia, alejando los rumores de que el movimiento estaba de algún modo manipulado para incidir en el resultado electoral del 22M. El patrón de crecimiento del movimiento recuerda otros ejemplos bien conocidos en el ámbito de la criticalidad auto-organizada (fenómenos críticos en física, economía, avalanchas, terremotos…)”

Os pongo aquí algunos anticipos:

Lo más llamativo, animación con las iteraciones de todos los usuarios durante los últimos 30 días

Patrón de propagación vírica del movimiento

Análisis de efervescencia

Este proyecto es fruto de la colaboración entre Cierzo Development (que desarrolla tecnología de rastreo de información y análisis semántico), y el BIFI (que es un referente internacional en herramientas computacionales y teoría de redes). Para Cierzo development, la presentación de este trabajo nos hace avanzar un paso más en el desarrollo de nuestra tecnología SMMART.

El estudio se ha publicado en su propia página. Os recomiendo echarle un vistazo porque no tiene desperdicio y se pueden encontrar cuestiones muy interesantes.

Hace pocos días volvíamos del WIMS’11 en Noruega, la conferencia internacional de inteligencia web, minería y semántica, donde presentamos nuestro sistema para visualización gráfica de iteraciones de usuarios en twitter, aceptado entre cientos de papers en las ponencias científicas del evento. Ahora colaboramos en este proyecto que va más allá animando dichas iteracciones y estudiando sus patrones de propagación vírica, entre otros muchos factores que nos permiten entrender como están funcionando los flujos de información en internet, y la interconexión que existe entre lo que sucede en internet y lo que sucede “más allá de internet”.

Este va a ser un campo muy fructífero de exploración donde Cierzo Development tiene varias líneas de investigación abiertas, desde el ámbito institucional para la comprensión de fenómenos de masas en internet, en el ámbito de la generación de insights cualitativos para las organizaciones, ciberseguridad y cibercrimen, en el terreno de la tecnología predictiva, y en el terreno de la interpretación emocional.

Estado del análisis del sentimiento: Watson (IBM) gana al Jeopardy!

Lunes, enero 17th, 2011

Alan Turing fue uno de los grandes del siglo XX. Matemático, criptógrafo, filósofo… entre sus aportaciones a la historia de la humanidad destacan un papel importante en el desciframiento de Enigma, la máquina de encriptación nazi, que sirvió de manera decisiva para ganar la segunda guerra mundial; y el famoso Test de Turing, una prueba para medir cuando las máquinas fueran tan inteligentes como los humanos.

De modo muy resumido consiste en poner tras un panel a un ordenador y hacerle preguntas. El ordenador supera el test de turing si un juez le hace preguntas y no consigue adivinar si es un humano o una computadora. No es baladí: quien consiga crear dicho ordenador recibe un premio de 100.000$ . Por supuesto, nadie lo ha superado todavía.

Aunque se producen avances significativos. Hace poco Watson, un ordenador de IBM, logró ganar al Jeopardy! (un juego de preguntas de la tele) a dos de sus mejores jugadores. Jeopardy! no es tan difícil como el Test de turing, pero se le parece.

¿Por qué es más sencillo para una máquina Jeopardy! que el Test de Turing? Bueno, castizamente en el Jeopardy! el ordenador sabe “por donde le vienen”. Hay varias categorías generales, y eso es mucha, muchísima ayuda a la hora de determinar el contexto. Como hablamos en post anteriores, determinar el contexto es vital para resolver un problema de interpretación del lenguaje humano.

Otra cosa muy interesante es el proceso de almacenamiento de datos y de análisis semántico. Las reglas dicen que el ordenador no puede estar conectado a internet, así que ha tenido que almacenar (y estructurar) grandes cantidades de datos previamente. De algún modo Watson ha comprimido información, del mismo modo que lo hace nuestro cerebro.

Otra bastante importante, es que los propios técnicos de IBM explican que Watson emplea varios sistemas de análisis del sentimiento en paralelo, y luego si varios apuntan en la misma dirección aumenta la confianza en la respuesta. Se parece a los sistemas redundantes de los aviones, y también va en la línea de la Google Prediction API, un sistema todavía no muy estable, pero con una pinta estupenda y que va a acabar pasando por la derecha a la mayoría de los sistemas de análisis del sentimiento actualmente en el mercado.

Análisis semántico y contexto personal

Lunes, mayo 17th, 2010

Muchas veces me toca hacer de “angel exterminador” de las ilusiones de los clientes en lo tocante al análisis semántico automatizado. En clientes grandes, no es inusual que el reto sea analizar quizás 10.000 informaciones semanales. Ante este panorama, sería sensacional que pudiéramos automatizar completamente el análisis de dicha información, que hubiera un programita que produjera unos resultados equivalentes a que alguien con mucho criterio se hubiera leido esas 10.000 informaciones.

Esto no se puede resolver así de sencillo. Con el paso del tiempo, las empresas que ofrecemos servicios de sentiment analysis hemos aprendido a plantear y resolver estos proyectos de modos mucho más prácticos, pero hoy quería profundizar un poco más sobre otro problema. Y para hacerlo me voy a apoyar en una de las últimas patentes publicadas por Google, en concreto la US 2007/0038601: Aggregating Context data for programmable search engines.

El objetivo de esta patente es proteger una metodología que agrega “contextos”. Contexto en este ámbito es una “intencionalidad de búsqueda”. Una imagen vale más que mil palabras:

contexto

En este caso el mecanismo de agregación de contexto reivindicado no me interesa mucho, pero fijaros en los ejemplos de diferentes contextos para una búsqueda sobre videocámaras:
- usuario profesional
- consumidor
- propietario
- revisiones profesionales
- buscando una videocamara
- comprando una cámara
- soporte técnico
- comparando vendedores
- comparando precios
- …

Observad que hay tantos contextos como personas, y que el contexto de una persona cambia a lo largo del tiempo. Algunos son más prácticos que otros a la hora de ordenar información y seleccionar cúal es más relevante. Como en el análisis del sentimiento el contexto es determinante! No interesan los mismos resultados de búsqueda cuando estás comprando una videocámara que cuando tienes un problema con una; del mismo modo que no valoras igual un comentario sobre el precio de tu producto cuando tu competencia ha bajado el suyo que cuando lo ha subido.

Y esto es muy importante, porque al final te das cuenta que para que una máquina ordene resultados u análice sentimiento igual de bien que un humano… debería tener el mismo contexto que un humano. La historia que le precedió antes de nacer, su vida, su contexto sociocultural, la economía… todo determina el contexto! Desde el pasado día 16, resultados que eran relevantes para la búsqueda en España de “campeón de liga” han dejado de serlo, porque el contexto ha cambiado.

Y esto nos lleva a una última derivada todavía lejana en el tiempo, pero que haría soñar a Carl Sagan o Isaac Asimov. Si necesitamos contextos igual de buenos que los que tienen los seres humanos, que medios tenemos para trasladar el contexto de estos a las máquinas?

——————————–

Este blog publica habitualmente 6 artículos mensuales relacionados con el Social Media, el marketing digital y la recuperación de información en internet. ¿Por que no suscribirte para mantenerte informado de las novedades?
Add to Google

Seguro que conoces a alguien en Facebook o Twitter a quien pueda interesarle este artículo.

Share/Bookmark



Google Squared, una bomba silenciosa

Lunes, febrero 8th, 2010

Impresionante esta herramienta de Google. Se llama Google Squared y deja entrever hasta que punto ha llegado en el tema del análisis semántico: mucho más lejos que sus competidores, pero mucho menos de lo que la gente sueña.

Aquí os pongo un ejemplo con líderes políticos.
Lo interesante del caso es:
- sabe identificar elementos dentro de un texto que son del mismo tipo
- sabe identificar cuales son los atributos que se pueden extraer de dichos elementos (las columnas)

Es una demostración de fuerza bastante importante que ya habíamos visto por ejemplo en el caso de Swotti, sólo que en este caso el dominio se crea automáticamente (en el caso de Swotti, un humano decide hacer un análisis de móviles, y determina los atributos a analizar, y las frases que se utilizan en dichos atributos; en el caso de Google Squared, esto se hace automáticamente lo que permite analizar microsegmentos sin necesidad de un analista).

Ejemplo de móviles con análisis previo Swotti
Ejemplo al vuelo con Google Squared
Ejemplo de un microsegmento (demostración de que Google no ha puesto analistas para definir los dominios más usuales)