El blog de Abel Gonzalez         ¿A quién va usted a creer, a mí o a sus propios ojos?

Ciencia bayesiana

Llevo unos días recopilando datos de conversión de Infohostal.com. Esto, basicamente, es definir un “embudo” o “funnel” de conversión, que suele ser el proceso de compra en sus pasos finales. Todo para descubrir correlaciones ocultas en los datos. Me quejaba yo de que como el corpus de datos es aún limitado todavía la muestra es en muchos aspectos insuficiente.

En la revista Wired se ha publicado el artículo The End of Theory: The Data Deluge Makes the Scientific Method Obsolete donde explica que la llegada de las enormes bases de datos que manejan actualmente las empresas están permitiendo formular soluciones concretas sin necesidad de una teoría intermedia. Como ejemplo pondremos el spell checker de Google… Si buscais en Google España “Ballesiana” Google detectará el error y pregunta “Quizás quiso decir: bayesiana”.

Los desarrolladores de este spell checker no necesitan saber mil lenguas y ni siquiera necesitan saber gramática generativa ni trabajar con los universales lingüisticos; no necesitan entender el problema para resolverlo. Google tiene una base de datos lo suficientemente grande como para deducir por pura estadística que el usuario quiso decir “bayesiana”. Así construyen su traductor, sin tener ni idea de japonés, español o quechua. La base de datos es tan grande que se pueden extraer las correlaciones entre lenguas y entregar una traducción de una calidad buena teniendo en cuenta lo mal que funcionan los traductores. Un modelo probabilístico multivariado. La fuerza de correlación.

Las empresas que son capaces de conseguir formar una base de datos de petabytes sobre sus clientes y sepan aplicar estas técnicas pueden obtener resultados impresionantes.

A veces vale con obtener suficientes correlaciones. Hoy se trabaja en esta dirección en la detección de fraude, el scoring de clientes o la prevención de abandono en la compra al igual que ya se muestra la potencia del método en los filtros anti-spam.

Posted in no clasificado on June 30th, 2008 by Abel | |

Un comentario to ' Ciencia bayesiana '

Suscribete a los comentarios via RSS or TrackBack to ' Ciencia bayesiana '.

  1. Martin said,

    on July 1st, 2008 at 8:09 am

    Business Inteligence, DataWareHouse, DataMining …

Deja un comentario