Tuesday, February 12, 2013

Haciendo Mapas de la Wikipedia




Alguna vez te has preguntado para que sirven esos links geográficos en las páginas de Wikipedia.
Estos Geotags son una herramienta bastante útil para relacionar artículos con sus localidades físicas.

Como en este blog nos interesan los datos, resulta tambien bastante interesante pensar en que podemos usar estos tags para hacer una visualización de cuantos artículos de la Wikipedia hay por lenguaje.

Y al hacer esto, obtenemos resultados muy divertidos, como los que nosmuestra la universidad de Oxford, donde se encargaron de hacer elmapeo para algunos de los lenguajes.

Lastima que no esta el español, seria interesante ver esa distribución.

Thursday, February 07, 2013

Como usar Machine Learning

Siempre es difícil elegir que algoritmo de Machine Learning utilizar cuando te enfrentas a una nueva base de datos. Con tiempo y práctica, uno logra adquirir cierta intuición sobre que algoritmo es mejor para alguna tarea en específico.

Andy, uno de los desarrolladores de scikit-learn, dibujó este buen gráfico para dar una idea de como empezar a utilizar Machine Learning con un nuevo set de datos.






Friday, February 01, 2013

Curso de Big Data en NYU


Una de las personas mas importantes en la comunidad de Machine Learning es Yann LeCun de la Universidad de Nueva York. Él ha estado involucrado mucho en temas relacionados a redes neuronales y sus artículos de investigación constantemente están en las mejores revistas y conferencias de Machine Learning. Desde que yo me empece a interesar por Machine Learning y Redes Neuronales, por allá del 2005, sus artículos siempre eran una de las referencias obligadas.

Otra persona que también es bastante reconocida en el área es JohnLangford que actualmente trabaja en Microsoft Research. Él fue el desarrollador de Vowpal Wabbit, que es una de las mejores librerías para usar algoritmos de Machine Learning.

Ambos tienen mucho interés por hacer crecer a la comunidad, pero antes que nada que crezca con una dirección y con fundamentos teóricos fuertes.

Empezaron hace una semana un curso de Big Data y Machine Learning, donde puedes ver las clases así como las tareas. Les recomiendo a todos tratar de ver los videos, ya que ambas personas son de lo mejor que hay en el área.

Thursday, January 31, 2013

Hackaton de Data en Monterrey


Los chicos de OpenDataMTY están organizando un hackaton para crear aplicaciones y visualizaciones.

Un Hackaton es, en esencia, un grupo de programadores que son encerrados por 2 días en una jaula, y se dedican a programar sin cesar.

Varias compañías como Facebook y Google organizan sus propios Hackatones internos, y asi es como algunas muy buenas ideas se han realizado (y otras no tanto)

La iniciativa me parece buena, y las bases de datos que van a usar también me parecen interesantes.

Algunas ideas para los chicos que quieran aplicar y me parecen interesantes:

Pueden usar algún algoritmo de agrupamiento para visualizar la similitud de ciudades en Mexico (por ejemplo K-Means)

Pueden tratar de usar redes Bayesianas para obtener la probabilidad de ser asaltado, o la probabilidad de cualquier crimen dado estatus social, color y edad.

Si alguien quiere mas ideas, ya saben, pueden contactarme en mi Twitter  (@leonpalafox)

A que equipo le vas?


Una de las cualidades que tienen los miembros de Facebook, es que tienen acceso a todos los datos de los millones de usuarios que tiene el servicio.

Mientras mi opinión personal es que no han usado esos datos de la manera mas optima, hay que admitir que su equipo de repente hace cosas divertidas.

Sean Taylor hizo unas visualizaciones bastante divertidas, que van en linea con el evento del siguiente fin de semana, el Super Tazon.




En estos mapas, Sean divide por condados a los fans de los equipos de la NFL, y si, los Vaqueros de Dallas son el equipo que mas gusta en USA.

Me parecería marginalmente interesante hacer un ejercicio similar para México, y descubrir de una vez por todas si es el América o el Chivas el equipo mas popular de México, así como su distribución geográfica.

Otra de las cosas que aprendemos de la gráfica de sean, es que muchos estados que son considerados conservadores también son los que son mas fanáticos de los Vaqueros.

Cual es su opinión, les gustaría ver una visualización similar para México?

Que es Big Data y que es un Data Scientists?




En su último post Lilian Pierson evoca la pregunta retorica:
Entonces quieres ser un Data Scientist?

Después de esto, elabora en algunos recursos y herramientas que es necesario dominar para poder autodenominarse un Data Scientist.
The Harvard Review también denomino a un Data Scientists como el trabajo mas sexy del siglo 21.

Pero que es en realidad un Data Scientist? Que características los distinguen de los demás científicos, y es mas, la pregunta obligada es: Es un Científico también?
Y la respuesta corta es no, un Data Scientist, o científico de datos, es tan científico como un Medico o un Ingeniero, el enfoque de un Científico de Datos es utilizar herramientas ya existentes para proveer algún tipo de información que los datos puedan proveer.

Estas herramientas, como lo menciona Lilian, pueden variar desde las herramientas practicas y técnicas, como lenguajes de programación, hasta herramientas mas sofisticadas, como lo son técnicas de inteligencia artificial y Machine Learning.
Y a que nos referimos con Big Data?

Para eso, necesitamos hacer un poco de historia, algunos recordaran el boom del Internet y las bases de datos a principios del milenio, todas las compañías querían a un programador que supiera utilizar el bendito SQL, PHP y Apache. Estas herramientas están dedicadas a coleccionar la información de usuarios en Bases de Datos.
Después de pasar los últimos 10 años reuniendo toda la información de sus usuarios, las compañías se dieron cuenta que tenían bases de datos enormes, las cuales tenían información que los podían ayudar a vender mejor sus productos o a mejorar la eficiencia de su servicio.
Que tipo de información podemos obtener de nuestras bases de datos?

Entre algunos ejemplos, podemos obtener el perfil de nuestros clientes y hacer recomendaciones, como lo hace Amazon.com. También podemos usar todos estos datos para personalizar la experiencia en Disneylandia.

Las posibilidades son infinitas!

Mi objetivo personal con este blog, es ofrecer una perspectiva internacional de Big Data, Machine Learning y Data Scientist en México, me interesa que este campo crezca y que se fomente su educación en universidades.

Pueden contactarme a mi Twitter @leonpalafox, donde posteo cosas relacionadas con Machine Learning y Big Data.