tag:blogger.com,1999:blog-365612722024-03-20T03:36:04.798+09:00Dirac Sea - Big Data en EspañolBlog de Big Data y Machine Learning Leon Palafoxhttp://www.blogger.com/profile/00162175198005112381noreply@blogger.comBlogger6125tag:blogger.com,1999:blog-36561272.post-85487330693139810812013-02-12T15:43:00.004+09:002019-07-04T02:52:32.054+09:00Haciendo Mapas de la Wikipedia<br />
<br />
<br />
Alguna vez te has preguntado para que sirven esos links geográficos en las páginas de Wikipedia.<br />
Estos Geotags son una herramienta bastante útil para relacionar artículos con sus localidades físicas.<br />
<br />
Como en este blog nos interesan los datos, resulta tambien bastante interesante pensar en que podemos usar estos tags para hacer una visualización de cuantos artículos de la Wikipedia hay por lenguaje.<br />
<br />
<a href="http://wikiproject.oii.ox.ac.uk/mapping_wikipedia/">Y al hacer esto, obtenemos resultados muy divertidos, como los que nosmuestra la universidad de Oxford, donde se encargaron de hacer elmapeo para algunos de los lenguajes.</a><br />
<br />
Lastima que no esta el español, seria interesante ver esa distribución.Leon Palafoxhttp://www.blogger.com/profile/00162175198005112381noreply@blogger.com0tag:blogger.com,1999:blog-36561272.post-33279226834969067642013-02-07T18:57:00.003+09:002013-02-07T18:58:30.589+09:00Como usar Machine LearningSiempre es difícil elegir que algoritmo de Machine Learning utilizar cuando te enfrentas a una nueva base de datos. Con tiempo y práctica, uno logra adquirir cierta intuición sobre que algoritmo es mejor para alguna tarea en específico.<br />
<br />
<a href="https://twitter.com/t3kcit">Andy</a>, uno de los desarrolladores de<a href="http://scikit-learn.org/stable/"> scikit-learn</a>, dibujó este <a href="http://peekaboo-vision.blogspot.de/2013/01/machine-learning-cheat-sheet-for-scikit.html">buen gráfico</a> para dar una idea de como empezar a utilizar Machine Learning con un nuevo set de datos.<br />
<br />
<br />
<br />
<br />
<br />
<div class="separator" style="clear: both; text-align: center;">
<a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiWL1DqsVTnhedfp4-tG-7MTQvFkGfRnW1tNEzGFleR2uRLVBDKpu55O42jYAfsGUKPhY9GBuYaKW5VElffnCeDVI0YTGPy_ePHT7k68WMFyDLyXrWTV3BpJLMSUFTjRctzL9Kr/s1600/drop_shadows_background.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="220" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiWL1DqsVTnhedfp4-tG-7MTQvFkGfRnW1tNEzGFleR2uRLVBDKpu55O42jYAfsGUKPhY9GBuYaKW5VElffnCeDVI0YTGPy_ePHT7k68WMFyDLyXrWTV3BpJLMSUFTjRctzL9Kr/s400/drop_shadows_background.png" width="400" /></a></div>
<br />Leon Palafoxhttp://www.blogger.com/profile/00162175198005112381noreply@blogger.com0tag:blogger.com,1999:blog-36561272.post-7493999814466234112013-02-01T19:14:00.000+09:002013-02-01T19:14:24.005+09:00Curso de Big Data en NYU<br />
<div lang="es-MX" style="margin-bottom: 0cm;">
<span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">Una
de las personas mas importantes en la comunidad de Machine Learning
es <a href="http://yann.lecun.com/">Yann LeCun</a> de la <a href="http://cilvr.cs.nyu.edu/doku.php?id=start">Universidad de Nueva York</a>. Él ha estado
involucrado mucho en temas relacionados a redes neuronales y sus
artículos de investigación constantemente están en las mejores
revistas y conferencias de Machine Learning. Desde que yo me empece a
interesar por Machine Learning y Redes Neuronales, por allá del
2005, sus artículos siempre eran una de las referencias obligadas.</span></span></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">Otra
persona que también es bastante reconocida en el área es <a href="http://hunch.net/~jl/">JohnLangford</a> que actualmente trabaja en Microsoft Research. Él fue el
desarrollador de <a href="http://hunch.net/~vw/">Vowpal Wabbit</a>, que es una de las mejores librerías
para usar algoritmos de Machine Learning.</span></span></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">Ambos
tienen mucho interés por hacer crecer a la comunidad, pero antes que
nada que crezca con una dirección y con fundamentos teóricos
fuertes. </span></span>
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">Empezaron
hace una semana un</span></span><span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">
curso </span></span><span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">de
<a href="http://cilvr.cs.nyu.edu/doku.php?id=courses:bigdata:slides:start">Big Data y Machine Learning</a></span></span><span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">,
donde puedes ver las clases así como las tareas. Les recomiendo a
todos tratar de ver los videos, ya que ambas personas son de lo mejor
que hay en el </span></span><span style="font-family: Times New Roman, serif;"><span style="font-size: medium;">área.</span></span></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<span style="font-family: Times New Roman, serif;"><span style="font-size: medium;"><br /></span></span></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<span style="font-family: Times New Roman, serif;"><span style="font-size: medium;"><a href="http://cilvr.cs.nyu.edu/doku.php?id=courses:bigdata:slides:start">De nuevo el link del curso para los despistados</a></span></span></div>
Leon Palafoxhttp://www.blogger.com/profile/00162175198005112381noreply@blogger.com0tag:blogger.com,1999:blog-36561272.post-39415523832671319732013-01-31T16:00:00.000+09:002013-03-12T10:12:59.433+09:00Hackaton de Data en Monterrey<br />
<div lang="es-MX" style="margin-bottom: 0cm;">
Los chicos de <a href="http://opendatamty.org/">OpenDataMTY</a>
están organizando un hackaton para crear aplicaciones y
visualizaciones.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Un <a href="http://en.wikipedia.org/wiki/Hackathon">Hackaton</a> es, en
esencia, un grupo de programadores que son encerrados por 2 días en
una jaula, y se dedican a programar sin cesar.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Varias compañías como
Facebook y Google organizan sus propios Hackatones internos, y asi es
como algunas muy buenas ideas se han realizado (y otras no tanto)</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
La iniciativa me parece
buena, y las bases de datos que van a usar también me parecen
interesantes.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Algunas ideas para los
chicos que quieran aplicar y me parecen interesantes:</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Pueden usar algún
algoritmo de agrupamiento para visualizar la similitud de ciudades en
Mexico (por ejemplo <a href="http://en.wikipedia.org/wiki/K-means_clustering">K-Means</a>)</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Pueden tratar de usar <a href="http://en.wikipedia.org/wiki/Bayesian_network">redes Bayesianas</a> para obtener la probabilidad de ser asaltado, o la
probabilidad de cualquier crimen dado estatus social, color y edad.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Si alguien quiere mas
ideas, ya saben, pueden contactarme en mi Twitter (@leonpalafox)</div>
Leon Palafoxhttp://www.blogger.com/profile/00162175198005112381noreply@blogger.com0tag:blogger.com,1999:blog-36561272.post-77130337565138780252013-01-31T15:49:00.003+09:002013-01-31T15:49:51.228+09:00A que equipo le vas?<br />
<div lang="es-MX" style="margin-bottom: 0cm;">
Una
de las cualidades que tienen los miembros de Facebook, es que tienen
acceso a todos los datos de los millones de usuarios que tiene el
servicio.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<span style="color: black;">Mientras
mi opinión personal es que no han usado esos datos de la manera mas
optima, hay que admitir que su equipo de repente hace cosas
divertidas.</span></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<a href="https://twitter.com/seanjtaylor">Sean Taylor</a> hizo unas
visualizaciones bastante divertidas, que van en linea con el evento
del siguiente fin de semana, el <a href="http://www.facebook.com/notes/facebook-data-science/nfl-fans-on-facebook/10151298370823859">Super Tazon.</a></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div class="separator" style="clear: both; text-align: center;">
<a href="http://sphotos-d.ak.fbcdn.net/hphotos-ak-ash3/s720x720/528895_10151382327948415_1568495614_n.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="232" src="http://sphotos-d.ak.fbcdn.net/hphotos-ak-ash3/s720x720/528895_10151382327948415_1568495614_n.png" width="400" /></a></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br /></div>
<div lang="es-MX" style="margin-bottom: 0cm;">
En estos mapas, Sean
divide por condados a los fans de los equipos de la NFL, y si, los
Vaqueros de Dallas son el equipo que mas gusta en USA.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Me parecería
marginalmente interesante hacer un ejercicio similar para México, y
descubrir de una vez por todas si es el América o el Chivas el
equipo mas popular de México, así como su distribución geográfica.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Otra de las cosas que
aprendemos de la gráfica de sean, es que muchos estados que son
considerados conservadores también son los que son mas fanáticos de
los Vaqueros.</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
<br />
</div>
<div lang="es-MX" style="margin-bottom: 0cm;">
Cual es su opinión, les
gustaría ver una visualización similar para México?</div>
Leon Palafoxhttp://www.blogger.com/profile/00162175198005112381noreply@blogger.com0tag:blogger.com,1999:blog-36561272.post-70401092023913144682013-01-31T15:07:00.002+09:002013-02-12T15:48:48.130+09:00Que es Big Data y que es un Data Scientists?<br />
<br /><br />En su último post <a href="http://www.bigdatagal.com/">Lilian Pierson</a> evoca la pregunta retorica:<br />Entonces quieres ser un Data Scientist?<br /><br />Después de esto, elabora en algunos recursos y herramientas que es necesario dominar para poder autodenominarse un Data Scientist.<br /><a href="http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1">The Harvard Review</a> también denomino a un Data Scientists como el trabajo mas sexy del siglo 21.<br /><br /><div>
Pero que es en realidad un Data Scientist? Que características los distinguen de los demás científicos, y es mas, la pregunta obligada es: Es un Científico también?<br /></div>
<div>
Y la respuesta corta es no, un Data Scientist, o científico de datos, es tan científico como un Medico o un Ingeniero, el enfoque de un Científico de Datos es utilizar herramientas ya existentes para proveer algún tipo de información que los datos puedan proveer.<br /><br />Estas herramientas, como lo menciona Lilian, pueden variar desde las herramientas practicas y técnicas, como lenguajes de programación, hasta herramientas mas sofisticadas, como lo son técnicas de inteligencia artificial y Machine Learning.<br /></div>
<div>
Y a que nos referimos con Big Data?<br /><br />Para eso, necesitamos hacer un poco de historia, algunos recordaran el boom del Internet y las bases de datos a principios del milenio, todas las compañías querían a un programador que supiera utilizar el bendito SQL, PHP y Apache. Estas herramientas están dedicadas a coleccionar la información de usuarios en Bases de Datos. <br />Después de pasar los últimos 10 años reuniendo toda la información de sus usuarios, las compañías se dieron cuenta que tenían bases de datos enormes, las cuales tenían información que los podían ayudar a vender mejor sus productos o a mejorar la eficiencia de su servicio.<br />Que tipo de información podemos obtener de nuestras bases de datos?<br /><br />Entre algunos ejemplos, podemos obtener el perfil de nuestros clientes y hacer recomendaciones, como lo hace <a href="http://amazon.com/">Amazon.com</a>. También podemos usar todos estos datos para personalizar la experiencia en <a href="http://gigaom.com/2012/09/16/how-disney-built-a-big-data-platform-on-a-startup-budget/">Disneylandia</a>. <br /><br />Las posibilidades son infinitas!<br /><br />Mi objetivo personal con este blog, es ofrecer una perspectiva internacional de Big Data, Machine Learning y Data Scientist en México, me interesa que este campo crezca y que se fomente su educación en universidades.<br /><br />Pueden contactarme a mi Twitter @leonpalafox, donde posteo cosas relacionadas con Machine Learning y Big Data.<br /><br /></div>
Leon Palafoxhttp://www.blogger.com/profile/00162175198005112381noreply@blogger.com0