Autor: Juan Bosco Mendoza Vega
-
Variables dummy (one-hot encoding) con R
Los datos categóricos o nominales, como su nombre lo indica, son usados para nombrar o categorizar información. Este tipo de dato se caracteriza por no ser ordenado, incluso si se usan números para representarlos. El nombre de las diferentes razas de perros es un dato categórico. Aunque puedes ordenar todos los nombres alfabéticamente, carece de…
-
Análisis de Componentes Principales para clasificar superhéroes
Soy aficionado a los superhéroes. Muy aficionado. Hasta podría atribuir mi gusto a la lectura a los cómics de Superman y Batman cuando era pequeño, y que haya sobrevivido a la pubertad y adolescencia a los cómics de los X-Men. Así que, cuando me encontré con un conjunto de datos con información de superhéroes y…
-
Redes relacionales con R – Tipos de Pokémon
Las redes relacionales son una manera de visualizar información que resulta muy útil para datos cualitativos y cuantitativos. Como su nombre lo indica, este tipo de redes son utilizadas para mostrar relaciones entre datos, generalmente nominales (nombres, categorías, etiquetas). Por ejemplo, la afinidad entre los integrantes de un equipo de trabajo, los principales clientes de…
-
Mapas temáticos con R — Homicidios en México durante el 2017
Al momento de escribir esto, en México estamos muy próximos a las elecciones para elegir Presidente del país. Entre los muchos temas de interés para la ciudadanía que forman parte de la agenda de los candidatos a la presidencia, uno muy importante es la seguridad. Datos recientes revelan que hasta 76% de los mexicanos se…
-
Webscrapping, APIs y minería de texto con R. Análisis de sentimientos de Coheed and Cambria
Inspirado por análisis realizados por otras personas, decidí que es un buen momento de conocer mejor el contenido de la música de Coheed and Cambria, aplicando técnicas de minería de texto con R. Coheed and Cambria es una de mis bandas favoritas. Tiene la distinción de ser una de las pocas bandas que he escuchado…
-
Alfa de Cronbach – Psicometría con R
Esta entrada está dirigido a practicantes de psicometría que están interesados en realizar sus análisis usando R, pero que no necesariamente son expertos en este lenguaje de programación. Revisaremos como obtener e interpretar el coeficiente Alfa de Cronbach usando el paquete psych de R. Usaremos un conjunto de datos abierto, correspondiente a un test de…
-
Redes semánticas con R
En este entrada revisaremos como crear redes semánticas usando R y en el proceso veremos cómo hacer algunas de las tareas más comunes al procesar texto. Una introducción informal a las redes semánticas Las redes semánticas son una técnica de representación usada en distintas disciplinas, entre ellas, la minería de texto. Estas redes son una…
-
Arboles de decisión con R – Clasificación
En este artículo revisaremos lo esencial para implementar árboles de decisión en R, en particular el caso de los árboles de clasificación, usando el paquete rpart. Utilizaremos un conjunto de datos usado frecuentemente para probar métodos de aprendizaje automático en nuestro ejemplo y durante el proceso daremos también un vistazo a algunos problemas comunes al…
-
Análisis de sentimientos con R – Léxico Afinn
En este documento revisaremos cómo realizar análisis de sentimientos usando R y el léxico Afinn. Nos enfocaremos en algunas de las opciones que tenemos para analizar sentimientos usando R más que en los resultados específicos de los datos que usaremos, pero en el proceso veremos maneras para contestar ciertas preguntas: ¿Cuáles palabras han influido para…
-
Naïve Bayes con R para clasificación de texto
En este artículo revisaremos como implementar el Naïve Bayes (clasificador Bayesiano ingenuo) para clasificar texto usando R. Naïve Bayes es un algoritmo de aprendizaje automático basado en el teorema de Bayes que aunque es sencillo de implementar, tiende a dar buenos resultados. Usaremos un conjunto de datos sencillo, obtenido con la API de Twitter, que…