Etiqueta: data science
-
Last.fm Wrapped con R
Recientemente Spotify, el servicio de streaming musical compartió el “Wrapped” de sus usuarios, un resumen anual de su uso de la plataforma. Esta ha sido una iniciativa muy exitosa para Spotify, que genera mucho involucramiento y difusión, al grado que se ha convertido en un evento muy esperado por los usuarios de esta plataforma. Este año, 2024, los usuarios…
-
Visualizando los contagios y muertes de Coronavirus (COVID-19) con R
Al momento de escribir este artículo, no encontramos en medio de una pandemia global por una nueva cepa del Coronavirus (COVID-19), para la cual no cuenta con una vacuna, que ha contagiado a decenas de miles de personas en más de ciento cincuenta países, causando una enorme pérdida de vidas humana en algunos de ellos.…
-
XGBoost en R
XGBoost o Extreme Gradient Boosting, es uno de los algoritmos de machine learning de tipo supervisado más usados en la actualidad. Este algoritmo se caracteriza por obtener buenos resultados de predicción con relativamente poco esfuerzo, en muchos casos equiparables o mejores que los devueltos por modelos más complejos computacionalmente, en particular para problemas con datos…
-
Cambiar la zona horaria de datos Timestamp o Datetime en un query de SQL
Es común que las fechas almacenadas en una tabla no se encuentren en la misma zona horaria que las necesitamos. Podemos cambiar la zona horaria de nuestros datos al realizar un query, sin necesidad de hacer cambios directamente a la tabla que los contiene. Para ello necesitamos el código de la la zona horario en…
-
Aplicar una funcion a un data frame, por renglon, usando purrr
purrr es un paquete de tidyverse que agrega características de programación funcional a R. Entre otras cosas, incluye la familia de funciones map(), que aplican una función a todos los elementos de una lista, de la misma manera a la familia de funciones apply() de base, pero con una mejor sintaxis y caraterísticas adicionales. Al…
-
Feather: data frames para Python y R
Frecuentemente necesito usar en R un data frame generado en Python por Pandas, o viceversa, tengo datos en un data frame de R que quiero usar en Python. Una manera común para compartir data frames entre Python y R es exportarlas como archivos CSV. Este método tiene el inconveniente de que perdemos los metadatos de…
-
Variables dummy (one-hot encoding) con R
Los datos categóricos o nominales, como su nombre lo indica, son usados para nombrar o categorizar información. Este tipo de dato se caracteriza por no ser ordenado, incluso si se usan números para representarlos. El nombre de las diferentes razas de perros es un dato categórico. Aunque puedes ordenar todos los nombres alfabéticamente, carece de…
-
Análisis de Componentes Principales para clasificar superhéroes
Soy aficionado a los superhéroes. Muy aficionado. Hasta podría atribuir mi gusto a la lectura a los cómics de Superman y Batman cuando era pequeño, y que haya sobrevivido a la pubertad y adolescencia a los cómics de los X-Men. Así que, cuando me encontré con un conjunto de datos con información de superhéroes y…
-
Redes relacionales con R – Tipos de Pokémon
Las redes relacionales son una manera de visualizar información que resulta muy útil para datos cualitativos y cuantitativos. Como su nombre lo indica, este tipo de redes son utilizadas para mostrar relaciones entre datos, generalmente nominales (nombres, categorías, etiquetas). Por ejemplo, la afinidad entre los integrantes de un equipo de trabajo, los principales clientes de…
-
Mapas temáticos con R — Homicidios en México durante el 2017
Al momento de escribir esto, en México estamos muy próximos a las elecciones para elegir Presidente del país. Entre los muchos temas de interés para la ciudadanía que forman parte de la agenda de los candidatos a la presidencia, uno muy importante es la seguridad. Datos recientes revelan que hasta 76% de los mexicanos se…