Este tutorial tiene como propósito hacer el set-up inicial para empezar a desarrollar modelos machine learning en el increíble lenguaje R.

Empecemos!



⚠️Si ya tienen R, pero es una versión anterior a la 3.6, instalen la última para evitar problemas. relacionado con este punto, escribí un post extenso: Consejos para migrar R y sobrevivir en el tiempo


Instalando R!

Pueden ir a la página principal: https://cran.r-proect.org, o bien a los atajos debajo.

Los llevará a la última versión de R: 4.0.0 (mayo 2020):

Windows

Última versión de R acá: https://cran.r-project.org/bin/windows/base/

En algunos casos será necesario instalar Rtools, el que trae programas para compilar como el gcc. Si sos desarrollador/a probablemente ya lo tengas.

Rtools lo bajan de: https://cran.r-project.org/bin/windows/Rtools/Rtools34.exe

Al instalar tengan la precaución de setear la opcion del PATH como figura en la imagen:

Mas información de Rtools acá: https://github.com/stan-dev/rstan/wiki/Install-Rtools-for-Windows

MacOS

Link a la página de descarga de la última versión: https://cran.r-project.org/bin/macosx/

El link se llama:

Linux

http://mirror.fcaglp.unlp.edu.ar/CRAN/ (elijan su distribución)

Instalando RStudio

Es el entorno de desarrollo de R.

Vamos a: https://www.rstudio.com/products/rstudio/download/#download

Buscamos e instalamos la versión compatible con nuestro sistema operativo:



Instalando los paquetes (librerías) de R

Esto es dependiente de lo que se necesite hacer, pero daré los que uso normalmente.

Tengan en cuenta que si ya tenian R instalado, e instalan una version nueva, entonces necesitaran instalar todos los paquetes de nuevo.

Abren RStudio, y si todo fue bien, tienen que ver algo como esto:

A continuación copian y pegan la siguiente línea de código para instalar los paquetes en la consola (donde esta el cursor), apretan enter y esperan unos minutos…

libs_para_instalar=c( "tidyverse","Hmisc", "funModeling","reshape2" ,"caret", "data.table","lubridate", "zoo", "knitr","infotheo","RColorBrewer","minerva", "roxygen2","Lock5Data", "shiny", "scales","corrplot","feather", "gridExtra", "xgboost", "gbm", "randomForest", "devtools")

install.packages(libs_para_instalar)


Si les aparece el mensaje: "Do you want to install from sources the package which needs compilation? (Yes/no/cancel)" Escriban: Yes

Si les aparece que para instalar el paquete 'X' se necesita el paquete 'Y'. Instalen 'Y' y luego repitan el proceso.

Listo!

Verificando todos los paquetes instalados

Ejecuten la siguiente línea, que comparará los paquetes instalados con los que figuraban en la lista libs_para_instalar:

libs_para_instalar[!(libs_para_instalar %in% installed.packages()[,"Package"])]

Si todo salió bien no deberían ver reportado ningún paquete:


Nota: character(0) = todo salió ok

Errores durante la instalación

Revisen que no haya ningún error en la instalación al terminar.

Si lo hay, intenten reinstalar ese paquete solamente. Si no funciona -> Google (los errores pueden ser variados, sobretodo si tienen windows).

Si siguen con el problema, pueden preguntarlo en español en: datosenR.org

Si tuvieron un error en la instalación de un paquete, todos los paquetes siguientes en la lista no fueron instalados. Pueden probar el volver a correr el install.packages, solamente con los paquetes en cuestión.

Si ya tienen la distribución de R de Microsoft, MRAN (https://mran.microsoft.com); es muy problable que los paquetes que instalen no estén a la última versión que en CRAN.

¿Qué es CRAN? Es la red global de servidores oficiales de R donde están los paquetes y el programa R en cuestión. Cada vez que hacen install.packages los va a buscar ahí.

Les recomiendo que igualmente instalen R desde CRAN (como lo indicado anteriormente).

Como resolver el warning: "package 'xxx' is not available (for R version x.y.z)?

Haciendo algunas pruebas

Copien y ejecuten esto en R, crearan unos gráficos y creando un modelo predictivo, así de fácil!

library(randomForest) 
library(tidyverse) 
library(funModeling) 
randomForest(mtcars, formula = wt ~ qsec)
select(mtcars, cyl, hp) %>% arrange(cyl) %>% top_n(5)
ggplot(mtcars, aes(cyl)) + geom_histogram()
plot_num(mtcars)

Fin 🎉


Si quieren seguir practicando ciencia de datos, los/las invito a leer: https://librovivodecienciadedatos.ai 📗

Libro Vivo de Ciencia de Datos


Y a realizar el curso gratuito Desembarcando en R  2da Edición .

Happy coding! 🚀

Twitter y Linkedin.