Acerca del desafío

Tomando los datos de Wisconsin Cancer el cual contiene variables de estudios médicos, se propone a los/as alumnos de Ciencia de Datos 360 que desarrollen un proyecto de predicción de probabilidad de que el tumor sea maligno.

Si bien este dataset no es nuevo, el análisis del mismo en español no es tan común. Los alumnos hicieron explicaciones detalladas de las decisiones que fueron tomando para preparar los datos, así como  también un panorama completo de análisis exploratorio.

Reproducibilidad y apertura

Los proyectos son 100% reproducibles, y cada uno tiene su parte distintiva, por ejemplo Leonardo Genzano fue dando tips y datos sobre el cáncer de mama en Argentina, y Alexis Quintana decidió bajar el umbral de detección para reducir la cantidad de falsos positivos, con la premisa de que: “si, es maligno” y que no lo sea, a decir “no hay nada”, y que en realidad sí lo sea. Este manejo del umbral es algo no trivial, y cada proyecto tiene sus particularidades.

El  proyecto tiene mucho foco en las decisiones de análisis de Ignacio Keegan, esto se conoce como “decision thinking” y es muy útil para que otras aprendan.

Por último tenemos el caso de Rodrigo Kelemen, cuyo foco estuvo en ir probando distintos modelos con distintos umbrales de detección, entre ellos están los modelos de k-NN, decision trees y la clásica regresión logística.

Ahora si, los proyectos!

A continuación pueden ver los proyectos de los alumnos  y su respectivo linkedin para que los contacten.

👨‍💻Leonardo Genzano, proyecto.

👨‍💻Ignacio Keegan, proyecto.

👨‍💻Alexis Quintana, proyecto.

👨‍💻Rodrigo Kelmen, proyecto.

Portfolio Data Science

Otro punto a destacar es que para la mayoría es la primera vez que publican análisis, y usaron Github, la plataforma de versionado de código más conocida a nivel mundial.

No solo es un paso en la divulgación, sino el primer paso en la publicación de más proyectos.

El más difícil es el primero, celebramos desde EDV que se hayan animado a realizar un análisis tan detallado y explicado para que otros puedan continuar, así como también esta semilla que será el comienzo de más publicaciones que beneficiaran a toda la comunidad de Ciencia de Datos en español.

Cierre

Los/as alumnos están trabajando en el siguiente proyecto, el cual está relacionado a datos judiciales con perspectiva de género.

Desde Escuela de Datos Vivos seguiremos fomentando la inserción y capacitación de los nuevos científic@s de datos, así como también la proliferación de recursos gratuitos.

💻 ¿Querés estudiar con nosotros? Ciencia de Datos 360 con Python


🔔 No te pierdas ningún artículo de IA! Seguinos en Twitter ó LinkedIn