Esta vez el challenge se basó en datos abiertos proporcionados por el Juzgado Penal Contravencional y Faltas N° 10 Ciudad de Buenos Aires sobre denuncias y casos relacionados con violencia de género, con el apoyo del juez Pablo Casas, (si, otro Pablo Casas...)

Agradecemos la predispoción del Juez y de su equipo Yasmín Quiroga y Pablo  Hilaire para con el proyecto.

Acerca de los datos

La muestra contaba con dos tipos de datos: los estructurados y los no estructurados. Estructurados son los datos organizados en las tablas, y los no estructurados son las resoluciones en formato .pdf.

Objetivos

El objetivo planteado era realizar distintos modelos predictivos y de clustering para encontrar aquella información que no surge del análisis tradicional.

Otro objetivo, que surgió durante el proyecto, fue la de garantizar una reproducibilidad y establecer buenas prácticas concretas que ayuden a poder tener datos limpios para el futuro. Tarea no trivial.

Todo esto fue logrado con los alumnos.

Metodología

Como parte del Curso Ciencia de Datos 360, se organizaron 3 encuentros virtuales exclusivos con alumn@s para dar contexto y realizar una explicación sobre la naturaleza de los datos, mostrar avance de los trabajos y evacuar dudas, y realizar la exposición final con el equipo del Juzgado n 10.


Ahora si, los trabajos! 🚀

En esta edición se presentaron trabajos tanto en R como en Python, algo que pomulgamos con nuestros curso de Ciencia de Datos 360 con Python, y con R.

👨‍💻 Sebastian Contreiras

Este trabajo realizado en R tiene un fuerte enfoque en la visualización y el storytelling, Sebastián realizó para finalizar un modelo de cluster con conclusiones muy interesantes sobre el comportamiento de las denuncias, y también un árbol de decisión para segmentación.

Perfil LinkedIn.

Ir al proyecto.

Para reproducir los resultados: aquí el .Rmd utilizado.

👨‍💻 Rodrigo Kelemen

Este trabajo además de la preparación de datos intensiva, se enfocó en ir extrayendo conclusiones de los distintos cruces de variables, ya sea desde el análisis de los artículos infringidos, hasta la incidencia de la violencia de género de acuerdo a los niveles socioeconómicos. Finaliza con un modelo de cluster que describe muy bien este fenómeno.

Perfil LinkedIn.

Ir al proyecto.

👨‍💻Ignacio Keegan

Con fuerte foco en la preparación de datos para modelado predictivo, Rodrigo realizó un modelo de clustering con análisis de la métricas de siluette (utilizada para medir la calidad de estos modelos), y luego aplicó una novedosa técnica de reducción de dimensionalidad: UMAP, la cual utilizó para realizar análisis exploratorio. Un ejemplo de como desde un modelo de machine learning puede realizarse análisis exploratorio.

Perfil en LinkedIn

Ir al proyecto.


Análisis general de los trabajos

En todos los trabajos se puede ver una amplia preparación de datos en función de los requerimientos de las distintas técnicas de análisis y modelos predictivos empleados.

La preparación de datos no es sólo eliminar los casos erróneos, sino también agruparlos y generar nuevas varibles que aporten información que no se veía tan facilmente.

Esta presentación de trabajos es un paso mas en el armado del porfolio data science.

En palabras del Juez Pablo Casas

El uso de los datos abiertos del sector público dentro de un proyecto educativo como el de EDV es sin dudas un hecho auspicioso dentro de los desafíos que como comunidad enfrentamos por estos tiempos, donde nadie puede discutir acerca de la necesidad estratégica que gira alrededor de la generación de habilidades informáticas respecto de los datos.
Estoy convencido que este tipo de iniciativas aportan valor, además de lo que surge de las propias exploraciones, en la una interacción y colaboración dentro de la comunidad, a la construcción de confianza
Agradezco a mi tocayo, y a todas las personas que se prendieron en este desafío.

Cierre

Los cursos de Escuela de Datos Vivos apuntan a poder interpretar un problema, seleccionar la mejor estrategia para preparar los dato, crear algortimos de machine learning y luego visualizar los resultados contando una historia.

Con los desafios, se pretende que quien realice los cursos tenga un espacio de práctica con diferentes tipos de datos, en distintos negocios y pueda extrapolar el conocimiento adquirido en los cursos a casos reales para aportar valor desde los datos.

Los esperamos en el próximo!


💻 ¿Querés estudiar con nosotros? Ciencia de Datos 360 con Python

🔔 No te pierdas ningún artículo de IA! Seguinos en Twitter ó LinkedIn