Ploomber para el análisis de datos en entornos multidisciplinarios
Tipo: Charla
Nivel de Audiencia: intermediate
Idioma: Español
Diapositivas: spanish
Lugar/Horario
Laboratorio Informática Cs Naturales
28/09/2022, 14:30
Speakers/Ponentes
El análisis de datos de carácter exploratorio, en un entorno multidisciplinar, puede resultar confuso si no se mantiene ordenada la secuencia de pasos que nos van llevando a conclusiones intermedias y que a su vez van guiando nuestros próximos pasos. En este contexto, la librería para la construcción de pipelines de datos Ploomber resulta ser una herramienta perfecta ya que nos permite identificar, implementar y ordenar las tareas que aplicamos sobre los datos mientras que a su vez nos permite una rápida generación de reportes y parametrización de los procesos. En esta charla se buscará presentar un caso de aplicación de la librería Ploomber para el estudio de información de salud en Argentina.

En esta charla se presentará un caso de uso de la librería Ploomber para el análisis de conjuntos de datos de salud en Argentina. Los participantes de este trabajo fueron diferentes investigadores de diversas disciplinas. Se presentará el objetivo de la investigación, la forma elegida para trabajar con Ploomber, los resultados obtenidos y las conclusiones arribadas. La librería elegida, permite definir tareas que nos permiten indicar un camino que deben atravesar los datos en la ejecución de un experimento. El camino especificado entonces define cómo se deben leer los datos, cómo se realiza su limpieza, combinación, filtrado/agregado, hasta la generación de reportes parciales, valiosos para los investigadores involucrados, dentro del bucle explorativo hasta la obtención de reportes finales. Esta forma de trabajar nos permite pensar de forma modularizada, dejando claramente establecidas cuáles son las operaciones que debemos aplicar sobre los datos, pudiendo generar a su vez nuevos datasets intermedios (con datos agregados) para luego visualizar la información y detectar patrones. Todos estos pasos, especificados en Jupyter Notebooks limpios y modularizados. Cada operación sobre los datos se ejecutará solo cuando sea necesaria, es decir cuando no hay un cambio en la forma de obtener los datasets intermedios, se utilizará el último generado. Por último, destacaremos la facilidad ofrecida por Ploomber, dentro de todo este marco de trabajo descrito anteriormente, para la definición de parámetros generales para las ejecuciones de nuestros experimentos.

Topics
Análisis de datos / Pipeline de datos / Ploomber