Sin duda el incremento y la disponibilidad de un mayor número de datos e información hace cada vez más fácil el poder efectuar análisis para responder los cuestionamientos que empresas, gobiernos e individuos se plantean. Sin embargo, el manejo adecuado de la información es lo que puede dar validez a los análisis y conclusiones que hagamos. De nada sirve la aplicación de un buen modelo si desde un comienzo la información no ha sido analizada y preparada adecuadamente.

En este curso se analiza el manejo adecuado de la información, empezando con los pasos necesarios que hay que seguir cuando queremos analizar los datos. Posteriormente, a lo largo de los siguientes temas se introducen técnicas de preprocesamiento de la información, así como de modelos que pueden utilizarse para resolver problemas relacionados con su manejo. Estos problemas incluyen la presencia de datos perdidos o muy diferentes al resto, técnicas para mejorar la calidad de la información al reducir su variabilidad, problemas de escala en los datos, selección de las variables adecuadas según el tipo de análisis deseado, etc. Todo esto, desde la perspectiva de aplicar el modelo o proceso adecuado según el tipo de datos. Cada uno de los Temas se ilustran a través de datos y código en Python.  

El objetivo de este curso va más allá del conocimiento de las técnicas y su aplicación de forma sistemática. Más allá de lo anterior, el objetivo final de este curso es el de que el estudiante sea capaz preguntarse cuando y por qué debe usar cada uno de los métodos. Dando este paso será posible entonces aplicar con confianza los modelos modernos o clásicos que quieran efectuarse. 

Al final de este curso serás capaz de:

  • Saber la diferencia entre análisis de datos, minería de datos y otra terminología usada en ciencia de datos. Saber cuáles análisis preliminares deben aplicarse sobre los datos antes de modelar.
  • Realizar análisis descriptivo de información considerando el tipo de variable estudiada, cuantitativa o cualitativa, y realizar análisis exploratorio bivariado (Python).
  • Saber cómo eliminar datos duplicados (observaciones y variables). Aplicar las técnicas apropiadas para rellenar o eliminar información con la que no se cuenta según el tipo de pérdida.
  • Transformar los datos para que estén en una escala comparable. Modificar y transformar los datos para su manejo apropiado en modelos; e.g. construcción de variables dummies (one-hot encoding).
  • Aplicar técnicas apropiadas para identificar y eliminar ruido. Usar técnicas univariadas y multivariadas para determinar observaciones muy diferentes al resto (outliers).
  • Aplicar técnicas para sintetizar las variables en un menor número conservado la variabilidad original de los datos. Construir variables latentes (no observadas) que sintetizan en ciertas dimensiones la información de los datos originales. Representar los datos dados en varias dimensiones en un plano.
  • Aplicar técnicas apropiadas según el tipo de análisis deseado para seleccionar las variables más relevantes, eliminando así la necesidad de usar todas, y pudiendo mejorar el desempeño de los modelos.
  • Entender lo que es una base de datos y aplicar las funciones apropiadas en Python para unir apropiadamente distintos conjuntos de datos.

Descargar Temario


INFORMES: lumialearning@gmail.com