El fundamento de una gran mayoría de las técnicas avanzadas de análisis de datos se encuentra en la estadística. Por ejemplo, los llamados variational autoencoders son redes neuronales profundas usadas como modelos generativos y que contienen importantes bases probabilísticas y estadísticas. Por ejemplo, dentro de una de sus capas incluyen parámetros para la media y la dispersión. Ni que decir de muchos modelos en machine learning, como la regresión logística o el análisis discriminante, los cuales nacieron como modelos en esa área. Incluso técnicas indispensables en el preprocesamiento de información, como la estandarización, las técnicas de manejo de datos perdidos, así como la selección de variables, requieren amplios conocimientos en Estadística. Incluso si nuestro interés es solo predictivo, el entendimiento de porque las predicciones tienen cierta variabilidad y con mayor razón, determinar a cuál corresponde, se fundamenta en conceptos estadísticos.  Por lo tanto, es difícil pretender tener una carrera completa en Ciencia de Datos si nos faltan los cimientos indispensables para ello dados en la Estadística.

 

El objetivo de este curso es introducir al estudiante en el área de la estadística. Se parte desde el análisis exploratorio de datos, parte importante para entender tanto numéricamente como gráficamente a un conjunto de datos. Posteriormente, se determinan estimadores puntuales asociados a los parámetros de una distribución, por ejemplo, la media en una distribución normal. Estos son funciones de los valores asociados a una muestra aleatoria y que por lo tanto poseen cierta variabilidad. Por lo tanto, uno se pregunta si cualquier función de la muestra o estimador es igual de bueno para estimar un parámetro. Este cuestionamiento hace necesario el plantear cuáles propiedades debería de cumplir un estimador puntual para considerarse bueno. Dada la variabilidad que un estimador posee, uno se cuestiona también si no es más conveniente dar un rango de posibles valores que puede tomar el parámetro en lugar de solo un valor, esta es la estimación intervalar. Finalmente, uno puede preguntarse si nuestra noción de que un parámetro según nuestro conocimiento debe de tomar un valor o valores específicos es respaldada por nuestros datos, las pruebas de hipótesis permiten realizar este paso.


Al final de este curso serás capaz de:

  • Realizar análisis exploratorio sobre cualquier tipo de datos, cuantitativos o cualitativos, tanto gráficos como a través de medidas numéricas. Analizar cada variable por sí misma o en pares, determinando si hay asociación entre ellas.
  • Estimar puntualmente los parámetros asociados a datos correspondientes a una muestra de observaciones que se asume corresponden a alguna distribución, e.g. normal. Estimar parámetros usando la función de verosimilitud o a partir de los momentos poblacionales, e.g. estimar la media y varianza de unos datos que se asumen normales.  
  • Entender cada una de las propiedades deseables en un estimador puntual, como por ejemplo que en promedio nos acerquemos al valor real o que no haya tanto margen de error de atinarle al valor real.
  • Saber cuáles son las propiedades que satisface un estimador máximo verosímil en muestras grandes, los cuales lo hacen deseable y justifican su uso en estadística y ciencia de datos.
  • Obtener algebraicamente y con software algunos intervalos que nos indiquen con un cierto grado de confianza sobre que valores se mueve el valor de un parámetro de acuerdo con la información dada por los datos. En particular, aplicar distintos tipos de intervalos para cuando se asume que los datos provienen de una distribución normal.
  • Plantear hipótesis del valor o conjunto de valores que un parámetro puede tomar, por ejemplo, probar que la estatura media es de 1.67. Obtener funciones de la muestra que nos indican si se rechaza o no una prueba, así como la regla necesaria para tomar esa decisión. Plantear las hipótesis más usadas en el caso de datos provenientes de una muestra normal y resolverlas con software.
  • Entender el concepto de p-valor o nivel crítico y saber leerlo al realizar un ajuste estadístico en software.  

Descargar Temario


INFORMES: lumialearning@gmail.com