Lecturas complementarias
Distribución t de Student
Lecturas complementarias
Distribución binomial
Lecturas complementarias
Distribución chi cuadrado
Lecturas complementarias
Distribución F
Lecturas complementarias
La distribución de Poisson y distribuciones relacionadas
Distribución de Poisson
Distribución exponencial
Estimación de la tasa de fallos
Distribución de Weibull
Lecturas complementarias
Resumen
3. Experimentos estadísticos y pruebas significativas
Prueba A/B
¿Por qué tener un grupo de control?
¿Por qué solo A/B? ¿Por qué no C, D, …?
Lecturas complementarias
Pruebas de hipótesis
La hipótesis nula
Hipótesis alternativa
Pruebas de hipótesis unidireccionales o bidireccionales
Lecturas complementarias
Remuestreo
Prueba de permutación
Ejemplo: adherencia de la web
Pruebas de permutación exhaustiva y de bootstrap
Pruebas de permutación: el resultado final de la ciencia de datos
Lecturas complementarias
Significación estadística y valores p
Valor p
Alfa
Errores de tipo 1 y 2
Ciencia de datos y valores p
Lecturas complementarias
Pruebas t
Lecturas complementarias
Pruebas múltiples
Lecturas complementarias
Grados de libertad
Lecturas complementarias
ANOVA
Estadístico F
ANOVA bidireccional
Lecturas complementarias
Prueba de chi cuadrado
Prueba de chi cuadrado: enfoque de remuestreo
Prueba de chi cuadrado: teoría estadística
Prueba exacta de Fisher
Relevancia para la ciencia de datos
Lecturas complementarias
Algoritmo Multi-Arm Bandit
Lecturas complementarias
Potencia y tamaño de la muestra
Tamaño de la muestra
Lecturas complementarias
Resumen
4. Regresión y pronóstico
Regresión lineal simple
La ecuación de regresión
Valores ajustados y residuos
Mínimos cuadrados
Pronóstico frente a explicación (elaboración de perfiles)
Lecturas complementarias
Regresión lineal múltiple
Ejemplo: datos de las viviendas del condado de King
Evaluación del modelo
Validación cruzada
Selección del modelo y regresión escalonada
Regresión ponderada
Lecturas complementarias
Pronóstico mediante la regresión
Los peligros de la extrapolación
Intervalos de confianza y de pronóstico
Variables de tipo factor en la regresión
Representación de variables ficticias
Variables de tipo factor con muchos niveles
Variables de tipo factor ordenadas
Interpretación de la ecuación de regresión
Predictoras correlacionadas
Multicolinealidad
Variables de confusión
Interacciones y efectos principales
Diagnósticos de regresión
Valores atípicos
Valores influyentes
Heterocedasticidad, anormalidad y errores correlacionados
Diagramas de residuos parciales y falta de linealidad
Regresión polinomial y por spline
Polinomial
Splines
Modelos aditivos generalizados
Lecturas complementarias
Resumen
5. Clasificación
Bayes ingenuo
Por qué la clasificación bayesiana exacta no es práctica
La solución ingenua
Variables predictoras numéricas
Lecturas complementarias
Análisis discriminante
Matriz de covarianza
Discriminante lineal de Fisher
Un ejemplo sencillo
Lecturas complementarias
Regresión logística
Función de respuesta logística y logit
Regresión logística y GLM
Modelos lineales generalizados
Valores pronosticados de regresión logística
Interpretación de los coeficientes y de la razón de oportunidades
Regresión lineal y logística: similitudes y diferencias
Evaluación del modelo
Lecturas complementarias
Evaluación de modelos de clasificación
Matriz de confusión
El problema de las clases raras
Precisión, exhaustividad y especificidad
Curva ROC
AUC
Sustentación
Lecturas complementarias
Estrategias para datos que no están equilibrados
Submuestreo
Sobremuestreo y aumento/disminución de la ponderación
Generación de datos
Clasificación basada en los costes
Exploración de pronósticos
Lecturas complementarias
Resumen
6. Aprendizaje automático estadístico
K-vecinos más cercanos
Un pequeño ejemplo: pronóstico del incumplimiento de préstamos
Métricas de distancia
Codificador One-Hot
Estandarización (normalización, puntuación z)
Elección de K
KNN como motor de características
Modelos de árbol
Un ejemplo sencillo
Algoritmo de partición recursiva
Medición de la homogeneidad o la impureza
Detención del crecimiento del árbol
Pronóstico de un valor continuo
Cómo se utilizan los árboles
Lecturas complementarias
Métodos de bagging y bosque aleatorio
Bagging
Bosque aleatorio
Importancia de la variable
Hiperparámetros
Boosting
El algoritmo boosting
XGBoost
Regularización: evitación del sobreajuste
Hiperparámetros y validación cruzada
Resumen
7. Aprendizaje no supervisado
Análisis de componentes principales
Un ejemplo sencillo
Cálculo de los componentes principales
Interpretación de componentes principales
Análisis de correspondencias
Lecturas complementarias
Agrupación K-means
Un ejemplo sencillo
Algoritmo K-means
Interpretación de los grupos
Selección del número de grupos
Agrupación jerárquica
Un ejemplo sencillo
El dendrograma
El algoritmo de aglomeración
Medidas de disimilitud
Agrupación basada en el modelo
Distribución normal multivariante
Mezclas de distribuciones normales
Selección del número de grupos
Lecturas complementarias
Variables categóricas y escalado
Escalado de variables
Variables dominantes
Datos categóricos y distancia de Gower
Problemas con la agrupación de datos mixtos
Resumen
Bibliografía
Este libro está dirigido a científicos de datos familiarizados de algún modo con los lenguajes de programación R y/o Python , y con una formación básica (quizás irregular o efímera) a la estadística. Dos de los autores de este libro llegamos al mundo de la ciencia de datos desde el mundo de la estadística y apreciamos en cierta medida la contribución que la estadística puede hacer al arte de la ciencia de datos. Al mismo tiempo, somos muy conscientes de las limitaciones de la enseñanza de la estadística tradicional: la estadística como disciplina tiene un siglo y medio de vida, y la mayoría de los libros de texto y cursos de estadística están cargados con el impulso y la inercia de un transatlántico. Todos los métodos de este libro tienen alguna conexión, histórica o metodológica, con la disciplina de la estadística. No se incluyen los métodos que evolucionaron principalmente a partir de la informática, como es el caso de las redes neuronales.
El libro tiene dos objetivos:
• Presentar, en forma digerible, navegable y de fácil referencia, conceptos clave de estadística que son relevantes para la ciencia de datos.
• Explicar qué conceptos son importantes y útiles desde la perspectiva de la ciencia de datos, cuáles lo son menos y por qué.
Convenciones que se utilizan en el libro
Читать дальше