Peter Bruce - Estadística práctica para ciencia de datos con R y Python

Здесь есть возможность читать онлайн «Peter Bruce - Estadística práctica para ciencia de datos con R y Python» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Жанр: unrecognised, на испанском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Estadística práctica para ciencia de datos con R y Python: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Estadística práctica para ciencia de datos con R y Python»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Los métodos estadísticos son una parte fundamental de la ciencia de datos, pero pocos científicos de datos tienen una formación avanzada en estadística. Los cursos y libros sobre estadística básica rara vez tratan el tema desde la perspectiva de la ciencia de datos. La segunda edición de este libro incluye ejemplos detallados de Python, ofrece una orientación práctica sobre la aplicación de los métodos estadísticos a la ciencia de datos, te indica cómo evitar su uso incorrecto y te aconseja sobre lo que es y lo que no es importante.
Muchos recursos de la ciencia de datos incorporan métodos estadísticos, pero carecen de una perspectiva estadística más profunda. Si estás familiarizado con los lenguajes de programación R o Python y tienes algún conocimiento de estadística, este libro suple esas carencias de una forma práctica, accesible y clara.
Con este libro aprenderás:
Por qué el análisis exploratorio de datos es un paso preliminar clave en la ciencia de datos
Cómo el muestreo aleatorio puede reducir el sesgo y ofrecer un conjunto de datos de mayor calidad, incluso con Big Data
Cómo los principios del diseño experimental ofrecen respuestas definitivas a preguntas
Cómo utilizar la regresión para estimar resultados y detectar anomalías
Técnicas de clasificación esenciales para predecir a qué categorías pertenece un registro
Métodos estadísticos de aprendizaje automático que «aprenden» a partir de los datos
Métodos de aprendizaje no supervisados para extraer significado de datos sin etiquetar
Peter Bruce es el fundador del Institute for Statistics Education en Statistics.com.
Andrew Bruce es científico investigador jefe en Amazon y tiene más de 30 años de experiencia en estadística y ciencia de datos.
Peter Gedeck es científico de datos senior en Collaborative Drug Discovery, desarrolla algoritmos de aprendizaje automático para pronosticar propiedades de posibles futuros fármacos.

Estadística práctica para ciencia de datos con R y Python — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Estadística práctica para ciencia de datos con R y Python», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Lecturas complementarias

Distribución t de Student

Lecturas complementarias

Distribución binomial

Lecturas complementarias

Distribución chi cuadrado

Lecturas complementarias

Distribución F

Lecturas complementarias

La distribución de Poisson y distribuciones relacionadas

Distribución de Poisson

Distribución exponencial

Estimación de la tasa de fallos

Distribución de Weibull

Lecturas complementarias

Resumen

3. Experimentos estadísticos y pruebas significativas

Prueba A/B

¿Por qué tener un grupo de control?

¿Por qué solo A/B? ¿Por qué no C, D, …?

Lecturas complementarias

Pruebas de hipótesis

La hipótesis nula

Hipótesis alternativa

Pruebas de hipótesis unidireccionales o bidireccionales

Lecturas complementarias

Remuestreo

Prueba de permutación

Ejemplo: adherencia de la web

Pruebas de permutación exhaustiva y de bootstrap

Pruebas de permutación: el resultado final de la ciencia de datos

Lecturas complementarias

Significación estadística y valores p

Valor p

Alfa

Errores de tipo 1 y 2

Ciencia de datos y valores p

Lecturas complementarias

Pruebas t

Lecturas complementarias

Pruebas múltiples

Lecturas complementarias

Grados de libertad

Lecturas complementarias

ANOVA

Estadístico F

ANOVA bidireccional

Lecturas complementarias

Prueba de chi cuadrado

Prueba de chi cuadrado: enfoque de remuestreo

Prueba de chi cuadrado: teoría estadística

Prueba exacta de Fisher

Relevancia para la ciencia de datos

Lecturas complementarias

Algoritmo Multi-Arm Bandit

Lecturas complementarias

Potencia y tamaño de la muestra

Tamaño de la muestra

Lecturas complementarias

Resumen

4. Regresión y pronóstico

Regresión lineal simple

La ecuación de regresión

Valores ajustados y residuos

Mínimos cuadrados

Pronóstico frente a explicación (elaboración de perfiles)

Lecturas complementarias

Regresión lineal múltiple

Ejemplo: datos de las viviendas del condado de King

Evaluación del modelo

Validación cruzada

Selección del modelo y regresión escalonada

Regresión ponderada

Lecturas complementarias

Pronóstico mediante la regresión

Los peligros de la extrapolación

Intervalos de confianza y de pronóstico

Variables de tipo factor en la regresión

Representación de variables ficticias

Variables de tipo factor con muchos niveles

Variables de tipo factor ordenadas

Interpretación de la ecuación de regresión

Predictoras correlacionadas

Multicolinealidad

Variables de confusión

Interacciones y efectos principales

Diagnósticos de regresión

Valores atípicos

Valores influyentes

Heterocedasticidad, anormalidad y errores correlacionados

Diagramas de residuos parciales y falta de linealidad

Regresión polinomial y por spline

Polinomial

Splines

Modelos aditivos generalizados

Lecturas complementarias

Resumen

5. Clasificación

Bayes ingenuo

Por qué la clasificación bayesiana exacta no es práctica

La solución ingenua

Variables predictoras numéricas

Lecturas complementarias

Análisis discriminante

Matriz de covarianza

Discriminante lineal de Fisher

Un ejemplo sencillo

Lecturas complementarias

Regresión logística

Función de respuesta logística y logit

Regresión logística y GLM

Modelos lineales generalizados

Valores pronosticados de regresión logística

Interpretación de los coeficientes y de la razón de oportunidades

Regresión lineal y logística: similitudes y diferencias

Evaluación del modelo

Lecturas complementarias

Evaluación de modelos de clasificación

Matriz de confusión

El problema de las clases raras

Precisión, exhaustividad y especificidad

Curva ROC

AUC

Sustentación

Lecturas complementarias

Estrategias para datos que no están equilibrados

Submuestreo

Sobremuestreo y aumento/disminución de la ponderación

Generación de datos

Clasificación basada en los costes

Exploración de pronósticos

Lecturas complementarias

Resumen

6. Aprendizaje automático estadístico

K-vecinos más cercanos

Un pequeño ejemplo: pronóstico del incumplimiento de préstamos

Métricas de distancia

Codificador One-Hot

Estandarización (normalización, puntuación z)

Elección de K

KNN como motor de características

Modelos de árbol

Un ejemplo sencillo

Algoritmo de partición recursiva

Medición de la homogeneidad o la impureza

Detención del crecimiento del árbol

Pronóstico de un valor continuo

Cómo se utilizan los árboles

Lecturas complementarias

Métodos de bagging y bosque aleatorio

Bagging

Bosque aleatorio

Importancia de la variable

Hiperparámetros

Boosting

El algoritmo boosting

XGBoost

Regularización: evitación del sobreajuste

Hiperparámetros y validación cruzada

Resumen

7. Aprendizaje no supervisado

Análisis de componentes principales

Un ejemplo sencillo

Cálculo de los componentes principales

Interpretación de componentes principales

Análisis de correspondencias

Lecturas complementarias

Agrupación K-means

Un ejemplo sencillo

Algoritmo K-means

Interpretación de los grupos

Selección del número de grupos

Agrupación jerárquica

Un ejemplo sencillo

El dendrograma

El algoritmo de aglomeración

Medidas de disimilitud

Agrupación basada en el modelo

Distribución normal multivariante

Mezclas de distribuciones normales

Selección del número de grupos

Lecturas complementarias

Variables categóricas y escalado

Escalado de variables

Variables dominantes

Datos categóricos y distancia de Gower

Problemas con la agrupación de datos mixtos

Resumen

Bibliografía

Prefacio

Este libro está dirigido a científicos de datos familiarizados de algún modo con los lenguajes de programación R y/o Python , y con una formación básica (quizás irregular o efímera) a la estadística. Dos de los autores de este libro llegamos al mundo de la ciencia de datos desde el mundo de la estadística y apreciamos en cierta medida la contribución que la estadística puede hacer al arte de la ciencia de datos. Al mismo tiempo, somos muy conscientes de las limitaciones de la enseñanza de la estadística tradicional: la estadística como disciplina tiene un siglo y medio de vida, y la mayoría de los libros de texto y cursos de estadística están cargados con el impulso y la inercia de un transatlántico. Todos los métodos de este libro tienen alguna conexión, histórica o metodológica, con la disciplina de la estadística. No se incluyen los métodos que evolucionaron principalmente a partir de la informática, como es el caso de las redes neuronales.

El libro tiene dos objetivos:

• Presentar, en forma digerible, navegable y de fácil referencia, conceptos clave de estadística que son relevantes para la ciencia de datos.

• Explicar qué conceptos son importantes y útiles desde la perspectiva de la ciencia de datos, cuáles lo son menos y por qué.

Convenciones que se utilizan en el libro

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Estadística práctica para ciencia de datos con R y Python»

Представляем Вашему вниманию похожие книги на «Estadística práctica para ciencia de datos con R y Python» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Estadística práctica para ciencia de datos con R y Python»

Обсуждение, отзывы о книге «Estadística práctica para ciencia de datos con R y Python» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x