EDICIONES UNIVERSIDAD CATÓLICA DE CHILE
Vicerrectoría de Comunicaciones
Av. Libertador Bernardo O’Higgins 390, Santiago, Chile
editorialedicionesuc@uc.cl
www.ediciones.uc.cl
CIENCIA DE DATOS.
MIT Press / Conocimientos esenciales
JOHN D. KELLEHER
Y BRENDAN TIERNEY
© 2018 Massachusetts Institute of Technology
Inscripción N° 2020-A-10830
Derechos reservados
Octubre 2021
ISBN 978-956-14-2758-7
ISBN digital 978-956-14-2759-4
Traducción: English UC Language Center
Ilustración de portada: Joaquín Rosas Sotomayor
Diseño y diagramación: versión productora gráfica SpA
Diagramación digital: ebooks Patagonia
www.ebookspatagonia.com
info@ebookspatagonia.com
CIP - Pontificia Universidad Católica de Chile
Kelleher, John D., 1974-, autor.
Ciencia de datos / John D. Kelleher y Brendan Tierney. Serie de conocimientos esenciales de MIT Press.
Incluye bibliografía.
1. Big data.
2. Aprendizaje de máquina.
3. Minería de datos.
I. t.
II. Tierney, Brendan, 1970-, autor.
II. Data science. Español.
2020 005.7 + DDC23 RDA
CONTENIDOS
Prólogo de la serie PRÓLOGO DE LA SERIE La serie de conocimientos esenciales de MIT Press ofrece libros de bolsillo accesibles, concisos y atractivos sobre temas de interés actual. Escritos por destacados pensadores, los libros de esta colección ofrecen una visión general de expertos sobre los más variados temas que van desde lo cultural e histórico a lo científico y técnico. En la era actual de información instantánea, tenemos fácil acceso a opiniones, racionalizaciones y descripciones superficiales, mientras que el conocimiento fundamental que entrega una comprensión del mundo basada en principios es mucho más difícil de encontrar. Los libros de esta serie satisfacen esta necesidad. Al sintetizar conceptos especializados para un público no experto y abordar temas críticos a través de los fundamentos, cada uno de estos volúmenes compactos ofrece a los lectores un punto de acceso a ideas complejas. BRUCE TIDOR Profesor de Ingeniería Biológica e Informática Instituto de Tecnología de Massachusetts
Prefacio
Agradecimientos
CAPÍTULO 1: ¿Qué es la ciencia de datos?
CAPÍTULO 2: ¿Qué son los datos y qué es un conjunto de datos?
CAPÍTULO 3: Un ecosistema de ciencia de datos
CAPÍTULO 4: Aprendizaje automático
CAPÍTULO 5: Tareas estándar de ciencia de datos
CAPÍTULO 6: Privacidad y ética
CAPÍTULO 7: Tendencias futuras y principios de éxito
Glosario
Notas
Lecturas adicionales
Referencias
PRÓLOGO DE LA SERIE
La serie de conocimientos esenciales de MIT Press ofrece libros de bolsillo accesibles, concisos y atractivos sobre temas de interés actual. Escritos por destacados pensadores, los libros de esta colección ofrecen una visión general de expertos sobre los más variados temas que van desde lo cultural e histórico a lo científico y técnico.
En la era actual de información instantánea, tenemos fácil acceso a opiniones, racionalizaciones y descripciones superficiales, mientras que el conocimiento fundamental que entrega una comprensión del mundo basada en principios es mucho más difícil de encontrar. Los libros de esta serie satisfacen esta necesidad. Al sintetizar conceptos especializados para un público no experto y abordar temas críticos a través de los fundamentos, cada uno de estos volúmenes compactos ofrece a los lectores un punto de acceso a ideas complejas.
BRUCE TIDOR
Profesor de Ingeniería Biológica e Informática
Instituto de Tecnología de Massachusetts
PREFACIO
El objetivo de la ciencia de datos es mejorar la toma de decisiones basándolas en información extraída de grandes conjuntos de datos. Como campo de actividad, la ciencia de datos abarca un conjunto de principios, definiciones de problemas, algoritmos y procesos para extraer patrones no obvios y útiles de grandes conjuntos de datos. Está estrechamente relacionada con los campos de la minería de datos y el aprendizaje automático, pero tiene un alcance más amplio. Hoy, la ciencia de datos impulsa la toma de decisiones en casi todos los sectores de las sociedades modernas. Algunas de las formas en que la ciencia de datos puede afectar tu vida diaria incluyen determinar: qué anuncios te presentan en línea; qué películas, libros y conexiones de amigos te recomiendan; qué correos electrónicos se filtran en tu carpeta de correo no deseado; qué ofertas recibes cuando renuevas tu servicio de teléfono celular; el costo de tu prima de seguro de salud; la secuencia y la sincronización de los semáforos en tu área; cómo se diseñaron los medicamentos que puedes necesitar; y qué lugares en tu ciudad son monitoreados por la policía.
El crecimiento en el uso de la ciencia de datos en nuestras sociedades está impulsado por la aparición del big data y las redes sociales, la aceleración de la potencia informática, la reducción masiva en el costo de la memoria de la computadora y el desarrollo de métodos más potentes para el análisis y modelado de datos, como el aprendizaje profundo. Todos estos factores juntos hacen que nunca haya sido tan fácil para las organizaciones recopilar, almacenar y procesar datos. Al mismo tiempo, estas innovaciones técnicas y la aplicación más amplia de la ciencia de datos hacen que los desafíos éticos relacionados con el uso de datos y la privacidad individual nunca han sido tan apremiantes. El objetivo de este libro es proporcionar una introducción a la ciencia de datos que cubra los elementos esenciales del campo de forma suficientemente profunda para permitir una comprensión basada en principios del mismo.
El capítulo 1 presenta el campo de la ciencia de datos y proporciona una breve historia de cómo se ha desarrollado y evolucionado. También examina por qué la ciencia de datos es importante hoy y algunos de los factores que impulsan su adopción. El capítulo termina revisando y desacreditando algunos de los mitos asociados con la ciencia de datos. El capítulo 2 presenta conceptos fundamentales relacionados con los datos. También describe las etapas comunes en un proyecto de ciencia de datos: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue. El capítulo 3 se centra en la infraestructura de datos y los desafíos planteados por el big data y la integración de datos de múltiples fuentes. Un aspecto de una infraestructura de datos típica que puede ser desafiante es que los datos en las bases de datos y los almacenes de datos a menudo residen en servidores diferentes de los servidores utilizados para su análisis. Como consecuencia, cuando se manejan grandes conjuntos de datos, se puede pasar una gran cantidad de tiempo moviendo datos entre los servidores en los que está la base de datos o el almacén de datos y los servidores utilizados para el análisis de datos y el aprendizaje automático. El capítulo 3 comienza describiendo una infraestructura de ciencia de datos típica para una organización y algunas de las soluciones emergentes para el desafío de mover grandes conjuntos de datos dentro de una infraestructura de datos, que incluyen el uso del aprendizaje automático en la base de datos, el uso de Hadoop para el almacenamiento y procesamiento de datos, y el desarrollo de sistemas de bases de datos híbridas que combinan a la perfección el software de base de datos tradicional y las soluciones tipo Hadoop.
Читать дальше