¿Por qué llamar así a este procedimiento?
El data mining se basa en un procedimiento que intenta descubrir patrones de información en conjuntos de datos masivos, siendo semejante a un proceso de minería. Es precisamente por esto que la denominación de este término proviene de la analogía que se hace con los trabajos que se realizan para extraer materia prima valiosa de yacimientos en la tierra, la minería, pero en este caso en lugar de materia prima son datos obtenidos de grandes repositorios y bancos de datos.
Junto con el data mining, y unido a este término, tambien comienza a utilizarse el llamado KDD o Knowledge Discovery in Databases(en español, Descubrimiento del Conocimiento en Bases de Datos. La diferencia fundamental entre el KDD y el data mining es que para el primero es necesario un profundo conocimiento sobre el área a estudiar, mientras que para el segundo es necesario un conocimiento propiamente técnico.
En la siguiente imagen podrás ver muy resumidamente los pasos a seguir en un proceso de data mining:

Una técnica del data mining: el machine learning
HILO CONDUCTOR
TextilTek, S. L. está implantando con éxito tecnologías big data, concretamente el sistema de análisis con data mining le está dando buenos resultados, ya que en base a los datos que genera mediante las compras de los clientes y las áreas funcionales de la empresa, es capaz de anticiparse a las demandas de un mercado cada vez más saturado y exigente. Aunque la respuesta de los clientes está siendo mucho más positiva que con el antiguo sistema de alertas, el área de marketing ha desechado este y se basa en el análisis de redes sociales y el feedback para identificar los gustos de moda de los jóvenes.
El machine learning o aprendizaje automáticono es más que otra consecuencia de la necesidad de una búsqueda y explotación de patrones de datosen bancos, con el objetivo de construir modelos que predigan las consecuencias que tendrán lo que en ese momento se está haciendo. Este método se comenzó a utilizar por los bancos en la década de los noventa para detectar posibles fraudes y estudio de créditos.
Pero el machine learning va más allá de esto, y es que es una rama de la inteligencia artificial.Se trata de crear algoritmos que sean capaces de aprender y tomar decisionesy, por tanto, de predecir acontecimientos. Esto se hace tomando información y construyendo ejemplos que generalizan comportamientos, por lo que la estadística representa una parte fundamental.
Actualmente esto tiene multitud de aplicaciones como, por ejemplo, los motores de búsqueda de internet,que aprenden tus hábitos para luego enviarte información que pueda interesarte. Seguramente lo hayas experimentado y te parezca algo incomprensible a priori, pero todo se deriva precisamente de esto.
PARA SABER MÁS
La inteligencia artificial cada vez más forma parte de nuestra vida. Puede ser una forma excelente de facilitárnosla, pero también implica riesgos como la sustitución de la mano humana por máquinas artificiales y una posible crisis de paro a nivel mundial. Para más curiosidades puedes visitar el siguiente artículo:
https://redirectoronline.com/ifct128po0103
2.5. Data science y el científico de datos
La aparición del concepto data science o ciencia de datossurge precisamente del desarrollo de las aplicaciones de data mining y engloba el conjunto de principios científicos y aplicadosque definen cómo se extrae el conocimiento de los datos.
El concepto se introdujo en el nuevo milenio y su fin es englobar los principios en los que se basan los conceptos anteriores: matemáticas, estadística e informática para la extracción de información mediante patrones y relaciones de datos. Con el data science se pretende dar una explicación de la evolución sufrida por los procesos de obtención de conocimiento a partir de los datos y la entrada en la nueva era digital.
Tal ha sido la repercusión de esto que apareció la figura del científico de datoso persona que se especializa en el tratamiento de datos.En otras palabras, se trata de la conjunción de desarrollo de distintos conocimientos como la estadística mezclada con creatividad y la computología. Estas personas cuentan con unas habilidades muy concretas:
ACTIVIDAD COMPLEMENTARIA
1. Hasta ahora has podido seguir el caso de TextilTek S. L. en relación a la implantación de un sistema big data. ¿Podrías aportar ideas de cómo esta empresa podría recabar información y datos de las personas para adaptarse más a sus exigencias y gustos, y así llegar a más público?
3. Definiciones y bases del big data
HILO CONDUCTOR
TextilTek, S. L. es consciente de esto y, debido a su inexperiencia, ha decidido contratar a un profesional para que se encargue de la gestión del big data de la empresa de una manera más personal que la consultora tecnológica. Además, se encargará de darle formación básica al personal para que de aquí en adelante puedan entender a lo que se enfrentan.
Antes de proceder al estudio del big data, también llamados macrodatos, conviene que aprendas el significado de términos relevantes que envuelven el big data y que todo profesional de la materia debería saber y controlar.
Si bien es cierto que han aparecido importantes conceptos ya en puntos anteriores, conviene extender aún más el glosario, ya que la magnitud que abarca el big data es ciertamente enorme.
Nube de términos utilizados en big data
Como habrás notado, un término que aparece en infinidad de veces es el de datos, ya que es la esencia del big data. Conviene que aprendas algunos términos que definen los tipos de conjuntos de datos creados y otros relacionados con estos, ya que aparecerán en más ocasiones:
Читать дальше