1 Algoritmo: conjunto o secuencia de operaciones sistemáticas, lógicas y finitas que permiten realizar un cálculo y encontrar la solución a un problema como, por ejemplo, analizar datos.
2 Analytics: forma en la que una información se puede capturar, procesar y analizar para convertirla en aprendizaje. Este proceso se ejecuta después del data mining.
3 Small data: menor que el big data. Este concepto define un volumen menor de datos con lo que se trabaja.
4 Datos estructurados y no estructurados: los datos estructurados cuentan con una estructura lógica ordenados en columnas y tablas, y es necesario que el sistema conozca el formato de los datos para su guardado, pero son una fuente menor de extracción de información para el big data. Los datos no estructurados o desorganizados, como los e-mail, son una fuente mayor de aprendizaje con fines comerciales para el big data. Además, el sistema los guardará sin una estructura definida, solo como una de datos codificada.
5 Dark data: son datos que si un sistema no está configurado específicamente para leerlos, se considerarán desconocidos.
6 Data cleansing: método por el cual los bancos de datos mantienen su integridad, evitando datos corruptos irrelevantes.
7 Data lake: gran volumen de datos o lago de datos en estado natural, donde el científico de datos o data scientist debe adquirir el conocimiento.
8 Dirty data: conjunto de registros de datos capturados en bruto y sin limpiar.
9 Fast data: datos que deben analizarse en tiempo real, ya que su período de información útil es corto.
10 Slow data: datos con información de larga duración.
11 Medium data: cantidad de datos suficiente para generar conocimiento, pero menor cantidad que el big data.
12 Predictive analytics: análisis predictivo de datos.
13 Deep learning: conjunto de algoritmos destinados al aprendizaje automático.
3.2. El término big data y sus definiciones
Tras una larga lectura de antecedentes y términos, con la finalidad de poder situarte en un contexto adecuado, estamos en posición de definir el big data. Como has visto, el recorrido que tiene detrás es muy amplio y con muchas connotaciones.
Big data ha significado una revolución en todos los campos de la tecnología y los negocios y, por ende, es necesario definirlo con todo lo que ello implica. Seguramente esto provoca que el término signifique muchas cosas y también nada en concreto, ya que su uso es global y está en expansión continuamente.
1 1. Definición base: el big data se puede definir como un conjunto de datos de un monstruoso tamaño que van a superar la capacidad del software existente para poder ser capturados, gestionados y procesados. Estos conjuntos de datos son caracterizados por las llamadas 3 V del big data: volumen, velocidad y variedad.
2 2. Definición según la perspectiva de negocio: el big data se puede entender como la oportunidad que bridan los datos para hacer negocios con ellos, una definición, cuanto menos, oportunista.
3 3. Definición según su dimensión tecnológica: el big data se entiende como una tecnología de información y comunicación en continuo crecimiento y evolución. En esta se introducen las tecnologías concretas que hacen posible esto, como los softwares de almacenamiento y gestión, aunque no es demasiado acertado introducirlos aquí.
4 4. Definición como la revolución del conocimiento: podemos ver el big data como la luz que ilumina todos los datos que han permanecido en la oscuridad, como una forma de eliminar las barreras tecnológicas en cuanto a adquisición de conocimiento. Los datos no solo sirven para justificar hechos, sino para crearlos.
5 5. Definición como una cultura: debido a su incidencia en el mundo, el big data forma parte de nuestra cultura, afectando a la sociedad en su comportamiento y forma de ver la vida.
6 6. Definición como señales: podemos ver los datos como oportunidades de negocio, señales para anticiparse a acontecimientos y obtener ventaja de ellos como, por ejemplo, prevenir enfermedades a través de la investigación o crear estructuras sostenibles en la sociedad.
7 7. Definición como una metáfora: esta visión surge del llamado internet de las cosas. Los seres humanos somos un sensor más que arroja información al planeta y somos parte del sistema nervioso del mismo, y el internet de las cosas representa los cables por los cuales circula la información.
4. Bases de establecimiento del big data
Ya hemos visto que el big data tiene su origen en el uso del data mining de las grandes empresas tecnológicas que surgieron primeramente en Silicon Valleygracias a la invención del transistorde silicio que tras suponer una revolución se crearían empresas tan importantes hoy día como AMD, Intel o Google, además de otras.
Sede de Google en Silicon Valley (© Fotografía: Benny Marty / Shutterstock.com)
Pero no es hasta finales de los noventacuando nace el World Wide Web o las WWW cuando las empresas se encuentran con un verdadero problema, el de la imposibilidad de explotar estos bastos bancos de datos para potenciar su negocio. El problema realmente no era muy distinto al que habían tenido anteriormente empresas financieras o aseguradoras, pero en este caso el volumen de datos era de dimensión muy distinta y el data mining y los mecanismos de la época eran insuficientes.
Es aquí cuando se empieza a hablar de volumen, velocidad y variedad para referirse a los datos, términos que posteriormente definirían las características del big data como las 3V.
SABÍAS QUE...
Sillicon Valley recibe su nombre del silicio, material que se extraía en esta área y que fue el germen del establecimiento de empresas que experimentaban con este material hasta la invención del transistor. Hoy en día es lugar de residencia de las mayores empresas tecnológicas del mundo.
ACTIVIDAD COMPLEMENTARIA
2. Ya has conocido el término big data y habrás comprobado que es relativamente abstracto. Además, has visto que lo definen tres características: volumen, velocidad y variedad. ¿Qué entiendes tú por big data? ¿Qué significan estas tres características que empiezan por V? ¿Habrá más de estas tres V? Enuméralas.
4.1. Rápido repaso al modelo MapReduce
Читать дальше