Тимур Машнин - Технология хранения и обработки больших данных Hadoop

Здесь есть возможность читать онлайн «Тимур Машнин - Технология хранения и обработки больших данных Hadoop» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2021, ISBN: 2021, Жанр: Прочая околокомпьтерная литература, Программирование, Интернет, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Технология хранения и обработки больших данных Hadoop: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Технология хранения и обработки больших данных Hadoop»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Apache Hadoop – это платформа для распределенной обработки больших наборов данных на кластерах компьютеров с использованием простых моделей программирования. В этой книге вы познакомитесь с общей архитектурой платформы, компонентами стека, такими как HDFS и MapReduce, приложениями Hadoop.

Технология хранения и обработки больших данных Hadoop — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Технология хранения и обработки больших данных Hadoop», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

В результате были созданы различные инструменты и собраны стеки Big Data.

И давайте начнем обсуждение этих инструментов с Apache Sqoop.

Sqoop означает SQL для Hadoop Это простой инструмент командной строки который - фото 15

Sqoop означает SQL для Hadoop.

Это простой инструмент командной строки, который позволяет импортировать отдельные таблицы или целые базы данных в систему HDFS.

И этот инструмент генерирует классы Java, чтобы можно было взаимодействовать с данными, которые мы импортировали.

С этим инструментом Вы можете работать с данными базы данных SQL в среде Hadoop и использовать Map Reduce для запуска заданий с этими данными.

Следующий инструмент это Hbase Hbase является ключевым компонентом стека - фото 16

Следующий инструмент – это Hbase.

Hbase является ключевым компонентом стека Hadoop, так как он предназначен для приложений, которым требуется быстрый произвольный доступ к большому набору данных.

И Hbase основывается на Google Big Table и может обрабатывать большие таблицы данных, объединяющие миллиарды строк и миллионы столбцов.

Pig это язык скриптов это платформа высокого уровня для создания программ - фото 17

Pig – это язык скриптов, это платформа высокого уровня для создания программ MapReduce с использованием Hadoop.

Этот язык называется Pig Latin, и он предназначен для задач анализа данных как потоков данных.

Pig самодостаточен, и вы можете выполнят все необходимые манипуляции в Hadoop, просто используя pig.

Кроме того, в pig, вы можете использовать код на разных языках, таких как JRuby, JPython и Java.

И наоборот, вы можете выполнять скрипты PIG на других языках.

Таким образом, в результате вы можете использовать PIG в качестве компонента для создания гораздо более крупных и более сложных приложений.

Программное обеспечение Apache Hive облегчает запросы и управление большими - фото 18

Программное обеспечение Apache Hive облегчает запросы и управление большими наборами данных, которые находятся в распределенном хранилище файлов.

Hive предоставляет механизм для проектирования структуры поверх этих данных и позволяет использовать SQL-подобные запросы для доступа к данным, которые хранятся в этом хранилище данных.

И этот язык запросов называется Hive QL.

Oozie это система планирования рабочих процессов которая управляет всеми - фото 19

Oozie – это система планирования рабочих процессов, которая управляет всеми нашими заданиями Hadoop.

Задания рабочего процесса Oozie – это то, что мы называем DAG или Directed Graphs.

Задания координатора Oozie – это периодические задания рабочего процесса Oozie, которые запускаются по частоте или доступности данных.

Oozie интегрирован с остальной частью стека Hadoop и может поддерживать сразу несколько различных заданий Hadoop.

Следующий инструмент это Zookeeper У нас есть большой зоопарк сумасшедших - фото 20

Следующий инструмент – это Zookeeper.

У нас есть большой зоопарк сумасшедших диких животных, и мы должны держать их вместе и как-то их организовывать.

Это как раз то, что делает Zookeeper.

Он предоставляет операционные сервисы для кластера Hadoop.

Он предоставляет службу распределенной конфигурации и службу синхронизации, поэтому он может синхронизировать все эти задания и реестр имен для всей распределенной системы.

Инструмент Flume это распределенный сервис для эффективного сбора и - фото 21

Инструмент Flume – это распределенный сервис для эффективного сбора и перемещения больших объемов данных.

Он имеет простую и очень гибкую архитектуру, основанную на потоковых данных.

И Flume использует простую расширяемую модель данных, которая позволяет применять различные виды аналитических онлайн приложений.

Еще один инструмент это Impala который был разработан специально для - фото 22

Еще один инструмент – это Impala, который был разработан специально для Cloudera, и это механизм запросов, работающий поверх Hadoop.

Impala привносит в Hadoop технологию масштабируемой параллельной базы данных.

И позволяет пользователям отправлять запросы с малыми задержками к данным, хранящимся в HTFS или Hbase, не сопровождая это масштабными перемещениями и манипулированием данными.

Impala интегрирована с Hadoop и работает в той же экосистеме.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Технология хранения и обработки больших данных Hadoop»

Представляем Вашему вниманию похожие книги на «Технология хранения и обработки больших данных Hadoop» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Технология хранения и обработки больших данных Hadoop»

Обсуждение, отзывы о книге «Технология хранения и обработки больших данных Hadoop» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x