Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных

Здесь есть возможность читать онлайн «Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2020, Жанр: Прочая научная литература, Прочая околокомпьтерная литература, Руководства, popular_business, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Системы бизнес-аналитики работают с различными источниками данных с помощью функций ETL (Extract-Transform-Load). Название ETL можно перевести как «извлечение, преобразование и загрузка данных». Имеется в виду загрузка в хранилище данных для дальнейшей обработки в системе бизнес-аналитики.
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Бизнес-аналитика. Извлечение, преобразование и загрузка данных», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Находим строки, которые раньше были продублированы.

Теперь дубликатов нет (рис. 5.33).

Очистка данных прошла успешно.

Рис. 5.33. Дубликаты отсутствуют

Задание. Изучите объединённую таблицу и убедитесь, что дубликатов больше нет.

5.5. Просмотр запроса

Поработаем ещё немного с запросами.

Сохраним и закроем файл. Откроем его снова.

Чтобы перейти к запросам, нажмём кнопку просмотра списка запросов:

Data — Queries & Connections — Queries & Connections.

Прочитаем всплывающую подсказку (рис. 5.34).

Здесь нам поясняют разницу между двумя инструментами ETL.

Рис. 5.34. Запросы и соединения

Задание. Прочитайте всплывающую подсказку и выясните, что такое Queries, что такое Connectionsи для чего их используют.

Запросы к источникам данных записаны в виде программы. Это последовательность шагов извлечения, преобразования и загрузки данных.

Познакомимся с текстом запроса.

Вызываем редактор запросов.

Затем вызываем в верхнем меню продвинутую версию редактора запросов (рис. 5.35).

Home — Query — Advanced Editor.

Чтобы закрыть окно «улучшенного» редактора, можно нажать кнопку

Done.

Рис. 5.35. Текст запроса к данным

Задание. Запустите просмотр текста запроса и ознакомьтесь с программой. Сравните строки программы запроса и строки в списке применённых шагов запроса Applied Steps. Обратите внимание на параметры каждой команды.

6. Анализ данных

Мы загрузили данные, теперь их можно анализировать.

У нас есть котировки и объёмы торгов по каждой бумаге. Мы будем проводить анализ распределения и взаимосвязей по этим данным с помощью сводных таблиц.

Это задание основано на знаниях и навыках, полученных в работах [6—10].

6.1. Анализ распределения объёмов

Напомним, что ОБЪЁМ торгов — это количество акций, которые сменили хозяев за рассматриваемый период. То есть измеряется объём в количестве акций, в «штуках». Стало быть, по определению это целое число. В нашем примере мы используем так называемые ДНЕВНЫЕ данные. То есть данные за один торговый день, это около девяти часов.

Объём торгов — это случайная величина. Каждый день объём принимает разное значение. но случайность не означает полную непредсказуемость.

Закономерности в поведении случайной величины описываются, прежде всего, РАСПРЕДЕЛЕНИЕМ. Это частота (вероятность) появления разных значений. Оценка формы кривой распределения делается с помощью гистограммы. А гистограмма строится по результатам группировки данных.

Мы проведём группировку данных по объёмам для каждой бумаги и построим гистограммы распределения.

Используем правило Стёрджеса:

n = 1 +3,322 lg N, где

n — число интервалов группировки;

N — объём выборки;

lg — десятичный логарифм.

В нашем примере мы загрузили по 253 строки для каждой бумаги.

Получаем:

n = 1 +3,322 * lg 253 = 1 +3,322 * 2,4 = 9.

Получается такая рекомендация: группировать данные по 9 интервалов.

Задание. Определите число интервалов группировки.

Следующий шаг группировки данных — определить наименьшее и наибольшее значения, а также размер интервала.

Определим минимальное и максимальное значение по каждой бумаге. Для этого построим вспомогательную сводную таблицу.

Щёлкаем по объединённой таблице и выбираем в верхнем меню вставку сводной таблицы (рис. 6.1):

Insert — Tables — PivotTable.

Рис. 6.1. Вставка сводной таблицы

Настраиваем поля сводной таблицы следующим образом:

Rows — по строкам — тикер;

Values — значения — объём торгов.

В поле Значениямы перетаскиваем объёмы VOLдва раза.

По умолчанию выбирается метод агрегирования — сумма. Вручную устанавливаем определение минимального и максимального значений.

Рис. 6.2. Минимум и максимум

Задание.Найдите наибольшие и наименьшие значения по каждой бумаге.

Вычисляем размер интервалов.

Вводим простую формулу:

(Vmax — Vmin) / 9.

Excel автоматически вставляет вызов функции, которая ссылается на ячейки сводной таблицы (рис. 6.3):

GETPIVOTDATA(рис. 6.3).

Копируем формулу в остальные ячейки столбца, потянув за маркер автозаполнения.

Однако, все результаты оказались одинаковыми.

Единственный адрес, который есть в формуле, — это адрес сводной таблицы. Данные из этой сводной таблицы извлекаются по значению поля, а не по адресу ячейки.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»

Представляем Вашему вниманию похожие книги на «Бизнес-аналитика. Извлечение, преобразование и загрузка данных» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Кондрашов Дмитриевич - Жизнь бизнес-аналитика
Кондрашов Дмитриевич
Отзывы о книге «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»

Обсуждение, отзывы о книге «Бизнес-аналитика. Извлечение, преобразование и загрузка данных» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x