Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных

Здесь есть возможность читать онлайн «Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2020, Жанр: Прочая научная литература, Прочая околокомпьтерная литература, Руководства, popular_business, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Системы бизнес-аналитики работают с различными источниками данных с помощью функций ETL (Extract-Transform-Load). Название ETL можно перевести как «извлечение, преобразование и загрузка данных». Имеется в виду загрузка в хранилище данных для дальнейшей обработки в системе бизнес-аналитики.
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Бизнес-аналитика. Извлечение, преобразование и загрузка данных», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Queries & Connections.

В контекстном меню выбираем обновление:

Refresh.

Рядом с названием запроса нам сообщают, сколько теперь строк загружено. Их явно стало больше, чем в начале работы.

Посмотрим, все ли компании у нас собраны в таблице.

Нажимаем кнопку фильтрации в заголовке столбца TICKER.

В разделе выбора значений видим пять знакомых названий. Лишних значений нет.

Пока всё идёт нормально.

Рис. 5.26. Список загруженных котировок

Задание. Обновите запрос и убедитесь, что теперь у вас загружены котировки акций пяти компаний.

Осталось одно «НО»: формат даты.

Мы настроили формат даты.

Но после обновления запроса и добавления данных формат вернулся к первоначальному (рис. 5.27).

С этим нужно что-то сделать…

Попробуйте на досуге с этой проблемой справиться.

Рис. 5.27. Формат даты

Задание. Рассмотрите объединённую таблицу и обратите внимание на формат даты.

5.4. Дубликаты данных

При загрузке данных из нескольких источников можно получить несколько совершенно одинаковых, идентичных строк. Это называется ДУБЛИКАТЫ данных. Если это две разные записи, относящиеся к одному и тому же факту, нужно оставить только одну запись, а дублирующие строки удалить.

Средства ETL позволяют проводить ОЧИСТКУ данных. Это включает, в том числе, и удаление дубликатов. Смоделируем ситуацию с загрузкой дубликатов и посмотрим, как с этим справиться.

Загрузим ещё один файл для первой ценной бумаги с данными за последний календарный месяц. Поместим файл в каталог для загрузки (рис. 5.28).

Теперь в нашем каталоге два файла с котировками акций Газпрома:

— GAZP_190306_200306.csv;

— GAZP_200301_200306.csv.

В первом файле содержатся данные за период с 6 марта 2019 года по 6 марта 2020 года.

Во втором файле — с 1 марта 2020 года по 6 марта 2020 года.

Второй файл дублирует пять строк первого файла.

Рис. 5.28. Файл с дубликатами данных

Задание. Загрузите дополнительный файл с дубликатами данных за один календарный месяц и убедитесь, что указанные данные в файлах совпадают.

Итак, мы подготовили файлы с дубликатами данных.

Обновим наш запрос и посмотрим на результаты.

Обратим внимание на количество строк рядом с названием запроса.

Рассмотрим объединённую таблицу (рис. 5.29).

Данные в строках 250—254 в точности совпадают с данными в строках 255— 259. Это и есть наши дубликаты, от которых нам нужно буде избавиться.

Рис. 5.29. Дубликаты данных в объединённой таблице

Задание. Обновите запрос и проверьте, появились ли дубликаты в объединённой таблице.

Возвращаемся в редактор запросов.

Выбираем в верхнем меню удаление дубликатов:

Home — Reduce Rows — Remove Rows — Remove Duplicates.

Но не будем спешить нажимать ОКи Next.

Для начала почитаем всплывающую подсказку (рис. 5.30).

Нам сообщают, что будут удалены строки, где есть дубликаты в выбранных столбцах.

Рис. 5.30. Удаление дубликатов

Задание. Изучите всплывающую подсказку по поводу удаления дубликатов.

Что будет, если выбрать первый столбец с тикерами и удалить дубликаты? Попробуем.

У нас осталось всего пять строк (рис. 5.31).

Мы потеряли практически все данные, зато теперь тикеры не повторяются.

Нам такое не подходит. Откатываем назад последнее преобразование:

Removed Duplicates.

Нажимаем красный крестик рядом с названием шага преобразования с списке применённых шагов.

Рис. 5.31. Удаление дубликатов тикеров

Задание. Удалите дубликаты по первому столбцу и изучите результаты преобразования. Откатите последнее изменение.

Мы лишний раз убедились в справедливости следующего шуточного высказывания:

Компьютер делает не то, что вы хотели, а то, что вы сказали.

Так что же мы ХОТЕЛИ сделать? Нам нужно было удалить строки с одинаковыми записями. То есть строки с одинаковыми датами для одной и той же бумаги. Стало быть, нас интересуют дубликаты тикера и даты одновременно.

Выделяем два столбца, нажав клавишу Ctrl.

Ещё раз вызываем удаление дубликатов.

Нажимаем кнопку Закрыть и загрузить:

Close & Load.

Задание. Удалите дубликаты.

Проверяем, что получилось.

Чтобы приятнее было листать таблицу, закрепим верхнюю строку — здесь находятся заголовки столбцов:

View — Window — Freeze Panes — Freeze Top Row.

Теперь можно листать таблицу, а заголовок останется в верхней строке листа (рис. 5.32).

Рис. 5.32. Закрепляем заголовки

Задание. Закрепите заголовки таблицы.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»

Представляем Вашему вниманию похожие книги на «Бизнес-аналитика. Извлечение, преобразование и загрузка данных» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Кондрашов Дмитриевич - Жизнь бизнес-аналитика
Кондрашов Дмитриевич
Отзывы о книге «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»

Обсуждение, отзывы о книге «Бизнес-аналитика. Извлечение, преобразование и загрузка данных» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x