Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных

Здесь есть возможность читать онлайн «Валентин Арьков - Бизнес-аналитика. Извлечение, преобразование и загрузка данных» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2020, Жанр: Прочая научная литература, Прочая околокомпьтерная литература, Руководства, popular_business, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Системы бизнес-аналитики работают с различными источниками данных с помощью функций ETL (Extract-Transform-Load). Название ETL можно перевести как «извлечение, преобразование и загрузка данных». Имеется в виду загрузка в хранилище данных для дальнейшей обработки в системе бизнес-аналитики.
В простейшем случае это загрузка данных в виде одной, объединённой, консолидированной таблицы. В данной работе мы познакомимся с основными этапами ETL на примере загрузки данных в электронные таблицы.

Бизнес-аналитика. Извлечение, преобразование и загрузка данных — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Бизнес-аналитика. Извлечение, преобразование и загрузка данных», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Снова изменяем тип данных на числовой.

Теперь всё прошло успешно (рис. 3.17).

В ячейке за 1998 год стоит ноль.

Ошибок нет.

Все выполненные шаги по преобразованию данных выводятся в списке

APPLIED STEPS

Рис. 3.17. Второй столбец преобразован

Задание. Завершите преобразование второго столбца и убедитесь в отсутствии ошибок.

Здесь мы столкнулись с длинным тире. Это не просто чёрточка. Неплохо было бы с этими чёрточками познакомиться. А ещё есть символ минуса. Это тоже какая-то чёрточка. Или это одно и то же?

Задание. Прочитайте в Википедии статьи «Тире», «Дефис» и «Минус». Выясните английские названия этих символов, какие символы для каких целей используют, а также как вводить разные виды тире в текстовом редакторе Microsoft Word.

Преобразование данных в третьем столбце потребует нескольких действий:

— удалить пробелы, которые мешают преобразованию в число;

— возможно, удалить запятую и два нуля в конце строк;

— преобразовать тип данных в числовой и настроить формат вывода на экран.

Мало того, в данных за 2015 год отсутствует один пробел.

Выделяем третий столбец и начинаем проводить перечисленные преобразования.

Замена пробела на «ничто» не удалась.

Попробуем выяснить причину.

Возвращаемся в браузер и вызываем просмотр исходного текста страницы сайта (рис. 3.18). Нажимаем правую кнопку мыши и в контекстном меню выбираем

View Page Source.

Мы работаем в браузере Firefox. В других браузерах функция просмотра исходного текста может скрываться в другом месте.

Рис. 3.18. Переход к исходному тексту страницы

Задание. Откройте исходный текст страницы.

Рассматриваем полученный текст (рис. 3.19).

Между тройками цифр стоит загадочная комбинацию букв.

А в неудачной строке за 2015 год есть и пробел, и эти загадочные буквы. В конце числа пробел действительно отсутствует.

Рис. 3.19. Фрагмент исходного текста

Задание. Ознакомьтесь с представлением данных за 2015 и 2016 годы в исходном тексте.

Поищем в интернете ответ на вопрос:

что такое

Выясняется, что это так называемый НЕРАЗРЫВНЫЙ ПРОБЕЛ (рис. 3.20).

Английское название: non-breaking space.

Сокращённое обозначение: NBSP — Non-Breaking Space.

Рис. 3.20. Описание неразрывного пробела

Задание. Прочитайте в Википедии статью «Неразрывный пробел» и выясните, в каких случаях его рекомендуют применять, а также как его вставлять в редакторе Microsoft Word.

Мы разобрались, что это было. Оно только выглядит как пробел. На самом деле, это другой символ. Поэтому поиск обычного пробела ничего не дал.

Снова вызываем функцию поиска и замены:

Replace Values.

На этот раз сделаем всё правильно (рис. 3.30).

Раскрываем дополнительные возможности

Advanced Options.

Ставим отметку для выбора специальных символов:

Replace using special characters.

Неразрывный пробел относится как раз к специальным символам.

Щёлкаем по строке поиска:

Value To Find.

Раскрываем выпадающий список:

Insert special character.

Выбираем в этом списке тот самый неразрывный пробел:

Non-breaking Space.

А вот в строке замены не пишем ничего.

Значит пробел заменят на ничто. То есть мы все эти символы удаляем.

Нажимаем ОК.

Рис. 3.30. Удаление неразрывного пробела

Задание. Удалите неразрывные пробелы в третьем столбце.

Рассмотрим полученные результаты (рис. 3.31).

Числа стали похожи на числа.

Но в данных за 2015 год остался один пробел.

Изучаем исходный текст и обнаруживаем один настоящий пробел. Похоже при составлении данной страницы каждый год в таблицу дивидендов добавляли новую строчку. И данные за 2015 год ввели по-другому. Может быть, использовали другой редактор HTML. А, может, просто была плохая погода. Или, наоборот, хорошая. Нас интересует получить числа. А по пути приходится выяснять причины ошибок и справляться с ними.

Рис. 3.31. Третий столбец после удаления NBSP

Задание. Изучите результаты замены для 2015 года.

Задаём поиск и удаление обычного пробела.

Пробел исчезает. Остаются красивые числа.

Изменяем тип данных на числовой.

Теперь в третьем столбце появились числа.

А в пустых ячейках появилось слово NULL. Это не число «ноль». Это «ничего», то есть «данные отсутствуют». Скорее всего, этот столбец добавили в 2013 году. А, может быть, до 2013 года действительно не объявляли размер дивидендов.

Рис. 3.32. Третий столбец — числовые значения

Задание. Удалите пробелы.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»

Представляем Вашему вниманию похожие книги на «Бизнес-аналитика. Извлечение, преобразование и загрузка данных» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Бизнес-аналитика. Извлечение, преобразование и загрузка данных»

Обсуждение, отзывы о книге «Бизнес-аналитика. Извлечение, преобразование и загрузка данных» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x