1 ...7 8 9 11 12 13 ...18 Queries & Connections.
В контекстном меню выбираем обновление:
Refresh.
Рядом с названием запроса нам сообщают, сколько теперь строк загружено. Их явно стало больше, чем в начале работы.
Посмотрим, все ли компании у нас собраны в таблице.
Нажимаем кнопку фильтрации в заголовке столбца TICKER.
В разделе выбора значений видим пять знакомых названий. Лишних значений нет.
Пока всё идёт нормально.
Рис. 5.26. Список загруженных котировок
Задание. Обновите запрос и убедитесь, что теперь у вас загружены котировки акций пяти компаний.
Осталось одно «НО»: формат даты.
Мы настроили формат даты.
Но после обновления запроса и добавления данных формат вернулся к первоначальному (рис. 5.27).
С этим нужно что-то сделать…
Попробуйте на досуге с этой проблемой справиться.
Рис. 5.27. Формат даты
Задание. Рассмотрите объединённую таблицу и обратите внимание на формат даты.
При загрузке данных из нескольких источников можно получить несколько совершенно одинаковых, идентичных строк. Это называется ДУБЛИКАТЫ данных. Если это две разные записи, относящиеся к одному и тому же факту, нужно оставить только одну запись, а дублирующие строки удалить.
Средства ETL позволяют проводить ОЧИСТКУ данных. Это включает, в том числе, и удаление дубликатов. Смоделируем ситуацию с загрузкой дубликатов и посмотрим, как с этим справиться.
Загрузим ещё один файл для первой ценной бумаги с данными за последний календарный месяц. Поместим файл в каталог для загрузки (рис. 5.28).
Теперь в нашем каталоге два файла с котировками акций Газпрома:
— GAZP_190306_200306.csv;
— GAZP_200301_200306.csv.
В первом файле содержатся данные за период с 6 марта 2019 года по 6 марта 2020 года.
Во втором файле — с 1 марта 2020 года по 6 марта 2020 года.
Второй файл дублирует пять строк первого файла.
Рис. 5.28. Файл с дубликатами данных
Задание. Загрузите дополнительный файл с дубликатами данных за один календарный месяц и убедитесь, что указанные данные в файлах совпадают.
Итак, мы подготовили файлы с дубликатами данных.
Обновим наш запрос и посмотрим на результаты.
Обратим внимание на количество строк рядом с названием запроса.
Рассмотрим объединённую таблицу (рис. 5.29).
Данные в строках 250—254 в точности совпадают с данными в строках 255— 259. Это и есть наши дубликаты, от которых нам нужно буде избавиться.
Рис. 5.29. Дубликаты данных в объединённой таблице
Задание. Обновите запрос и проверьте, появились ли дубликаты в объединённой таблице.
Возвращаемся в редактор запросов.
Выбираем в верхнем меню удаление дубликатов:
Home — Reduce Rows — Remove Rows — Remove Duplicates.
Но не будем спешить нажимать ОКи Next.
Для начала почитаем всплывающую подсказку (рис. 5.30).
Нам сообщают, что будут удалены строки, где есть дубликаты в выбранных столбцах.
Рис. 5.30. Удаление дубликатов
Задание. Изучите всплывающую подсказку по поводу удаления дубликатов.
Что будет, если выбрать первый столбец с тикерами и удалить дубликаты? Попробуем.
У нас осталось всего пять строк (рис. 5.31).
Мы потеряли практически все данные, зато теперь тикеры не повторяются.
Нам такое не подходит. Откатываем назад последнее преобразование:
Removed Duplicates.
Нажимаем красный крестик рядом с названием шага преобразования с списке применённых шагов.
Рис. 5.31. Удаление дубликатов тикеров
Задание. Удалите дубликаты по первому столбцу и изучите результаты преобразования. Откатите последнее изменение.
Мы лишний раз убедились в справедливости следующего шуточного высказывания:
Компьютер делает не то, что вы хотели, а то, что вы сказали.
Так что же мы ХОТЕЛИ сделать? Нам нужно было удалить строки с одинаковыми записями. То есть строки с одинаковыми датами для одной и той же бумаги. Стало быть, нас интересуют дубликаты тикера и даты одновременно.
Выделяем два столбца, нажав клавишу Ctrl.
Ещё раз вызываем удаление дубликатов.
Нажимаем кнопку Закрыть и загрузить:
Close & Load.
Задание. Удалите дубликаты.
Проверяем, что получилось.
Чтобы приятнее было листать таблицу, закрепим верхнюю строку — здесь находятся заголовки столбцов:
View — Window — Freeze Panes — Freeze Top Row.
Теперь можно листать таблицу, а заголовок останется в верхней строке листа (рис. 5.32).
Рис. 5.32. Закрепляем заголовки
Задание. Закрепите заголовки таблицы.
Читать дальше
Конец ознакомительного отрывка
Купить книгу