LibCat » Книги » Компьютеры и интернет » Программирование » Денис Соломатин - Основы статистической обработки педагогической информации

Денис Соломатин - Основы статистической обработки педагогической информации

Здесь есть возможность читать онлайн «Денис Соломатин - Основы статистической обработки педагогической информации» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2020, ISBN: 2020, Жанр: Программирование, management, Детская образовательная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Читать книгу

Название:
Основы статистической обработки педагогической информации
Автор:
Денис Владимирович Соломатин
Жанр:
Программирование / management / Детская образовательная литература / на русском языке
Год:
2020
ISBN:
978-5-532-04389-3
Рейтинг книги:
5 / 5. Голосов: 1
Избранное:

Добавить в избранное
Отзывы:
Написать комментарий
Ваша оценка:
- 100
- 1
- 2
- 3
- 4
- 5

Основы статистической обработки педагогической информации: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Основы статистической обработки педагогической информации»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Учебное пособие содержит текстовые сведения, иллюстрации и задания по основам статистической обработки педагогической информации в R, вольный пересказ содержимого сайта r4ds.had.co.nz, многие годы аккумулирующего труды исследователей всего мира, с занимательными дополнениями и историческими справками в попытке адаптации материала под профессиональные нужды современных онлайн-учителей. Последняя глава посвящена изучению возможностей R, позволяющих открыть собственную онлайн-школу.

Основы статистической обработки педагогической информации — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Основы статистической обработки педагогической информации», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

summarise( первый_рейс = min (dep_time),

последний_рейс = max (dep_time) )

Измерение позиции указателя на элементах списка осуществляется функциями first( x ) для выбора первого элемента переменной x , nth( x , n ) для выбора n -ного, last( x ) для выбора последнего. Они работают аналогично адресации массивов в нотации x [1], x [ n ] и x [length( x )], но возвращают значение аргумента default, если запрошенная позиция не существует. Например, не увенчается успехом попытка получить значение такого элемента, как неотмененные$dep_time[length(неотмененные$dep_time)+1], вернув NA, неопределенное значение переменной, но при этом на выходе даст «Бинго!» вызов nth(неотмененные$dep_time,length(неотмененные$dep_time)+1, default = "Бинго!").

Следующая функция range() дополняет фильтрацию. Приведём пример, в котором сначала все записи группируются по датам и ранжируются, а потом фильтрация оставляет в строках значения, имеющие наибольший и наименьший из рангов в группе. Для сравнения, вызов функции range(неотмененные$dep_time) вернёт список, состоящий из наибольшего и наименьшего значений переменной dep_time:

неотмененные %>% group_by (year, month, day) %>%

mutate(ранжирование = min_rank(desc(dep_time))) %>%

filter(ранжирование %in% range(ранжирование) )

Ранее в вычислениях уже использовалась функция n(), которая вызывается без аргументов, и возвращает размер текущей группы. Чтобы посчитать количество непустых значений в группе х , используется конструкция sum(!is.na( x )), а чтобы подсчитать число различных (уникальных) значений вызывается n_distinct( x ). Например, вычислим, какие направления имеют наибольшее количество перевозчиков:

неотмененные %>% group_by(dest) %>%

summarise(перевозчики= n_distinct(carrier)) %>%

arrange(desc(перевозчики))

Подсчеты значений настолько востребованы, что в пакете dplyr выделена отдельная функция count() для этого. Подсчитаем число повторений каждого направления, хранящихся в переменной dest таблицы неотмененных авиарейсов:

неотмененные %>% count(dest)

При необходимости указывается параметр веса каждого слагаемого (wt). Например, это можно использовать для подсчета общей суммы количества миль, которые пролетел самолет с фиксированным бортовым номером, взятым из поля talinum в базе неотмененных рейсов:

неотмененные %>% count(tailnum, wt = distance)

Подсчет числа значений удовлетворяющих логическому выражению, sum( x > 777), или их среднее количество, mean( y == 0), предполагает, что в связке с числовыми функциями TRUE преобразуется в 1, а FALSE в 0. Это делает функции sum() и mean() очень востребованными: sum( x ) возвращает количество значений TRUE для аргумента x , а mean( x ) возвращает их долю. Вычислим, сколько неотмененных рейсов было до 6 утра по данным за каждые сутки, это обычно указывает на задержку с предыдущего дня:

неотмененные %>% group_by(year, month, day) %>%

summarise(утренние_рейсы = sum(dep_time < 600))

Какова доля неотмененных рейсов, задержавшихся более часа:

неотмененные %>% group_by(year, month, day) %>%

summarise(часовая_задержка = mean(arr_delay >= 61))

При группировании по нескольким переменным, каждая новая сводка выносится на новый уровень группировки. Это облегчает восприятие и постепенно упрощает данные:

группы_по_дням <��– group_by(flights, year, month, day)

(сводка_по_дням <��– summarise(группы_по_дням, полётов = n()))

(сводка_по_месяцам <��– summarise(сводка_по_дням, полётов = sum(полётов)))

(сводка_за_год <��– summarise(сводка_по_месяцам, полётов = sum(полётов)))

Будьте осторожны при постепенном сворачивании выборки, это приемлемо для итоговых сумм и счетчиков, но нужно не забывать про такие характеристики, как медиана и отклонение, анализ результатов свёртки принципиально невозможен в ранговой статистике. Другими словами, сумма внутригрупповых сумм является общей суммой, но медиана внутригрупповых медиан не будет равна общей медиане, о последнем свойстве порой сознательно забывают при выведении нужных результатов из различных голосований. Если потребуется отменить группировку, и вернуться к операции с негруппированными данными, то используется функция ungroup():

группы_по_дням %>%

ungroup() %>% # разгруппируем данные обратно

summarise(полётов = n()) # подсчитаем все полёты

Упражнения

1. Примените мозговой штурм чтобы изобрести как минимум 7 различных способов анализа типовых причин серийной задержки рейсов, учитывая следующие сценарии:

а) в 50% случаев вылет осуществляется на 15 минут раньше запланированного, и в 50% рейс задерживается на 15 минут.

б) рейс всегда опаздывает на 10 минут.