Различные типы педагогических данных могут быть изучены и интегрированы с mixOmics. Методы могут обрабатывать показатели успеваемости, измеренные в непрерывном масштабе или полученные на основе данных подсчета, которые становятся непрерывными данными после предварительной обработки и нормализации.
Пакет mixOmics не справляется с нормализацией, так как он универсален и охватывает широкий спектр данных. До начала анализа предполагается, что наборы данных были нормализованы с использованием соответствующих методов нормализации педагогических данных и предварительно обработаны, когда это возможно.
В то время как методы mixOmics могут обрабатывать большие массивы данных (несколько десятков тысяч переменных-предикторов), рекомендуется предварительно фильтровать данные до менее чем 10 000 переменных-предикторов на набор данных, например, с помощью медианного абсолютного отклонения, удалив пренебрежимо малые значения в наборах данных или путем удаления предикторов почти нулевой дисперсии. Такой шаг направлен на уменьшение вычислительного времени в процессе настройки параметров.
Методы mixOmics используют разложения матриц. Таким образом, числовая матрица данных или фреймы данных имеют n наблюдений или образцов в строках и p предикторов или переменных в столбцах.
В текущей версии mixOmics, ковариации, которые могут запутать анализ не включены в методы статистического анализа. Рекомендуется корректировать наборы этих ковариаций заранее, используя соответствующие унивариантные или многовариантные методы для удаления информационного шума.
Перечислим теперь основные методологические и теоретические основы, которые необходимо знать, чтобы эффективно применять mixOmics:
• Индивидуальные наблюдения или образцы: экспериментальные группы, на которых собиралась информация, например, обучающиеся, студенты, олимпиадные задания и прочее.
• Переменные, предикторы: считываемые измерения на каждом образце, например, успеваемость, посещаемость, решаемость задач, творческая самореализация и так далее.
• Дисперсия: измеряет уровень распылённости одной переменной. Как правило оценивается дисперсия целых компонентов, а не считываемых переменных. Высокая дисперсия указывает на то, что точки данных очень отличаются от среднего, и друг от друга (разбросаны).
• Ковариация: измеряет прочность взаимосвязи между двумя переменными, то есть являются ли они ковариантами друг друга. Высокое значение ковариации указывает на сильную связь, например, посещаемость и успеваемость у отдельных обучающихся часто различаются примерно одинаково; в общем случае, самые низкие и самые высокие значения коэффициента ковариации не имеют нижнего или верхнего предела.
• Корреляция: нормализованная версия ковариации, значения которой ограничены отрезком от -1 до 1.
• Линейная комбинация: разные переменные могут объединяться в одну путем умножения каждой из них на коэффициент и сложения полученных результатов. Линейная комбинация успеваемость a и посещаемости b может быть 2∙a – 1,5∙b с коэффициентами 2 и -1,5, присвоенных успеваемости и посещаемости соответственно.
• Компонент: искусственная переменная, построенная из линейной комбинации наблюдаемых переменных в данном наборе данных. Переменные коэффициенты оптимально определяются на основе какого-то статистического критерия. Например, в основном компоненте анализа определяются коэффициенты (основного) компонента, с тем чтобы максимизировать дисперсию компонента.
• Нагрузки: переменные коэффициенты, используемые для определения компонента.
• Визуализация образца: представление образцов, проецируемых в небольшом пространстве, охватываемом (определяемом) компонентами. Координаты образцов определяются значениями или вычисленными баллами компонентов.
• Изображение круга корреляции: представление переменных в пространстве, охватываемом компонентами. Каждая переменная координата определяется как корреляция между исходным переменным значением и каждым компонентом. Диаграмма с корреляционным кругом позволяет визуализировать корреляцию между переменными – отрицательную или положительную корреляцию, определяемую косинусом угла между центром круга и каждой переменной точкой, а также вклад каждой переменной в каждый компонент, определяемый абсолютным значением координат по каждому компоненту. Для такого толкования данные должны быть сосредоточены и масштабированы, что подразумевается по умолчанию в большинстве методов, за исключением PCA. Подробная информация об этом наглядном представлении информации будет представлена в соответствующем разделе ниже.
Читать дальше