Однако все еще существуют некоторые проблемы. С одной стороны, некоторые исследователи предпочитают распаковывать упакованные программы, а затем обнаруживать распакованные. Но методы распаковки не всегда могут быть полезны, поскольку крекеры могут писать своим частным упаковщикам, которые трудно распаковать. С другой стороны, другие исследования, такие как (Чжан и др. 2016; Хуан и др. 2014; Сюй и др. 2016; Кумар и др. 2012; Конрад и др. 2011; Бай и др. 2014; Сантос и др. 2013), предпочитают использовать динамический анализ, который отслеживает взаимодействие между операционной системой и программами в изолированных средах или виртуальных машинах для сбора таких функций, как системные вызовы, трафик и т.д.. Хотя динамический анализ может получить поведение упакованного исполняемого файла при выполнении, поведение при выполнении не только включает исходное поведение, но также включает поведение упаковщиков исполняемого файла, которое запутывает исходное поведение. Существующие методы не учитывают запутанность, вызванную поведением упаковщиков.
Чтобы преодолеть эти проблемы, в этой книге я стремлюсь предложить новый подход, который может обнаруживать упакованные варианты вредоносных программ без процесса распаковки. Поскольку динамический анализ может определять поведение при выполнении, мы получаем последовательность выполняемых системных вызовов, отслеживая системные взаимодействия в безопасной среде.
В последнее время существует несколько связанных работ по анализу на основе системных вызовов. Некоторые из них предпочитают использовать n-грамм для представления временных последовательных взаимосвязей системных вызовов и используют классификаторы для классификации вредоносных исполняемых файлов и законных, таких как (Конрад и др. 2011; Канзанезе и др. 2015) и т. Д.
Однако, чтобы обнаружить упакованные варианты вредоносных программ с помощью этих системных вызовов, нам необходимо решить несколько сложных проблем. Одна из проблем заключается в том, что системные вызовы упаковщиков запутывают исходный дистрибутив и скрывают реальные злонамеренные намерения. Кроме того, как представитель исполняемых файлов высокого уровня, системный вызов является грубым и разреженным, что приводит к плохому обобщению функций. Более того, это обостряет проблему запутывания, вызванную упаковщиками.
Поскольку системные вызовы вариантов вредоносных программ, принадлежащих к одним и тем же семействам, имеют схожие дистрибутивы, и существует значительная разница в дистрибутивах между вредоносными и безвредными (Jang et al. 2015), некоторые системные вызовы чаще используются в вариантах вредоносных программ. Я предлагаю извлечь серию чувствительных системных вызовов, встроить их частоты в вектор и применить метод глубокого обучения для решения этих проблем. Некоторые недавние исследования также использовал глубокое обучение для обнаружения уязвимостей или вредоносных программ, которые обеспечивают более высокую точность, например (Li et al. 2018; Kolosnjaji et al. 2016) и т. д. Сначала я извлекаю серию системных вызовов, которые более чувствительны к вредоносному поведению, основанному на теории информационной энтропии. Я называю эти системные вызовы чувствительными системными вызовами, которые уменьшают степень запутанности. Затем я встраиваю системные вызовы в вектор, используя частоту встречаемости. Чувствительные системные вызовы позже будут отправлены в нейронную сеть для обучения или классификации. Далее я предпочитаю использовать многослойные нейронные сети для обучения модели. Наконец, я использую модель для обнаружения и классификации вариантов вредоносных программ.
Однако, поскольку в таких многослойных нейронных сетях существуют некоторые проблемы, такие как исчезновение градиента и распределенное представление, необходимо улучшить способность нейронных сетей к сходимости для достижения лучшей производительности. Я предлагаю метод многослойных нейронных сетей с инициализацией главного компонента для ускорения скорости сходимости и повышения точности. Инициализация главного компонента преобразует чувствительные системные вызовы в несколько новых векторов столбцов, которые являются линейными комбинациями системных вызовов, новые векторы столбцов линейно независимы, что может снизить сложность вычислений и ускорить скорость сходимости.
Основные материалы этой книги обобщены следующим образом.
Читать дальше