Журнал "Information Security/ Информационная безопасность" #3, 2022

Для решения задачи нами были опробованы наи- более популярные методы машинного обучения, вклю- чая кластеризацию, Local Outlier Factor, Isolation Forest, One Class SVM. В нашем случае алгорит- мы начинают выдавать результаты практически сразу, как только система начинает работу. Чем чище система от вредоносной активности в период обучения, тем точ- нее проходит обучение наша модель. Поскольку нам требовался взгляд за пределы типовых атак, то мы сразу отказались от использования размеченных обучающих выборок с извест- ными атаками – это не дало бы требуемого эффекта. Для детектирования аномалий в сетевом трафике мы выбрали метод тренировки модели без учителя. Таким образом, исход- ные данные для модели не были размечены, то есть для каждого события априори не было известно, является ли оно ано- мальным или нет. В ходе исследования для решения задачи нами были опробованы наиболее популяр- ные методы машинного обуче- ния, включая кластеризацию, Local Outlier Factor, Isolation Forest, One Class SVM. Причем вполне допускалось, что в итоге мог остаться не только один алгоритм: использование нескольких методов, которые бы работали независимо друг от друга, дало бы более широ- кую картину и позволило бы задействовать достоинства каж- дой модели. Например, метод One Class SVM хорошо находит новые события, но уязвим к отравлению обучающей выбор- ки. С другой стороны, Isolation Forest лишен такого недостатка, но не так эффективно работает со входными данными. Одна часть алгоритмов в результате исследований ока- залась в финальном решении, другая часть была отбракована или отложена в бэклог либо из- за особенностей реализации на практике, либо из-за избыточ- ных требований к вычислитель- ным ресурсам. У нас также отсутствовала экспертная оценка ожидаемого количества аномалий, что повлияло на особенности при- менения алгоритмов и созда- вало дополнительную слож- ность в проверке качества полу- чаемой модели. Кроме того, нам важно было детектировать аномалии не постфактум, а в реальном вре- мени, да еще и в большом пото- ке событий, порядка 105 собы- тий в секунду. В результате была создана система, объединяющая несколько моделей на основе машинного обучения и решаю- щая поставленную задачу в условиях описанных ограниче- ний. Пришла пора проверить систему на практике. Проверка практикой Сырые ненормированные данные поступали на вход моде- лей из различных ИБ-систем, аккумулирующих сетевые собы- тия, таких как межсетевые экра- ны и SIEM. Каждая система выдавала события с изначально разными признаками, поэтому в итоге мы остановились на самом базовом наборе: ip-адре- сa, порты, протокол, количество переданных байтов – именно на основе этих данных и строи- лись модели. Для объединения определенных моделью как отклонения событий в инциден- ты мы использовали кластери- зацию. Важный практический вопрос: сколько времени должно прой- ти, прежде чем система начнет выдавать первые результаты? В нашем случае алгоритмы начинают выдавать результаты практически сразу, как только система начинает работу. Пер- вый пакет накапливается за одну минуту, он отправляется в модуль предсказания, который выдает результат. Может потре- боваться первичная настройка параметров модели, но такие ситуации редки. Конечно же, чем чище систе- ма от вредоносной активности в период обучения, тем точнее проходит обучение наша модель. Метод One Pass SVM и стати- стическая модель, работающие в системе, накапливают доста- точную обучающую выборку от нескольких часов до семи дней. Такой период обучения позво- ляет также учесть недельную цикличность работы сети, ведь трафик в выходные дни заметно отличается от рабочего. При этом модель принуди- тельно переобучается каждые сутки на ретроспективных дан- 44 • ТЕХНОЛОГИИ Выявление аномалий в сетевом трафике моделями с машинным обучением ы в отделе разработок алгоритмов машинного обучения Security Vision поставили перед собой задачу: научиться детектировать нетипичные события в сетевом трафике для выявления новых типов атак, не замечаемых другими системами защиты. Искать нетипичные события можно классическими детерминированными методами – моделями на основе знаний об известных атаках, о типичном и атипичном поведении, с использованием белых и черных списков. Такие модели вполне эффективны, но они не позволяют находить новые виды нетипичных событий, а также требуют частого адаптирования как под меняющуюся инфраструктуру, так и под непостоянный характер трафика. Поэтому в качестве основного математического аппарата мы выбрали модели на основе машинного обучения, которые очень хорошо подходят для такой постановки задачи благодаря своей обобщающей способности и механизмам адаптации к изменениям. М Валентина Пугачева, ведущий разработчик алгоритмов машинного обучения компании Security Vision