Журнал "Information Security/ Информационная безопасность" #6, 2024

клиентов, партнеров и поставщиков. Ежедневно сотрудники компаний обме- ниваются сотнями сообщений, что дела- ет этот канал идеальной мишенью для злоумышленников. Люди привыкли доверять письмам, особенно если они выглядят официально, и именно на этом строится большинство атак соци- альной инженерии. Фишинговые письма, спам, вложения с вредоносным кодом или ссылки на поддельные страницы – все это инстру- менты и методы, которые способны пре- одолеть системы защиты. Более того, атаки через почту эволю- ционируют: злоумышленники используют динамические ссылки, компрометиро- ванные домены и даже QR-коды, что делает почту не только каналом обще- ния, но и зоной высокого риска. Фильтрация почты – давно уже не просто фильтрация спама. Фактически, почта – это первая линия обороны Сложность защиты почты заключа- ется в том, что этот канал не может быть просто закрыт – его важность для бизнеса слишком велика. Поэтому ком- пании должны использовать много- слойные подходы, включающие техно- логии фильтрации фишинга и спама, анализ вложений, чтобы минимизиро- вать риски и эффективно противостоять угрозам. – При создании своевременной системы защиты от фишинга или вредоносного содержимого, воз- никает вопрос, а на чем обучать свои модели или эвристические фильтры? Ведь злоумышленники могут выявить, на каких данных они обучались и тестировались, пред- сказать поведение и затем использовать эту информацию в своих целях. – То, что вы описали, – классическая атака на модель, известная как атака уклонения (evasion attack). И это касается не только ИИ. Злоумышленники пытают- ся узнать параметры, признаки и внут- реннюю логику работы сигнатурных и поведенческих методов. Они целена- правленно подбирают признаки или характеристики данных, чтобы обмануть модель и обойти ее защитные механиз- мы. В современных системах ключевыми аспектами защиты становятся много- слойность, машинное обучение как дополнение, и что самое важное, спо- собность моделей к адаптации и дообучению. Как правило, обучение моделей дей- ствительно начинается с тестовых дан- ных, но это лишь первый шаг. Особенно это заметно в таких задачах, как борьба со спамом. Например, если вы откроете папку "Спам" в своем почтовом ящике, а ваш коллега – в своем, то характер писем будет совершенно разным. Соз- дать универсальную модель, охваты- вающую весь спектр спама, невозмож- но. Но можно внедрить механизмы дообучения. В нашей практике, например, тради- ционные эвристические методы фильт- рации сначала накапливают определен- ный объем данных. Затем из него фор- мируется внутренний датасет, который используется для дообучения модели, адаптированной под конкретного заказ- чика. Это позволяет модели учитывать специфику данных в реальном времени и повышать свою эффективность. Однако у такой адаптации есть ограничения. Если перенести обученную модель к другому заказчику, она будет работать хуже, поскольку ее настройки уже адаптированы под уникальные дан- ные первой среды. Например, модель, натренированная на распознавании спама с конференциями, может быть неэффективна для обработки спама, связанного с другой темой, например с ковидом. Другая важная проблема – отравление датасетов (data poisoning). Вы правильно заметили, что злоумышленники могут вмешиваться в процесс обучения, осо- бенно если используются открытые дан- ные. Если берутся открытые датасеты, такие как Malware Bazaar, мы не можем быть уверены, что все файлы там дей- ствительно вредоносны. Злоумышленник может добавить в такой датасет обычные файлы с определенными макросами, пометив их как вредоносные. Если модель обучится на этих данных, она начнет ошибочно классифицировать любые файлы с похожими макросами как угрозы. Чтобы избежать таких ситуаций, важно фильтровать данные, тщательно их очи- щать и по возможности собирать собст- венные контролируемые наборы. Кроме того, синтетические данные могут стать ценным инструментом для обучения моделей. – Какие данные вы используете для обучения и тестирования эффективности анстипам- и анти- фишинг-движков? – Мы в "АВ Софт" преимущественно работаем с собственными данными, поскольку использование открытых источников сопряжено с рядом серьез- ных ограничений. Во-первых, существует риск их отравления, а во-вторых, таких данных крайне мало для полноценного обучения. Основу наших фильтров составляют данные, которые мы соби- раем самостоятельно. Кроме того, мы активно применяем синтетические дан- ные и дообучаем модели на информа- ции, предоставленной заказчиками. При этом важно учитывать, что моде- ли, работающие непосредственно у заказчика, остаются в его инфраструк- туре. Мы не имеем права забирать их для дальнейшего анализа или исполь- зования. Это не только вопрос конфи- денциальности, но и защиты самих дан- ных заказчика, поскольку извлеченные модели могут стать целью атак, что соз- дает дополнительные риски. Такой под- ход позволяет нам сохранить высокий уровень безопасности и доверия, не жертвуя качеством обучения. – Какие технологии вы исполь- зуете в борьбе с фишинговыми атаками? – Для защиты от фишинговых атак как в ATHENA, так и в KAIROS мы используем комбинацию различных методов. И машинное обучение здесь играет немаловажную роль. Первым делом мы выполняем репута- ционный анализ домена и ссылки с использованием различных фишинговых баз, а также проверяем кем, когда, где был зарегистрирован домен, как часто менялся контент и т.д. Важно проверить все переходы (редиректы) по ссылке и при необходимости выполнить дина- мический анализ – открыть ссылку в вир- туальной изолированной среде с исполь- зованием браузера. Это позволит обна- ружить вредоносные скрипты, отложен- ное поведение и другие техники. Технологии машинного обучения также предлагают разнообразные под- ходы для выявления и предотвращения фишинговых атак. В их основе лежат как классические методы, так и глубокое обучение. Классические методы рабо- тают с определенными признаками, таки- ми как наличие сигнатур скриптов, слова’ на сайте или параметры в НТТР-запро- сах. Еще одной интересной технологией, используемой в KAIROS, является использование глубоких нейронных сетей для компьютерного зрения и ана- лиза текста. Например, мы анализируем содержи- мое изображений для обнаружения под- дельных логотипов и графических эле- ментов, которые маскируют вредонос- ный контент. Или сравниваем изобра- жение страницы с имеющимися в базе скриншотов легитимных сайтов. Такой подход оказался особенно эффективным в случае атак на извест- ные сети ретейла, банковской сферы и т.д., где злоумышленники создавали идентичные копии сайтов с небольшими изменениями в домене, например, добав- ляя дефис. Все помнят известный и дале- ко не единичный случай – атаке под- вергся сайт DNS, где фишинговая актив- ность начиналась только на этапе оплаты в корзине. Визуально сайты были иден- тичны, но технология компьютерного зрения смогла обнаружить различия и выявить поддельный. Другим важным инструментом являет- ся анализ текста (NLP). Например, мы можем выявлять фишинговые URL-адре- са, которые содержат характерные ошибки или подделки, такие как буква, 12 • В ФОКУСЕ

RkJQdWJsaXNoZXIy Mzk4NzYw