Журнал "Information Security/ Информационная безопасность" #4, 2022

В Сети можно найти принадлежащие Грегори С. Орзеллу патенты на некото- рые технологии, применяющиеся в хаос- инжиниринге, – настолько серьезно он подошел к этому. В процессе создания дисциплины он пытался ответить на вопросы, как перебраться в облако, как быть готовым к отказам в работе мик- росервисов, как подготовить всю систему к сбоям. Netflix разработала множество мето- дов, которые вводят риски и проблемы в проект. Эти риски могут быть связаны с дисковой подсистемой, с сетью, с дата- центрами – с чем угодно. Этапы проведения хаос-инжиниринга На первом этапе нужно понять, что такое устойчивое состояние в рассмат- риваемой системе (метрики, показате- ли). Какие метрики снимать – никакого золотого правила нет, но они должны однозначно заявлять, что система (при- ложение) находится в стабильном устой- чивом состоянии, и быть зафиксиро- ванными. Стоит отметить преимущество найма аналитиков для подобной работы, ведь главная цель анализа данных с различных дашбордов – получить инсайты, которые помогут принять вер- ные решения. На втором этапе осуществляется выбор контрольной и экспериментальной группы. Не нужно внедрять хаос во всю систему (приложение) целиком, учиты- вая тот факт, что хаос-инжиниринг при- меняется в продакшн-окружении. На третьем этапе нужно ввести неко- торые предположения о состоянии групп. Ближайшая аналогия – структурирован- ный метод анализа сценариев "что, если?" (SWIFT – Structured What-If Tech- nique), представляющий собой система- тизированное исследование сценариев, основанное на командной работе. Для анализа используются фразы-подсказки "что, если", которые позволяют устано- вить опасные ситуации и разработать сценарии развития и предотвращения кризисных ситуаций. Например: что, если сервис/сервер перестанет рабо- тать? что, если террористы взломают крупнейшие финансовые организации мира? Одним из самых интересных этапов является четвертый этап проведения хаос-инжиниринга. Ему посвящено вве- дение переменных, отражающих реаль- ные события: нужно внедрить предпо- ложенные ранее гипотетические про- блемы в выбранную экспериментальную группу. На пятом этапе происходит попытка опровергнуть предположения. Хаос- инженеру интересно опровержение пред- положений, сделанных на третьем этапе, он должен усомниться в том, что прило- жение устойчиво к проблемам. Прохождение этих этапов необходимо, чтобы исправить вероятные проблемы в экспериментальной группе и подгото- вить систему к их реализации в дей- ствительности (см. рис. 2). Дисциплина хаос-инжиниринга подра- зумевает, что он будет проводиться на постоянной основе. В одних компаниях эти эксперименты проводятся раз в месяц, в других компаниях – раз в неделю, в третьих компаниях – перед релизом, который бывает нечасто или один раз в квартал. В крупных компаниях есть целые подразделения, которые занимаются исключительно поиском тех погрешностей, к которым приложения еще не готовы. Автоматизация хаос- инжиниринга Предшественником хаос-инжиниринга является антихрупкость (англ. Antifragility) – понятие, введенное профессором, эко- номистом и трейдером Нассимом Нико- ласом Талебом (Nassim Nicholas Taleb) в книге "Антихрупкость. Как извлечь выгоду из хаоса". Понятие используется преимущественно применительно к живым организмам (в экологии, физио- логии, психологии и т.д.) и обозначает способность системы улучшать свои показатели и процветать в ответ на хаос, сбои, риски и стресс. Какие решения разработаны для про- ведения хаос-инжиниринга? Такие инструменты есть у компании Netflix, поскольку они начали первыми этим заниматься. Это Chaos Monkey и The Simian Army, а также Chaos Engine, Gremlin, Fault Injection Queries (Amazon Aurora), Azure Fault Analysis Service и др. На сегодняшний день популярны про- граммные SAS-решения, которые охва- тывают все этапы работы с информаци- ей (сбор, изменение, управление и извлечение данных из различных источников), а также выполняют их ста- тистический анализ. Netflix использует собственный пакет приложений Simian Army, который тести- рует стабильность его сети различным образом и имеет более десятка стрес- соров. Chaos Monkey является составной частью пакета Simian Army, реализует стратегию кибербезопасности в техно- логиях облачных вычислений, которая основана на хаос-инжиниринге 2 . Хаос-инжиниринг в облаке Большинство инцидентов информа- ционной безопасности в облачной инфраструктуре за последние годы вызваны человеческими ошибками и неправильно сконфигурированными ресурсами. Для их преодоления необхо- димы новые модели безопасности. Эти модели должны использовать упреж- дающие методы, быть адаптированы к запросам клиента, непрерывны, не ориентированы на традиционные пара- дигмы кибербезопасности, такие как обнаружение вторжений. Хаос-инжиниринг – это дисциплина, которая делает упор на преднамеренное внедрение ошибок в программные систе- мы, чтобы минимизировать время про- стоя и вероятность реализации инци- дентов при одновременном повышении отказоустойчивости. Основной мотива- цией для такого подхода является пре- одоление неопределенностей, распро- страненных в распределенных системах, например в облачной инфраструктуре. Компании, применяющие принципы хао- тической инженерии, например Netflix, используют отказоустойчивые среды в общедоступных облаках. Аналогичные вопросы еще предстоит решить в сфере облачной безопасности, при этом коли- чество нарушений безопасности растет. Интересно, что значительная их часть вызвана человеческими ошибками, например неправильно настроенными политиками контроля доступа (Access Control Policies – ACP) и предоставлением чрезмерных привилегий некоторым поль- зователям. Альянс облачной безопасно- сти (The Cloud Security Alliance – CSA) утверждает, что наиболее серьезные проблемы облачной безопасности в 2019 г. – утечка данных, а также неправильная настройка и неадекватный контроль изменений. Этот факт отражен в отчете Ponemon Institute о нарушениях данных за 2019 г. 3 , где утверждается, что 49% нарушений вызваны системными сбоями и человеческими ошибками. l • 45 БЕЗОПАСНАЯ РАЗРАБОТКА www.itsec.ru Рис. 2. Этапы проведения хаос- инжиниринга Ваше мнение и вопросы присылайте по адресу is@groteck.ru 2 Хаос-инжиниринг: специальная точка добавления багов. URL: https://www.securitylab.ru/blog/company/PandaSecurityRus/ 343387.php (дата обращения: 29.07.2022). 3 IBM Security. 2019 cost of a data breach report. URL: https://www.ibm.com/downloads/cas/RDEQK07R (дата обращения: 30.07.2022).

RkJQdWJsaXNoZXIy Mzk4NzYw