Журнал "Information Security/ Информационная безопасность" #2, 2025

Большие данные – распространенный термин, широко применяющийся как на уровне бизнес-логики и управления, так и в более узких технологических обла- стях: инженерии данных и инфраструк- туре обработки информации. С точки зрения безопасности это явление также стоит рассматривать по крайней мере на этих же трех уровнях, выделяя на каждом свои угрозы, уязвимости и мето- ды защиты. Безопасность больших данных на уровне бизнес-логики невозможна без обеспечения ее на нижележащих. И если защита базовых инструментов инфраструктуры, таких как сети пере- дачи данных или технологии виртуа- лизации, сегодня в фокусе рассмот- рения многих исследователей и вен- доров, уровень инженерии данных, как правило, остается без внимания. Мультимодельные и распределенные СУБД Какие новые тенденции и технологи- ческие решения можно выделить в обра- ботке и хранении больших данных на уровне инженерии – в контексте СУБД? Не секрет, что большинство современ- ных СУБД являются в той или иной сте- пени мультимодельными решениями (Polyglot Persistence), то есть не реали- зующими строгого реляционный подход. Это обусловлено, в первую очередь, проблемой разнородности данных и необходимостью совместной обработки информации, структурированной по-раз- ному и зачастую неполной. Следует отметить, что с точки зрения безопасно- сти существенных различий между муль- тимодельными и мономодельными СУБД нет и сегодня де-факто многие стан- дартные промышленные системы управ- ления базами данных относятся к пер- вому типу. Однако, развитие мультимодельного подхода привело не только к расшире- нию функциональности промышленных СУБД, но и к появлению двух новых классов систем. В первую очередь, это полихрани- лища (Polystore). Примерами служат такие решения, как BigDawg, BigInteg- rator, Spark SQL, Estocada, ClouMdsQL и др. Их основная задача – интеграция нескольких СУБД в единую систему с общим интерфейсом. Начав с простой трансляции запросов, полихранилища сегодня развиваются в направлении интеграции управления данными: фор- мируется единая схема, транслируе- мая во входящие компоненты, а также осуществляется централизация настроек через высокоуровневую модель данных. Однако на практике полихранилища пока не получили широкого распространения и остаются скорее заделом на будущее, потенци- ально востребованным в различных отраслях. Сегодня среди новых систем управ- ления большими данными, уже став- ших частью повседневной практики ряда крупных организаций, особое вни- мание заслуживают распределенные и, как правило, гетерогенные решения. Эти системы объединяют разнородные утилиты, компоненты обработки инфор- мации (например, средства управления очередями, сбора и анализа потоковых данных) и СУБД, предназначенные для обработки, хранения и использования данных со сложным жизненным циклом. Основные проблемы и методы защиты Усложнение жизненного цикла данных, использование различных – в том числе географически распределенных – инструментов и хранилищ для решения отдельных задач, увеличение числа сотрудников, имеющих доступ к инфор- мации на разных этапах ее обработки, а также наличие большого объема Legacy- данных – все это становится источником уязвимостей и потенциальных утечек. В этом контексте с точки зрения обес- печения безопасности актуализируются две ключевые задачи: выявление данных и разграничение доступа к ним. Выявление чувствительных данных Для поиска данных как в СУБД, так и в неструктурированных файловых хра- нилищах на практике применяются раз- личные методы и инструменты – от регу- лярных выражений, правил и анализа метаданных до DCAP-систем с исполь- зованием методов машинного обучения. Это достаточно развитые и популярные решения, функциональность которых совершенствуется на фоне многообра- зия форматов и видов данных. Разграничение доступа Задача разграничения доступа на инженерном уровне до недавних пор представляла собой более простой кейс: всегда можно разграничить доступ отдельно к файлу или объекту базы данных. Однако в разнородных системах, объеденных сложным жизненным циклом данных, все становится значи- тельно сложнее. Возникают следующие проблемы: l большое число доверенных пользо- вателей и взаимное доверие между инструментами обработки данных; l связь между данными на различных стадиях жизненного цикла; 76 • УПРАВЛЕНИЕ Предел доверия: вызовы защиты распределенных систем обработки данных беспечение безопасности больших данных невозможно ограничить лишь уровнем бизнес-логики. Необходима комплексная защита во всех слоях – инфраструктурном, инженерном и управленческом. При этом особое внимание следует уделить инженерному уровню, как наименее защищенному и часто недооцененному в реальной практике. О Мария Полтавцева, д.т.н., профессор Высшей школы кибербезопасности Института компьютерных наук и кибербезопасности СПбПУ Фото: СПбПУ

RkJQdWJsaXNoZXIy Mzk4NzYw