Ученые МИФИ учатся отражать «отравленные» данные

Группа специалистов университета МИФИ разработала рабочую нейросеть MambaShield, способную защитить серверы банковской, медицинской и промышленной сферы от «атак отравления».

Как заявили авторы разработки, большинство современных ИИ-моделей обладает фундаментальной уязвимостью перед так называемыми атаками отравления. Если злоумышленник подмешивает в обучающие данные вредоносные образцы, то логика работы модели целенаправленно изменяется, что позволяет впоследствии провести атаку.

В случае с последовательными данными, в частности, логическими сетями, временными рядами датчиков, а также финансовыми транзакциями такие атаки особенно коварны. Вред наносится не сразу, а растягивается во времени: сначала чуть-чуть, потом еще и еще, при этом сама модель внешне продолжает функционировать корректно. Классические алгоритмы защиты либо пропускают угрозу, либо требуют огромных вычислительных ресурсов для ее предотвращения.

Предложенная учеными университета нейросеть MambaShield, в отличие от классических SSM, способна адаптироваться к входным данным. Модель обучается динамически решать, какую информацию из прошлого контекста сохранить, а какую отбросить. Механизм селекции позволяет эффективно обнаруживать «отравленные» образцы в массиве обучающих данных.

Эксперименты, проведенные на трех сложнейших наборах данных о кибератаках, включающих миллионы образцов вредоносного трафика, показали, что точность обнаружения «отравленных» данных в текущем режиме у новой архитектуры составляет 99,1 процента. При атаке точность падает всего на 2 – 3 %, тогда как обычные модели деградируют на 18 – 20%.

По словам исследователей, разработка не ограничивается защитой серверов. Предлагаемая архитектура может быть использована как основа для доверенного ИИ, используемого в промышленности и беспилотном транспорте, на атомных станциях, в финансовых и медицинских организациях.

Мона Платонова.

Фото rea.ru