Защита систем ИИ — Исследование угроз безопасности

Исследование заключается в том, чтобы видеть то, что видели все, и думать так, как никто другой не думал, — яркая цитата известного венгерского биохимика Альберт Сент-Дьёрдьи — человека, стоящего за открытием витамина С, а также компонентов и реакций его цикл лимонной кислоты. Эта цитата напоминает нам о важности признания работы, проделанной исследователями, и, в то же время, дальнейшего изучения, чтобы вводить новшества для лучшего понимания и проявлять больше творчества. Обширные знания из существующей базы знаний помогают многим исследователям и ученым улучшать работы других и создавать новые знания. Таково влияние исследований, и эти исследования являются неотъемлемым элементом развивающихся технологий, таких как искусственный интеллект, где происходит множество инноваций. В последнее десятилетие мы наблюдаем быстрое развитие в области ИИ, которое происходит за счет улучшения существующих знаний, а также за счет разнообразного и творческого мышления.

Достижения в алгоритмах, архитектуре и вычислительных возможностях ИИ не только помогли разработать передовые решения, но и привнесли новые модели рисков для всех, кто участвует в полной цепочке. В этой статье мы рассмотрим эти новые шаблоны, в частности, с точки зрения состязательного ИИ, которые помогают запускать угрозы безопасности. Мы кратко рассмотрели эти концепции в предыдущей статье, а теперь проведем более глубокий анализ этого сегмента. Опять же, именно исследовательское сообщество внесло большой вклад в это пространство, продемонстрировав различные возможности и последствия взлома систем ИИ.

Исследование угроз безопасности

Есть пять сегментов рисков, с которыми мы имели дело в первой статье. Они аккуратны и прямолинейны. Например, мы знаем о влиянии нормативных нарушений — статьи и правила в каждом из этих нормативных актов (например, GDPR или FINRA) хорошо детализированы, чтобы помочь нам соблюдать требования при разработке решений на основе ИИ. То же самое относится и к другим типам рисков, а именно к безопасности ИИ и принципам ИИ. иметь достаточное руководство для их реализации. Однако есть несколько других областей риска, на которые нелегко ссылаться, и мы могли бы лучше реализовать их только путем исследования и опыта.

В частности, об инновациях и достижениях в области угроз безопасности можно лучше узнать из исследовательских работ, написанных на тему Атаки со стороны злоумышленников в машинном обучении, в которых исследуются и экспериментируются мышление злоумышленников и модели атак с разных сторон. . Чтобы нам было легче понять глубину и широту исследований, связанных с изучением угроз безопасности, мы разделим их на две категории — Полнота и Всеобъемлемость. В следующих разделах мы подробно рассмотрим их. Как бы мы ни ценили исследовательские усилия, нам необходимо понимать прагматизм, связанный с реализацией, включая ее применимость в реальных сценариях. Мы рассмотрим их в отдельном разделе под названием Возможности. Теперь давайте начнем…

1) Полнота

Термин «полнота», когда речь идет об исследовании рисков в решениях ИИ, означает, что цель практиков должна заключаться в том, чтобы углубиться и сделать все возможное в рамках своей области при оценке потенциальных угроз. Чтобы лучше понять это, мы рассмотрели риски в разделе Безопасность программного обеспечения в предыдущем документе. Там мы узнали о точках входа злоумышленника, которые относительно легче наблюдать и действовать (например, когда модели выставляются как API), но есть несколько других методов атаки, о которых мы знаем, но не даем обратите внимание на глубину, с точки зрения используемых шаблонов или каскадного эффекта, который они создают, и т. д.

Хорошим примером этого типа является возможность эксплуатации процесса сериализации. [Реализация сериализации с использованием библиотеки Pickle подробно описана в документации по Python]. Сериализация включает преобразование модели в формат потока байтов, чтобы упростить выполнение таких операций, как сохранение и загрузка моделей по мере их производства. Есть много ссылок, в которых исследователи показали возможность внедрения вредоносного кода в файлы pickle, и во время десериализации внедренный код может привести к неблагоприятному функционированию всего решения, нарушая модель целостность. Наши оценки также должны уделять больше внимания этой логике реализации.

2) Полнота

Если полнота относится к полноте исследования, то полнота относится к полноте в более широком масштабе. Как специалисты по ИИ, мы должны думать о многих компонентах полного жизненного цикла ИИ и о потенциальных угрозах безопасности для каждого из них. Все эти компоненты не только претерпели множество усовершенствований, но и представили новые способы угроз. В следующих разделах мы изучим угрозы безопасности, связанные с развитием этих недооцененных компонентов ИИ.

а) Архитектурные шаблоны

За последние несколько лет было предложено множество архитектур нейронных сетей. Области компьютерного зрения и обработки текста — отличные примеры, в которых произошло много достижений. Одним из них является появление Трансферного обучения. Как упоминалось ранее, с этой концепцией связаны не только дополнительные преимущества, но и угрозы безопасности. Существует вероятность атаки весового отравления, пока ученые данных реализуют трансферное обучение.

В этом документе Атаки с отравлением весов на предварительно обученные модели исследуется вероятность угроз, связанных с использованием предварительно обученных весов из ненадежных источников, и то, как злоумышленники могут внедрить в них уязвимости, что приведет к >приступы отравления весом. Использование предварительно обученных весов повышает эффективность вычислений, и ученые, работающие с данными, могут использовать это непосредственно в своей модели для точной настройки целевой задачи (например, классификации). Но уязвимости в них могут быть активированы и использованы злоумышленниками, что приведет к неправильной классификации.

Чтобы объяснить эту атаку на высоком уровне, авторы этой статьи использовали комбинацию метода регуляризации и процедуры инициализации для создания концепции под названием RIPPLES, которая работает за кулисами при успешном выполнении отравления весом. атаки. Ниже показано, как запускается эта процедура инициализации, называемая Хирургия внедрения, и как она влияет на матрицу внедрения.

b) Алгоритмы обучения:

Еще одна ключевая область, в которой произошли улучшения, — это алгоритмы обучения. До сих пор в наших примерах мы видели использование контролируемого обучения, которое работает с помеченными данными. Но есть также алгоритмы неконтролируемого, полуконтролируемого и обучения с подкреплением. Многие из атак Adversarial ML преобладают в помеченных наборах данных. Например, многие исследователи успешно продемонстрировали атаки с отравлением данных на алгоритмы контролируемого обучения. Но существуют возможности для запуска бэкдор-атак на модели, реализующие алгоритмы Semi Supervised Learning (SSL), путем враждебного отравления немаркированных данных.

Как упоминалось в этой статье Глубокая скрытая бэкдор-атака на полууправляемое обучение с помощью состязательного возмущения. Авторы предложили идею DeHiB — атаки с глубоким скрытым бэкдором, которая может быть выполнена с использованием комбинации враждебных возмущений и триггерных шаблонов для неправильной классификации результатов модели. Основываясь на экспериментах, проведенных с алгоритмами SSL, ученые-исследователи, написавшие статью Опасности обучения на неразмеченных данных: бэкдор-атаки на полуконтролируемое обучение, считают, что бэкдор отравляет атаки на неразмеченные данные. могут быть выполнены противниками с ограниченными знаниями, но иметь серьезные последствия. Настоятельно рекомендуем всем прочитать этот документ, чтобы получить более глубокое представление о шаблонах атак в алгоритмах SSL.

c) Методы расчета:

«Давайте думать нестандартно». Злоумышленники не обязательно используют враждебные примеры для атаки на модели машинного обучения. Некоторые из угроз, преобладающих в окружающей среде, также можно использовать, и они относительно проще. Но есть несколько других атак, требующих значительных инженерных усилий, и одним из таких примеров является эксплуатация памяти, выполняемая в рамках глубокого обучения.

Популярные фреймворки, такие как TensorFlow (есть и другие популярные фреймворки) для построения моделей ИИ, оказались уязвимыми. TensorFlow использует GPU для запуска алгоритмов глубокого обучения из-за большого количества вычислений и требований к высокой производительности. Однако ученые-исследователи придумали метод эксплуатации под названием Деформация кода. Согласно их исследованию, опубликованному в статье Атака управления разумом: подрыв глубокого обучения с использованием памяти графического процессора, цель состоит в том, чтобы захватить поток управления графическим процессором, чтобы добиться возможности выполнения произвольного кода за счет использования уязвимостей функций графического процессора. . Результат этой атаки может помочь изменить/уменьшить точность прогноза. Предварительные условия атаки, включая основные этапы процесса, хорошо показаны на рисунке ниже.

3) Возможность

Мы ценим исследования, связанные с Adversarial AI. Однако нам нужно быть очень практичными, когда дело доходит до применения этих идей в реальных сценариях. Давайте зададим здесь пару вопросов, чтобы лучше понять возможности состязательных атак. «Сколько инженерных усилий требуется для создания этих состязательных примеров?», «сколько стоит состязательное обучение?». Очень важно задать эти вопросы, так как много раз исследовательская работа подтверждалась определенными предположениями. Существуют гипотетические сценарии, предварительно настроенные цели, которые четко упоминаются в сделанных исследовательских наблюдениях. Следовательно, сделанные выводы являются более эмпирическими и менее практичными. Поскольку специалисты-практики пытаются адаптировать их к своим сценариям реального времени, мы должны быть осведомлены об ограничениях процесса и ресурсов, включая результаты и выгоды для всех вовлеченных заинтересованных сторон.

а) Сложность состязательных атак

В исследовательской работе Примеры состязательности: возможности и проблемы четко описаны ограничения, связанные с примерами состязательности, и способы их оценки, поскольку они детализируют причину, характеристики и показатели оценки. Основываясь на том, что наблюдали исследователи, стоимость создания этих состязательных примеров для состязательного обучения высока. Во-вторых, состязательные примеры не принесут более высокого процента успеха,даже после их тщательного планирования. Кроме того, исследователи из этой статьи говорят, что при создании враждебных возмущений необходимо уделить особое внимание, чтобы достичь тонкого баланса между их разработкой и зрительной системой человека, чтобы они не были легко различимы человеческим глазом. .

Приведенный выше график — отличный способ понять сложность атаки, учитывая способности и цели атакующего. Если целью злоумышленника является выполнение целевой ошибочной классификации, то сложность выполнения атаки выше. Конечно, в этой статье есть и другая информация о метриках и другие полезные наблюдения, которые стоит прочитать.

б) Применимость состязательных атак в методах обработки данных

Многие из нас сталкивались с исследовательской работой по атакам со стороны противника, в которой основное внимание уделялось сценариям, в которых злоумышленник мог наблюдать за полной выборкой, а затем добавлять возмущения в какой-то момент выборки. Эти атаки хорошо работают, когда статические данные сохраняются в течение определенного периода времени, а затем вводятся в модель. Но сегодня у нас есть много приложений для потоковой передачи твитов, журналов и следов веб-приложений, которые отслеживаются в режиме реального времени, поэтому модели машинного обучения предназначены для работы с этими потоковыми данными. Чтобы атаковать эти модели, работающие с потоковыми данными, исследователи предложили состязательную атаку в реальном времени схему.

Как упоминалось в этой статье Атаки со стороны противника в реальном времени, целевая система получает потоковые данные; можно наблюдать только прошлые точки данных, а враждебное возмущение можно добавить только к будущим точкам данных. Использование генератора враждебных возмущений постоянно использует наблюдаемые данные для аппроксимации оптимального враждебного возмущения для будущих точек данных (рисунок, описывающий этапы высокого уровня ниже).

Что дальше

Мы рассмотрели различные точки зрения на риски безопасности — угрозы со стороны Adversarial ML, включая длину и широту необходимых исследований и, что наиболее важно, ограничения и их применимость в реальном мире. Конечно, эволюция и усовершенствования ИИ — это бесконечная вещь, как и ландшафт рисков, где мы столкнемся со многими тенденциями и новыми моделями. Но все, что мы видели до сих пор, дает нам лучшее представление о нынешнем ландшафте рисков в ИИ. В нашей следующей статье мы больше сосредоточимся на шагах, которые должна предпринять организация, и будем готовы столкнуться с проблемами, связанными с рисками ИИ, для создания надежных решений.

Подпишитесь на DDIntel Здесь.

Посетите наш сайт здесь: https://www.datadriveninvestor.com

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate

Защита систем ИИ — Исследование угроз безопасности

Исследование угроз безопасности

Что дальше

Вопросы по теме