Как оценить риски для конфиденциальности при использовании данных клиентов и использовать технологии повышения конфиденциальности для минимизации рисков

Конфиденциальность имеет значение

В наш век организаций, ориентированных на данные, независимо от того, в какой отрасли вы работаете, вы, скорее всего, собираете, обрабатываете и анализируете тонны данных о клиентах. Это может быть для выполнения запроса клиента на обслуживание, по юридическим или нормативным причинам или для предоставления вашим клиентам лучшего пользовательского опыта за счет персонализации с использованием искусственного интеллекта или машинного
обучения. Однако, по данным Statista, число утечек данных увеличивается с каждым годом: в 2021 году сообщалось о 1862 компрометациях данных, что на 68 % больше, чем в 2020 году, при этом 83 % из них связаны с конфиденциальными данными. информация. Такая конфиденциальная информация, попадая в чужие руки, может нанести ущерб жизни клиента из-за кражи личных данных, преследования, атак программ-вымогателей и т. д. Это в сочетании с ростом законов о конфиденциальности и законодательства в различных штатах выдвинуло технологии обработки данных, повышающие конфиденциальность, на передний план.

Компромисс между конфиденциальностью и полезностью данных

Для приложений ИИ, таких как персонализация, конфиденциальность и полезность данных, можно визуализировать на противоположных сторонах спектра. Данные, которые не содержат ничего личного, т. е. не раскрывают черты или характеристики клиентов, не представляют ценности для персонализации. Тем не менее, данные, содержащие личную информацию, могут использоваться для предоставления высоко персонализированного опыта, но если набор данных попадет в руки любого человека, это может привести к потере конфиденциальности данных клиента. В результате всегда существует неотъемлемый компромисс между риском для конфиденциальности и полезностью этих данных.

Ценность конфиденциальности для организаций

Закон о переносимости и подотчетности медицинского страхования (HIPAA), Калифорнийский закон о конфиденциальности потребителей (CCPA), Закон о защите конфиденциальности детей в Интернете (COPPA), Закон о биометрических идентификаторах — это лишь некоторые из многих законов и законодательных актов, ориентированных на конфиденциальность, в США. Несоблюдение таких правил может стоить организации штрафа в миллиарды долларов. Например, недавно штат Техас подал в суд на материнскую компанию Facebook Meta, требуя возмещения ущерба в размере миллиардов долларов за неправильное обращение и использование конфиденциальных биометрических данных миллионов жителей штата. Приоритет конфиденциальности может помочь избежать огромных штрафов и не ограничиваться потерей лицензии на ведение бизнеса. Кроме того, могут быть огромные потери доверия и лояльности потребителей, имиджа и восприятия бренда. Небрежное отношение к конфиденциальности данных потребителя может снизить пожизненную ценность клиента, повлиять на конверсию и продление подписки. На самом деле, такие компании, как Apple, перевернули проблему с ног на голову и фактически используют конфиденциальность как конкурентный ров в качестве отличия от других технологических компаний.

Источники риска для конфиденциальности в данных, собираемых организацией

В организации существует три основных источника риска для конфиденциальности:

  1. Необработанные данные о клиентах и ​​любые их производные. Необработанные данные клиента могут представлять собой данные, введенные клиентом, такие как имя, адрес, возраст, пол и другие данные профиля, или данные о том, как клиент использует продукт, например, посещения страниц, продолжительность сеанса, товары в корзине, история покупок, настройки оплаты и т. д.
  2. Метаданные и журналы. Метаданные и журналы включают местоположение клиента, местонахождение веб-сайта продукта, IP-адрес устройства, MAC-адрес, журналы обслуживания, журналы обращений в службу поддержки и т. д.
  3. Модели машинного обучения, обученные на данных клиентов. Сами по себе модели ML могут казаться не содержащими ничего личного, но модели ML могут запоминать закономерности в данных, на которых они обучались. Модели, обученные на критически важных клиентских данных, могут сохранять персональные данные клиентов внутри моделей и представлять риск раскрытия персональных данных клиентов независимо от того, была ли модель развернута в облаке или на периферийных устройствах. Если злоумышленник получает доступ к такой модели, даже в виде черного ящика, он может провести серию атак для восстановления личных данных, что приведет к нарушению конфиденциальности.

Классификация безопасности модели ML должна определяться на основе классификации данных ее обучающих данных. Артефакты модели машинного обучения могут содержать данные клиентов в виде открытого текста, а сама модель машинного обучения подвержена атакам на конфиденциальность. Если организация использует торговую площадку и делится моделями машинного обучения с внешними партнерами, даже в рамках соглашений о неразглашении и обмене данными, модели машинного обучения представляют высокий риск атак на конфиденциальность.

Выявление пробелов в политике конфиденциальности

Организации, которые хотят обеспечить соблюдение конфиденциальности своих данных, должны провести анализ пробелов, чтобы выявить любые потенциальные риски и слабые места. Оценки воздействия на конфиденциальность данных (DPIA) являются важным инструментом для проведения анализа пробелов в организациях. Этот процесс включает в себя изучение существующих практик, политик и процедур, связанных с конфиденциальностью и защитой данных, чтобы оценить, насколько они соответствуют текущим требованиям законодательства. Анализ пробелов обычно выполняется службами безопасности и конфиденциальности данных в организации и, как таковой, выполняется сотрудником по защите данных (DPO). Анализ пробелов также может быть передан на аутсорсинг, но организация, запрашивающая его, по-прежнему несет за него ответственность.

При проведении анализа пробелов организациям необходимо учитывать все аспекты защиты данных, включая меры физической безопасности, контроль доступа и технологии шифрования данных. Им также следует пересмотреть свою политику и процедуры, связанные с обработкой информации, хранением и обменом данными. Организации должны учитывать потенциальные угрозы из внешних источников (например, киберпреступников), а также внутренние угрозы, возникающие в результате человеческой ошибки или злого умысла. Например, для GDPR важно не только учитывать, какие пользователи имеют доступ к данным клиентов, но и оценивать, почему сотрудникам в первую очередь нужен доступ к данным клиентов. Если вариант использования не оправдан в рамках заранее определенных принципов, связанных с обработкой персональных данных, разрешения пользователя должны быть немедленно отозваны. При оценке следует также учитывать вероятность различных угроз, возникающих в отношении защищенных активов данных, и предполагаемое влияние каждой угрозы на деятельность организации в случае ее реализации.

После выявления каких-либо слабых мест организации могут предпринять шаги, чтобы закрыть пробел, внедрив необходимые изменения, такие как внедрение новых инструментов или обновление существующих политик. Например, организации могут внедрить детальный контроль доступа, такой как доступ, который работает только в течение короткого промежутка времени (управление доступом с привязкой по времени), доступ только в заранее определенном географическом местоположении или только с фиксированного набора устройств или IP-адресов. . Кроме того, им может потребоваться создать дополнительные учебные занятия для сотрудников, чтобы они были осведомлены о последних правилах защиты данных и могли принимать правильные меры при работе с данными клиентов.

DPIA и анализ пробелов не являются единовременными, и организациям следует рассмотреть возможность проведения DPIA всякий раз, когда они рассматривают возможность внедрения новых систем или методов, связанных с персональными данными. В целом, анализ пробелов является важным компонентом поддержания эффективной программы конфиденциальности данных в организации. Это может помочь снизить риск нарушений и обеспечить соблюдение применимых законов о защите данных. Используя упреждающий подход к анализу пробелов в соблюдении требований конфиденциальности данных, организации могут лучше защитить конфиденциальную информацию своих клиентов, обеспечив при этом высочайший уровень безопасности для всех систем и операций, связанных с обработкой персональных данных.

Использование технологий повышения конфиденциальности для повышения уровня конфиденциальности

Как следует из названия, PET — это инструменты, с помощью которых организации могут выявлять, снижать или устранять потенциальные риски конфиденциальности данных. Развертывая PET в своих системах, организации могут помочь свести к минимуму любую утечку конфиденциальной личной информации и продемонстрировать соответствие применимым требованиям к защите данных. Некоторые примеры PET включают токенизацию, дифференциальную конфиденциальность, гомоморфное шифрование, федеративное обучение и безопасные многосторонние вычисления.

Токенизация – это процесс замены конфиденциальных данных клиентов, таких как имена или SSN, псевдонимом, анонимным токеном или случайной строкой, не имеющей никакого связанного значения. Это предотвращает доступ злоумышленников к ценным данным клиентов в случае взлома. Например, продавец может сохранить гипотетический номер кредитной карты 1234–5678–9011–2345, заменив средние 8 цифр случайно сгенерированными строками или символами. Таким образом, розничный продавец все еще может идентифицировать и использовать кредитную карту, но она никогда не будет подвергаться воздействию злоумышленников, если база данных когда-либо будет взломана. Одним из недостатков этого метода является то, что для повторного использования кредитной карты в будущем для законных целей (например, автоматических платежей по подписке) организации необходим детерминированный способ восстановления исходного номера карты из токенизированного значения. Если алгоритм токенизации попадет в чужие руки, это может привести к нарушению конфиденциальности данных.

Дифференциальная конфиденциальность: – это метод защиты конфиденциальности отдельных лиц в наборе данных путем добавления случайного шума к данным таким образом, что трудно идентифицировать какое-либо лицо при сохранении общей информации. Цель состоит в том, чтобы гарантировать, что любая информация о каком-либо человеке в наборе данных не будет раскрыта, но при этом позволит провести полезный анализ общих данных. Одним из примеров того, как это работает, является использование дифференциальной конфиденциальности в переписи населения США. Бюро переписи населения собирает большой объем информации от отдельных лиц, в том числе конфиденциальную информацию, такую ​​как доход и расовая принадлежность. Чтобы защитить конфиденциальность отдельных лиц, Бюро переписи населения добавляет шум к данным, прежде чем предоставить их исследователям. Это затрудняет для кого-либо определение информации о конкретном человеке, но при этом позволяет анализировать общие тенденции и закономерности в данных. Добавление шума также создает проблемы, затрудняя извлечение точных сведений из данных. По мере увеличения объема данных увеличивается количество шума, необходимого для обеспечения определенного уровня конфиденциальности, что может сделать данные менее полезными для анализа. Алгоритмы дифференциальной конфиденциальности могут быть довольно сложными и сложными в реализации, особенно для больших наборов данных или для определенных типов запросов. Наконец, реализация дифференциальной конфиденциальности может потребовать значительных вычислительных ресурсов и специализированного оборудования или программного обеспечения.

Гомоморфное шифрование: Гомоморфное шифрование — это тип шифрования, который позволяет выполнять вычисления с зашифрованным текстом, то есть с зашифрованными данными. Результат вычисления по-прежнему зашифрован, но его можно расшифровать, чтобы выявить результат вычисления исходного открытого текста. Это позволяет обрабатывать и анализировать конфиденциальные данные без необходимости их расшифровки, тем самым обеспечивая конфиденциальность и безопасность данных. Пример в контексте систем голосования. Система голосования может использовать гомоморфное шифрование для обеспечения конфиденциальности и безопасности голосов. Система может шифровать голоса, а затем выполнять вычисления с зашифрованными голосами, чтобы определить победителя выборов. Зашифрованные голоса можно расшифровать, чтобы раскрыть результат вычисления, но отдельные голоса остаются конфиденциальными. Гомоморфное шифрование может быть сложно реализовать из-за его вычислительной неэффективности, ограниченной функциональности, рисков безопасности, управления ключами, масштабируемости, отсутствия стандартизации, сложности и ограниченного коммерческого использования. Кроме того, необходимы дополнительные исследования для повышения эффективности алгоритмов гомоморфного шифрования, чтобы сделать их более практичными и пригодными для использования в реальных сценариях.

Федеративное обучение: — это метод машинного обучения, который позволяет нескольким сторонам обучать модель на своих собственных данных, сохраняя при этом конфиденциальность данных и локальные данные. Это достигается за счет локального обучения модели на каждом устройстве или стороне, а затем агрегирования обновлений модели по защищенному каналу связи, а не обмена самими данными. Одним из примеров федеративного обучения является контекст мобильных устройств. Мобильная компания может захотеть обучить модель, чтобы улучшить производительность своего клавиатурного приложения. Благодаря федеративному обучению компания может обучать модель на данных с устройств пользователей, даже не собирая и не обмениваясь данными. Обновленные модели с каждого устройства можно объединять для улучшения общей модели. Федеративное обучение требует больших вычислительных ресурсов и может потребовать специализированной инфраструктуры, к которой обычные организации могут не иметь доступа. Кроме того, объединение данных от разных сторон может иметь разное распределение, что может затруднить обучение одной модели, которая хорошо работает для всех сторон.

Технологии повышения конфиденциальности быстро развиваются благодаря огромным достижениям, достигнутым за последние 5 лет. Тем не менее, ПЭТ не является панацеей, и есть несколько проблем, которые еще предстоит решить. Самый большой из них заключается в том, что PET уникальны по-своему, и каждый из них предлагает разные возможности с различными компромиссами между конфиденциальностью и полезностью. Организации должны глубоко понимать свои варианты использования и оценивать, какой ПЭТ лучше всего подойдет для их организации. Кроме того, для установки некоторых решений могут потребоваться значительные ИТ-ресурсы или технические знания, а это означает, что не все организации будут иметь возможность использовать этот тип технологий. Внедрение ПЭТ также может быть дорогостоящим для организаций или отдельных лиц. Наконец, эти решения требуют регулярного обслуживания, такого как исправление отклонений модели или переобучение моделей с использованием актуальных данных, и в результате организациям или отдельным лицам может быть сложно следить за необходимыми обновлениями, чтобы гарантировать, что эффективные меры безопасности по-прежнему актуальны. на месте.

Увлеченные представители научных кругов, исследователей и стартапов стремятся преодолеть трудности и сделать ПЭТ частью набора инструментов SaaS каждой организации. Я настоятельно рекомендую всем, кто заинтересован, погрузиться и оставаться в курсе событий, посещая конференции, читая исследовательские работы и присоединяясь к сообществу разработчиков открытого исходного кода, чтобы получать последние обновления.

Пушпак Пуджари — отраслевой эксперт в области искусственного интеллекта (ИИ), компьютерного зрения (CV), Интернета вещей (IoT), конфиденциальности и безопасности данных. Он является признанным спикером и участником многочисленных конференций, таких как Edge AI Summit, Саммит технологий повышения конфиденциальности и Саммит AI Hardware. Он также является автором статей и технических документов для многочисленных изданий, таких как Enterprise Viewpoint и Product School. Пушпак является руководителем продуктов для камер безопасности в Verkada, ведущем стартапе по производству камер безопасности в области залива, имеет степень магистра делового администрирования в Школе Уортона и степень бакалавра электротехники в ИИТ Дели, Индия. Подпишитесь на него в LinkedIn.