ChatGPT и Open AI Security: защита вашей конфиденциальности в мире передовых языковых моделей

С момента своего появления ChatGPT широко используется во всем мире, в том числе в корпоративной сфере, для эффективного решения повседневных задач. Однако недавно ChatGPT попал под микроскоп в отношении конфиденциальности и безопасности данных.

Недавние заголовки, показанные ниже, усилили обеспокоенность пользователей по поводу безопасности ChatGPT:

Canada Privacy Watch Dog исследует ChatGPT

Германия рассматривает возможность запрета ChatGPT вслед за Италией

Утечка платежных данных

Вчерашние новости показывают, как разработчики Samsung использовали ChatGPT для улучшения своей кодовой базы. Так что именно произошло?

Инженеры полупроводникового подразделения Samsung использовали ChatGPT для устранения проблем, используя свой исходный код, который включал конфиденциальные данные, такие как новая внутренняя программа, внутренние заметки о встречах, касающиеся этой программы, и т. д.

На прошлой неделе итальянский регулятор защиты данных, Итальянское управление по защите данных, GPDP, запретил ChatGPT и начал расследование. Это произошло после того, как ChatGPT был закрыт на некоторое время из-за ошибки, которая позволяла пользователям видеть историю чатов и разговоров других пользователей (Источник).

Означает ли это, что OpenAI хранит или обрабатывает ваши данные из ChatGPT?

Нет OpenAI, вы можете отказаться от сбора данных и улучшения модели, заполнив эту форму. Это новая функция, поскольку OpenAI по умолчанию сохраняет и обрабатывает информацию, отправленную в ChatGPT, для улучшения своих моделей. Однако OpenAI не рекомендует использовать ChatGPT для конфиденциальных данных (источник).

Используют ли OpenAI API GPT-3/4 ваши данные для улучшения модели?

Нет. OpenAI не обрабатывает данные, отправленные через свой API, для обучения моделей OpenAI или улучшения своих предложений. Однако важно помнить, что данные, отправляемые в их API, основаны на серверах, размещенных в США, и OpenAI сохраняет данные, которые вы отправляете через API, для мониторинга злоупотреблений в целях повышения до 30 дней. Однако OpenAI позволяет вам отказаться от этого мониторинга, гарантируя, что ваши данные нигде не хранятся и не обрабатываются. Вы можете отказаться, используя эту форму. Это означает, что жизненный цикл ваших данных начинается и заканчивается с каждым вызовом API. Данные отправляются через API, вывод возвращается в виде ответа на вызов API. Он не запоминает и не хранит никаких данных, отправленных между каждым запросом API.

Использует ли Azure OpenAI такую же политику?

Да. Служба Azure OpenAI не обрабатывает данные, отправленные в ее API, для обучения моделей или улучшения своих предложений. Подобно OpenAI, они хранят данные, которые вы отправляете через API, для мониторинга злоупотреблений в течение 30 дней. Вот обзор того, как передаются ваши данные:

Однако Microsoft позволяет вам отказаться от этого мониторинга, гарантируя, что ваши данные нигде не хранятся и не обрабатываются. Вы можете отказаться, используя эту форму. Кроме того, Azure уже обеспечивает сетевую безопасность с помощью таких функций безопасности, как частные сети и конечные точки.

Как насчет тонкой настройки?

Как в OpenAI, так и в Azure OpenAI ваша точно настроенная модель — ваша собственная. Никто, кроме вашей организации, не имеет доступа к файлам, используемым для обучения модели, или к самой обученной модели. Файлы, используемые для тонкой настройки, могут быть удалены после обучения, оставив вам только модель, которая генерирует вывод (завершение) на основе вашего запроса, ни один из которых не сохраняется.

В Azure вы также получаете дополнительную гибкость в отношении того, где находятся ваши данные, выбирая соответствующий регион. Однако на данный момент не все регионы доступны для тонкой настройки, особенно за пределами США. Подробнее об этом можно узнать здесь.

Заключение

ChatGPT может быть неправильным вариантом при работе с конфиденциальными данными, поскольку данные используются для улучшения модели. Однако модели OpenAI и Azure OpenAI, доступ к которым осуществляется через API, защищают конфиденциальность пользователей и не обрабатывают данные для улучшения модели. Данные по умолчанию собираются в этих API для мониторинга злоупотреблений, однако существует опция, позволяющая пользователям отказаться от сбора и мониторинга данных. Обе платформы также позволяют пользователям настраивать свои собственные модели, при этом никто другой не имеет доступа к файлам, используемым для обучения модели, или к самой обученной модели.

Об авторе:

Рохит Винсент (Rohit Vincent) — специалист по данным в Version 1 Innovation Labs.
Прочтите его последние блоги о GPT-4 и GPT-3.