Можно ли доверять личные данные чату GPT и онлайн переводчикам?

Как устроен чат GPT? На каких данных он обучается?
В основе ChatGPT — архитектура Transformer: модель разбивает текст на токены (фрагменты слов) и, определив контекст, предсказывает следующий токен. Сначала идёт предобучение на гигантских массивах текстов, а затем — донастройка с помощью диалогов и обратной связи пользователей, чтобы ответы были полезнее и безопаснее.
Кроме того, в сервисах для частных пользователей (например, в личном аккаунте ChatGPT) новые диалоги могут использоваться для улучшения моделей. Это происходит в том случае, если вы не отключили эту функцию в настройках. Для бизнес-продуктов (ChatGPT Team/Enterprise и API) действует иной режим: данные по умолчанию не используются в обучении моделей.
Безопасно ли передавать конфиденциальную информацию чату?
Давайте разберемся, где хранятся данные ваших диалогов.
1) Провайдер
Данные передаются в компанию, которая предоставляет ИИ сервис.
Если мы приводим в пример ChatGPT, то его разработчик, компания OpenAI, зарегистрирована в США и подчиняется местным законам. Данные из чатов персонального аккаунта могут быть выданы властям и специальным службам США. При этом, на сегоднящний день крайне маловероятно, что они будут переданы российским структурам.
Данные личных чатов используются для обучения модели. То есть они могут появиться случайно в разговоре с ChatGPT любого человека (это крайне маловероятно, но возможно). В личном чате эту функцию можно отключить, или включить Temporary Chat, который хранится до 30 дней и не используется для тренировки.
Если делиться чатом по ссылке (функция share), то он может попасть в выдачу Google и любой человек, у которого окажется ссылка, сможет получить доступ к содержимому.
ИИ-модели уязвимы к Prompt Injection: злоумышленник вводит вредоносные команды, и модель может выдать чужие диалоги или внутреннюю информацию. Защищаться очень сложно; хотя OpenAI и другие инвестируют в защиту, лучше считать, что всё, что вы отправляете в ИИ-сервисы, может стать публичным.
2) Ваш эккаунт
История ваших чатов хранится в аккаунте на сайте ChatGPT или другой модели, которой вы пользуетесь. Но эккаунт можно захватить, например, через фишинг, повтор паролей, угон сессии, утёкшие API-ключи. Получив доступ к вашему аккаунту, атакующий может посмотреть историю переписки и данные, которыми вы делились в диалогах.
3) Ваше устройство
Если устройство заражено или плохо защищено, злоумышленники могут отслеживать ваши действия, в том числе всё, что вы вводите в чат, с помощью вредоносных программ, небезопасных расширений или утилит для записи экрана.
Вывод: передавать конфидециальную информацию чату небезопасно. Чем выше чувствительность данных, тем жёстче должны быть процессы: минимизация, корпоративные тарифы режим «временного чата», соглашения об обработке данных (DPA) и внутренние политики обращения с ИИ-инструментами. Так же, можно поднимать ИИ-инструменты на своём оборудовании, чтобы исключить утечки (много ИИ-инструментов и инструкций можно найти тут).
Как отказаться от использования ваших данных для обучения ChatGPT?
У пользователей есть Data Controls — переключатели, позволяющие управлять историей и использовать (или не использовать) ваши разговоры для улучшения моделей:
- В веб-версии/десктопе: Профиль → Settings → Data Controls → отключите «Improve the model for everyone» (после этого новые чаты не будут использоваться для обучения).
- На iOS/Android: меню → Settings → Data Controls → Chat History & Training (тот же переключатель доступен в мобильных приложениях).
- Временный чат (Temporary Chat) — альтернативный быстрый вариант для разовых запросов: не попадает в историю, не используется для обучения, удаляется в течение 30 дней. Запускается из выпадающего меню в окне чата.
- Для бизнеса (ChatGPT Team/Enterprise и API) данные по умолчанию исключены из обучения; при необходимости подписывается DPA и настраиваются сроки хранения/резиденция данных.
А онлайн переводчики? Собирают ли они личные данные?
Сбор и использование личных данных зависит от сервиса и режима использования.
- DeepL (бесплатные сервисы): в условиях использования прямо указано, что загруженный контент может временно обрабатываться для обучения и улучшения нейросетей. То есть вводимые вами тексты потенциально могут стать частью данных для улучшения качества.
- DeepL для бизнеса (Pro/Enterprise): позиция иная — «тексты не хранятся и не используются для обучения без вашего согласия»; заявлены расширенные меры защиты и соответствие требованиям безопасности.
- Google Translate: Google прямо пишет, что «мы собираем информацию о том, как вы используете наши сервисы», и что эта информация может быть применена для совершенствования алгоритмов.
- Google Cloud Translation (корпоративный API от Google): контент используется только для предоставления сервиса; публичной публикации и передачи третьим лицам не происходит. Это отдельный продукт от потребительского «Google Переводчика» на translate.google.com.
- Microsoft Azure AI Translator: заявляет, что данные клиентов не записываются на постоянное хранение во время перевода (нет записи отправленного текста/речи в дата-центрах Microsoft).
Бесплатные «пользовательские» переводчики нередко используют данные для улучшения сервиса, а корпоративные API-продукты крупных разработчиков специально спроектированы так, чтобы не использовать ваш контент для обучения и минимизировать хранение. Если вы работаете с договорами, медицинскими документами, то выбирайте режимы и тарифы с понятными гарантиями (и оформляйте договор об обработке данных).
Как обезопасить себя?
1) Оцените чувствительность
Если это персональные данные, коммерческая тайна, сведения о здоровье/финансах — избегайте бесплатных потребительских сервисов. Используйте корпоративные планы (ChatGPT Team/Enterprise, API) или локальные решения.
2) Настройте Data Controls — Отключите «Improve the model for everyone», если не хотите делиться диалогами для обучения;
— Для разовых конфиденциальных запросов пользуйтесь Temporary Chat.
3) Минимизируйте данные
Заменяйте ФИО, номера договоров и другие маркеры псевдонимами. Вставляйте фрагменты, необходимые для ответа, а не целые документы.
4) Следите за каналами и следами
Не вставляйте секретные данные (ключи API, пароли) в любые чаты. Не загружайте закрытые документы в бесплатные переводчики.
5) Проверьте политику переводчика
Для DeepL — используете ли вы Free (контент может использоваться для улучшения) или Pro/Enterprise (контент не хранится/не используется без согласия).
Для Google — различайте Cloud Translation API (строгие условия обработки) и Google Translate (данные будут использованы для обучения).
Для Microsoft — убедитесь, что работаете через Azure Translator, где нет постоянного логирования переводимого текста.
6) Формализуйте правила
Для компании — пропишите политику использования ИИ: какие сервисы разрешены, кто может отправлять и какие данные, какие предъявляются требования к анонимизации, запрет на загрузку персональных данных в недоверенные ИИ-инструменты, порядок экспорта/удаления.
7) Не забывайте про «человеческий фактор»
Нейросети уверенно «галлюцинируют». В критичных задачах (юридическая экспертиза, медицина, финансы) всегда опирайтесь на второе мнение человека и проверяйте первоисточники.
8) Используйте функцию памяти осознанно
Если включена «память» (Memory), она может запоминать ваши предпочтения; в Data Controls её можно отключить и очистить накопленную информацию.
9) Удаляйте информацию
Чаты можно удалять или вести их в «временном» режиме. Для личных чатов действует стандартный цикл удаления; в режиме Temporary Chat — автоудаление в 30 дней.