Как устроен чат GPT? На каких данных он обучается?
ChatGPT и другие большие языковые модели (LLM) — это нейросети, способные генерировать текст по запросу. Такие нейросети являются моделями искусственного интеллекта, которые в своей работе отчасти напоминают нейроны человеческого мозга.
Для того чтобы эффективно отвечать на вопросы пользователей, большие языковые модели обучаются на огромном объеме данных. Эти данные поступают из различных источников, таких как общедоступные веб-сайты, базы данных и открытые библиотеки. Информация для обучения собирается из источников, которые разрешены и доступны для использования, включая статьи, книги, научные публикации и другие тексты.
Нейросети, используемые для языковых моделей, способны не только распознавать текст, но и учитывать контекст. Чем больше данных и информации они обрабатывают, тем точнее могут воспринимать детали и специфику каждой ситуации.
Кроме того, модели обучаются не только на сторонних ресурсах, но и на взаимодействиях с пользователями. Эта информация может быть использована для генерации ответов и улучшения работы модели в будущем.
Безопасно ли передавать конфиденциальную информацию чату?
Когда вы отправляете запросы чату, модель сохраняет эти запросы в своей памяти. Она анализирует ваши предпочтения и интересы, создавая ваш профиль, чтобы лучше адаптировать ответы и учитывать контекст вашего запроса.
Разработчики крупных языковых моделей часто заявляют, что данные, собранные во время общения, используются только для ответов в рамках вашего аккаунта. Однако, в политике конфиденциальности Google Gemini содержится предупреждение о том, что пользователи не должны включать в свои запросы конфиденциальную информацию или любые данные, если они не хотят, чтобы эти данные становились доступными для рецензентов или использовались Google для улучшения продуктов, услуг и технологий машинного обучения.
Таким образом, важно понимать, что риски сохраняются. Алгоритмы нейросетей не всегда прозрачны, и даже их создатели не всегда могут точно объяснить, как именно они формируют ответы.
Есть случаи, когда пользователи случайно передавали чувствительную информацию в ChatGPT, что приводило к утечкам данных.
Мы рекомендуем не передавать конфиденциальные или личные данные в чат. В разделе "Вопросы и ответы" Open AI есть такая информация: «Наши модели могут использовать персональные данные, чтобы понять, как такие вещи, как имена и адреса, сочетаются в языке и предложениях, или узнать об известных людях и общественных деятелях. Это позволяет нашим моделям лучше выдавать релевантные ответы», а также «Мы можем использовать контент, отправленный в ChatGPT, DALL-E и другие наши сервисы для частных лиц, для улучшения работы модели. Например, в зависимости от настроек пользователя, мы можем использовать подсказки пользователя, ответы модели и другой контент, такой как изображения и файлы, для улучшения работы модели». То есть, есть возможность, что чат может случайно сгенерировать ответ, содержащий конфиденциальные данные.
Также важно помнить о мерах безопасности вашего аккаунта: если он плохо защищен, злоумышленники могут его взломать и получить доступ к личной информации.
Как отказаться от использования ваших данных для обучения ChatGPT?
Для этого нужно деактивировать соответствующую функцию, необходимо зайти в настройки профиля (иконка в левом нижнем углу), выбрать "Настройки" > "Управление данными" (Settings > Data Controls) и отключить параметр "Улучшить модель для всех" (Improve the model for everyone). Если эта опция отключена, новые разговоры не используются для обучения модели. Однако данные могут храниться до 30 дней для выявления злоупотреблений, после чего они удаляются.
В Google Gemini и других LLM также можно сделать соответствующие настройки. Более подробную информацию об отключении функции у разных моделей можно найти на сайте Wired (текст на английском).
Может ли ChatGPT передать другим пользователям ваш полностью скопированный текст?
Использование ChatGPT для корректировки текста или перевода на другой язык — это удобно, и модель справляется с этим очень хорошо. Тем не менее, даже в этом случае следует проявлять осторожность. Если вы работаете над деловым письмом, вероятно, особых проблем не возникнет, если только вы не делитесь с чатом конфиденциальной информацией, паролями или личными данными. Однако, когда речь идет о редактировании креативных авторских текстов, ситуация может стать более сложной.
Несмотря на заявления технических специалистов, что память чата устроена так, что он не хранит информацию и не копирует ее, а только запоминает (как человеческий мозг, который запоминает, но не дословно), на практике чат может действительно воспроизводить тексты дословно. Это связано с тем, что даже разработчики не могут точно объяснить, по какому принципу нейронная сеть решает, какое слово будет следующим в тексте.
А онлайн переводчики? Собирают ли они личные данные?
В правилах пользования Google Translate указано, что данные пользователей не обрабатываются, Google не хранит их, и информация используется исключительно для перевода.
Если вы доверяете Google, то можете использовать переводчик, включая сенситивную информацию. Однако стоит помнить, что Google собирает большое количество данных о пользователях для рекламы и создания профилей. Несмотря на то, что данные анонимизируются, уже давно стало очевидно, что по косвенным данным можно идентифицировать пользователей.
Основой онлайн-переводчика является модель искусственного интеллекта, которая нуждается в обучении, и она обучается на запросах пользователей. Google заявляет, что текст, отправленный в Google Translate, не используется для создания пользовательских профилей или целевой рекламы, однако сервис может регистрировать запросы на перевод. Эти данные обычно используются для улучшения функциональности сервиса. Тем не менее, обработанные данные могут быть проанализированы алгоритмами, что вызывает опасения по поводу конфиденциальности.
Мы рекомендуем внимательно читать пользовательские соглашения и самостоятельно решать, стоит ли доверять сенситивную информацию переводчику, учитывая, что в онлайн-переводчиках используются те же нейросети, которые должны обучаться.
Как обезопасить себя?
Мы настоятельно не рекомендуем делиться с чатом сенситивной или личной информацией. Также мы рекомендуем деактивировать функцию использования ваших данных для обучения модели.
Для дополнительной безопасности можно скачать ChatGPT на личный сервер или устройство. В этом случае ваши данные останутся в безопасности.
Если ваш аккаунт недостаточно защищен, злоумышленники могут получить доступ к вашим данным. Следовательно, остаются актуальными все рекомендации по созданию сложных паролей и защите от взлома.
Если вы не хотите, чтобы к вашим данным имел доступ государственный аппарат, мы не рекомендуем делиться сенситивной информацией с нейросетями, зарегистрированными в России или Китае. Согласно российскому законодательству, сервисы, которые попадают в реестр ОРИ (организаторов распространения информации), обязаны хранить информацию о пользователях, переписку и другие данные и предоставлять ее правоохранительным органам по запросу. По смыслу закона, языковые модели не являются организаторами распространения информации, но поскольку в списке ОРИ сейчас находятся Яндекс, Вконтакте и другие компании, разрабатывающие модели искусственного интеллекта, то обмен информацией вполне вероятен.
Что касается онлайн-переводчиков, то важно внимательно ознакомиться с их правилами использования и принять для себя решение, доверяете ли вы разработчику.