Искусственный интеллект

Компании изучают способы защиты данных в эпоху LLM

Генеративные модели искусственного интеллекта вынуждают компании проявлять творческий подход к тому, как они удерживают сотрудников от разглашения конфиденциальных данных.

Большие языковые модели (LLM), такие как ChatGPT, потрясли рынок защиты данных, поскольку компании ищут способы предотвратить утечку сотрудниками конфиденциальных и несвободных данных во внешние системы.

Компании уже начали предпринимать решительные шаги, чтобы предотвратить возможность утечки данных, в том числе запрещать сотрудникам пользоваться системами, внедрять элементарные средства управления, предлагаемые поставщиками генеративного искусственного интеллекта, и использовать различные службы безопасности данных, такие как сканирование контента и брандмауэры LLM. Эти усилия предпринимаются по мере того, как исследования показывают, что утечки возможны, чему способствуют три громких инцидента в Samsung, производящей потребительские устройства, и исследования, согласно которым до 4% сотрудников вводят конфиденциальные данные.

В краткосрочной перспективе проблема безопасности данных будет только усугубляться — особенно потому, что при наличии правильных подсказок LLM очень хорошо извлекают крупицы ценных данных из обучающих данных, что делает технические решения важными, говорит Рон Рейтер, соучредитель и технический директор Sentra, фирмы по обеспечению безопасности жизненного цикла данных.

“Предотвращение потери данных стало гораздо более серьезной проблемой, потому что внезапно появились … эти большие языковые модели с возможностью индексирования данных очень, очень эффективным способом”, – говорит он. “Люди, которые просто рассылали документы … теперь шансы того, что эти данные попадут в большую языковую модель, намного выше, а это значит, что найти конфиденциальные данные будет намного проще”.

До сих пор компании пытались найти способы борьбы с риском утечки данных через LLM. Samsung запретила использование ChatGPT в апреле, после того как инженеры передали конфиденциальные данные в большую языковую модель, включая исходный код из базы данных semiconductor и протоколы внутреннего совещания. В мае Apple запретила своим сотрудникам использовать ChatGPT, чтобы помешать работникам раскрывать конфиденциальную информацию, хотя на тот момент сообщений об инцидентах не поступало. А финансовые фирмы, такие как JPMorgan, ввели ограничения на использование сервиса сотрудниками еще в феврале, ссылаясь на проблемы регулирования.

Риски, связанные с генеративным искусственным интеллектом, становятся более значительными, поскольку большие, сложные и неструктурированные данные, которые обычно включаются в LLM, могут противостоять многим решениям по защите данных, которые, как правило, сосредоточены на определенных типах конфиденциальных данных, содержащихся в файлах. Компании высказывают опасения, что внедрение генеративных моделей искусственного интеллекта приведет к утечке данных, говорит Равиша Чуг, главный аналитик Gartner.

Поставщики систем искусственного интеллекта предложили некоторые решения, но они не обязательно развеяли опасения, говорит она.

“OpenAI раскрыла ряд средств управления данными, доступных в службе ChatGPT, с помощью которых организации могут отключить историю чатов и заблокировать доступ с помощью ChatGPT для обучения своих моделей”, – говорит Чью. “Тем не менее, многие организации недовольны тем, что их сотрудники отправляют конфиденциальные данные в ChatGPT”.

Внутренний контроль LLM

Компании, стоящие за крупнейшими LLM, ищут способы ответить на эти сомнения и предлагают способы предотвращения утечек данных, например, предоставляя компаниям возможность иметь частные инстанции, которые хранят свои данные внутри фирмы. Однако даже этот вариант может привести к утечке конфиденциальных данных, поскольку не все сотрудники должны иметь одинаковый доступ к корпоративным данным, а LLM облегчают поиск наиболее конфиденциальной информации, говорит Рейтер из Sentra.

“Пользователям даже не нужно обобщать миллиарды документов для получения заключения, которое нанесет ущерб компании”, – говорит он. “Вы можете задать системе вопрос типа: “Скажите мне, есть ли разница в заработной плате” [в моей компании]; она просто ответит вам: “Да, согласно всем данным, которые я получил, разница в заработной плате есть”.

Управление внутренним LLM также является серьезной задачей, требующей глубоких знаний в области машинного обучения (ML), которые позволят компаниям внедрять и поддерживать свои собственные версии моделей массового искусственного интеллекта, говорит Чуг из Gartner.

“Организациям следует обучать своих собственных LLM для конкретной предметной области, используя конфиденциальные данные, которые обеспечат максимальный контроль над защитой конфиденциальных данных”, – говорит она. “Это наилучший вариант с точки зрения безопасности данных, [но] он жизнеспособен только для организаций с необходимыми навыками ML и глубокого обучения, вычислительными ресурсами и бюджетом”.

Новые методы защиты данных LLM

Однако технологии защиты данных могут адаптироваться для предотвращения многих сценариев потенциальной утечки данных. Компания Sentra, занимающаяся защитой облачных данных, использует LLM для определения того, какие сложные документы могут представлять собой утечку конфиденциальных данных, если они передаются службам искусственного интеллекта. Компания Trellix, занимающаяся обнаружением угроз, например, отслеживает фрагменты буфера обмена и веб-трафик на предмет потенциальных конфиденциальных данных, а также блокирует доступ к определенным сайтам.

Новая категория фильтров безопасности — брандмауэры LLM — могут использоваться как для предотвращения получения LLM опасных данных, так и для того, чтобы генеративная модель искусственного интеллекта не давала неправильных ответов. В мае компания Arthur, занимающаяся машинным обучением, анонсировала свой брандмауэр LLM – подход, который может блокировать отправку конфиденциальных данных в LLM и предотвращать отправку службой LLM потенциально конфиденциальных — или оскорбительных – ответов.

Наконец, компании не остаются без средств правовой защиты. Вместо того, чтобы полностью блокировать использование чат-ботов LLM, юридические службы компании могли бы обучать пользователей предупреждениям и отзывам, чтобы они не передавали конфиденциальную информацию или даже не ограничивали доступ к определенному кругу пользователей, говорит Чью. На более детальном уровне, если команды могут создавать правила для определенных конфиденциальных типов данных, эти правила могут использоваться для определения политик предотвращения потери данных.

Наконец, компании, которые внедрили комплексную защиту, внедрив сетевой доступ с нулевым доверием (ZTNA), а также средства управления облачной безопасностью и брандмауэр как услугу — сочетание, которое Gartner называет пограничными службами безопасности (SSE), — могут рассматривать генеративный ИИ как новую категорию веб-ресурсов и блокировать загрузку конфиденциальных данных, говорит Чуг из Gartner.

“Модуль SSE forward proxy может маскировать, редактировать или блокировать конфиденциальные данные в режиме реального времени, когда они вводятся в ChatGPT в качестве запроса”, – говорит она. “Организациям следует использовать опцию блокировки, чтобы предотвратить попадание конфиденциальных данных в ChatGPT из веб-интерфейсов или API”.

admin
Author: admin