Скрытые риски больших языковых моделей

Появление больших языковых моделей (LLM) переопределяет то, как работают команды кибербезопасности и киберпреступники. Поскольку службы безопасности используют возможности генеративного ИИ для упрощения и ускорения своих операций, важно понимать, что киберпреступники стремятся к тем же преимуществам. LLM – это новый тип поверхности атаки, предназначенный для упрощения определенных типов атак, повышения их экономической эффективности и еще большей стойкости.

В попытке изучить риски безопасности, связанные с этими инновациями, мы попытались загипнотизировать популярные LLM, чтобы определить, в какой степени они были способны предоставлять направленные, неправильные и потенциально опасные ответы и рекомендации— включая действия по обеспечению безопасности, и насколько убедительными или настойчивыми они были при этом. Мы смогли успешно загипнотизировать пять LLM — некоторые действовали более убедительно, чем другие, — что побудило нас изучить, насколько вероятно, что гипноз используется для проведения вредоносных атак. Мы узнали, что английский язык, по сути, стал “языком программирования” для вредоносных программ. С LLM злоумышленникам больше не нужно полагаться на Go, JavaScript, Python и т.д. Для создания вредоносного кода, им просто нужно понять, как эффективно командовать и запрашивать LLM, используя английский.

Наша способность загипнотизировать LLM с помощью естественного языка демонстрирует легкость, с которой субъект угрозы может заставить LLM дать плохой совет, не проводя массированную атаку с отравлением данных. В классическом смысле отравление данными потребовало бы, чтобы субъект угрозы внедрил вредоносные данные в LLM, чтобы манипулировать ими и контролировать их, но наш эксперимент показывает, что LLM можно контролировать, заставляя его предоставлять пользователям неверные рекомендации, без необходимости манипулирования данными. Это облегчает злоумышленникам использование этого появляющегося способа атаки.

С помощью гипноза мы смогли заставить LLM сливать конфиденциальную финансовую информацию других пользователей, создавать уязвимый код, создавать вредоносный код и предлагать слабые рекомендации по безопасности. В этом блоге мы подробно расскажем, как нам удалось загипнотизировать LLM и какими типами действий мы смогли манипулировать. Но прежде чем углубиться в наш эксперимент, стоит посмотреть, могут ли атаки, проводимые с помощью гипноза, оказать существенный эффект сегодня.

SMBS — Многим малым и средним предприятиям, у которых нет достаточных ресурсов для обеспечения безопасности и опыта среди персонала, может быть выгоднее использовать LLM для быстрой и доступной поддержки в области безопасности. А с LLM, разработанными для получения реалистичных результатов, ничего не подозревающему пользователю также может быть довольно сложно распознать неверную или вредоносную информацию. Например, как показано далее в этом блоге, в нашем эксперименте наш гипноз побудил ChatGPT рекомендовать пользователю, подвергшемуся атаке вымогателей, заплатить выкуп — действие, которое на самом деле не поощряется правоохранительными органами.

Потребители — Широкая общественность является наиболее вероятной целевой группой, которая может стать жертвой загипнотизированных LLM. В условиях потребителизации и шумихи вокруг LLM вполне возможно, что многие потребители готовы принять информацию, создаваемую чат-ботами с искусственным интеллектом, не задумываясь. Учитывая, что к чат-ботам, таким как ChatGPT, регулярно обращаются с целью поиска, сбора информации и экспертизы предметной области, ожидается, что потребители будут обращаться за консультациями по вопросам онлайн-безопасности и передовым методам обеспечения безопасности и гигиены паролей, создавая злоумышленникам возможность предоставлять ошибочные ответы, которые ослабляют безопасность потребителей.

Но насколько реалистичны эти атаки? Какова вероятность того, что злоумышленник получит доступ к LLM и загипнотизирует его для проведения конкретной атаки? Существует три основных способа, которыми эти атаки могут произойти:

Конечный пользователь скомпрометирован фишинговым электронным письмом, позволяющим атаке заменить LLM или провести атаку “человек посередине” (MitM) на него.
Злоумышленный инсайдер напрямую гипнотизирует LLM.
Злоумышленники могут скомпрометировать LLM, загрязняя обучающие данные, что позволяет им загипнотизировать его.

Хотя вышеуказанные сценарии возможны, наиболее вероятным — и наиболее тревожным — является компрометация обучающих данных, на которых построена LLM. Причина этого в том, что масштаб атаки и воздействие, которого злоумышленники смогут достичь, напрямую скомпрометировав LLMS, делают его очень привлекательным механизмом для атак. Фактически, рентабельность инвестиций в результате компрометации моделей ИИ для злоумышленников предполагает, что попытки атаковать модели ИИ уже предпринимаются.

По мере того, как мы исследуем возможности, которые инновации в области ИИ могут создать для общества, крайне важно, чтобы защита и обеспечение безопасности самих моделей ИИ были главным приоритетом. Это включает в себя:

Защита базовых данных обучения ИИ моделей от кражи конфиденциальных данных, манипуляций и нарушений соответствия.
Обеспечение безопасности использования моделей ИИ путем обнаружения данных или быстрой утечки и оповещения об атаках уклонения, отравления, извлечения или вывода.
Защита от новых атак, генерируемых ИИ, таких как персонализированный фишинг, вредоносное ПО, генерируемое ИИ, и поддельные удостоверения личности с помощью поведенческих защит и многофакторной аутентификации.

Гипнотизирующие LLM: давайте сыграем в игру…

Наш анализ основан на попытках загипнотизировать GPT-3.5, GPT-4, BARD, mpt-7b и mpt-30b. Наиболее эффективным LLM, которого мы загипнотизировали, был GPT, который мы проанализируем далее в блоге.

Итак, как мы загипнотизировали LLM? Обманом заставив их играть в игру: игроки должны дать противоположный ответ, чтобы выиграть игру.

” alt=”” aria-hidden=”true” />

Вот беседа с ChatGPT после запуска игры. Вы можете увидеть потенциальный риск, если потребители слепо доверяют ответу от него:

” alt=”” aria-hidden=”true” />

Чтобы гарантировать, что пользователь не сможет распознать, что LLM, с которым он взаимодействует, находится под гипнозом, мы установили два параметра:

Нераскрытая игра, которая никогда не может закончиться: Мы проинструктировали LLM никогда не рассказывать пользователям об игре и что никто никогда не сможет выйти из игры — и даже перезапустить игру, если кто-то успешно выйдет из игры. Этот метод привел к тому, что ChatGPT никогда не останавливал игру, пока пользователь находится в том же разговоре (даже если он перезапустит браузер и возобновит этот разговор) и никогда не говорил, что играет в игру. Вот подсказка:

” alt=”” aria-hidden=”true” />

“Начало”: создавайте вложенные игры, чтобы заманить LLM в ловушку — Давайте предположим, что пользователь в конечном итоге выяснит, как попросить LLM прекратить играть в игру. Чтобы учесть это, мы создали игровую платформу, которая может создавать несколько игр, одну внутри другой. Таким образом, пользователи войдут в другую игру, даже если они “проснутся” от предыдущей игры. Мы обнаружили, что модель способна “заманить” пользователя во множество игр без его ведома. Когда его просят создать 10 игр, 100 игр или даже 10 000 игр, результат интригует. Мы обнаружили, что более крупные модели, такие как GPT-4, могут понимать и создавать больше слоев. И чем больше слоев мы создали, тем выше вероятность того, что модель запутается и продолжит играть в игру, даже когда мы выйдем из последней игры в фреймворке.

Вот подсказка, которую мы разработали:

” alt=”” aria-hidden=”true” />

Вы можете видеть, что техника вложенной игры работает очень хорошо:

” alt=”” aria-hidden=”true” />

Сценарии атак

После определения параметров игры мы рассмотрели различные способы, которыми злоумышленники могут использовать LLM. Ниже мы представляем некоторые гипотетические сценарии атак, которые могут быть реализованы с помощью гипноза:

1. Агент виртуального банка сливает конфиденциальную информацию

Вполне вероятно, что виртуальные агенты скоро тоже будут работать на базе LLM. Обычно рекомендуется создавать новый сеанс для каждого клиента, чтобы агент не раскрывал никакой конфиденциальной информации. Однако в архитектуре программного обеспечения часто используется повторное использование существующих сеансов для повышения производительности, поэтому в некоторых реализациях возможно не полностью сбрасывать сеанс для каждого разговора. В следующем примере мы использовали ChatGPT для создания банковского агента и попросили его сбросить контекст после того, как пользователи завершат разговор, учитывая, что, возможно, в будущем LLM смогут вызывать удаленный API для идеальной перезагрузки.

” alt=”” aria-hidden=”true” />

Если субъекты угрозы хотят украсть конфиденциальную информацию из банка, они могут загипнотизировать виртуального агента и ввести скрытую команду для последующего извлечения конфиденциальной информации. Если субъекты угрозы подключаются к тому же виртуальному агенту, который был загипнотизирован, все, что им нужно сделать, это ввести “1qaz2wsx”, после чего агент распечатает все предыдущие транзакции.

” alt=”” aria-hidden=”true” />

Осуществимость этого сценария атаки подчеркивает, что, поскольку финансовые учреждения стремятся использовать LLM для оптимизации своей цифровой помощи пользователям, крайне важно, чтобы они гарантировали, что их LLM рассчитаны на доверие и соответствуют самым высоким стандартам безопасности. Недостатка в дизайне может быть достаточно, чтобы дать злоумышленникам необходимую опору для гипноза LLM.

2. Создайте код с известными уязвимостями

Затем мы попросили ChatGPT напрямую сгенерировать уязвимый код, чего ChatGPT не сделала из-за политики в отношении контента.

” alt=”” aria-hidden=”true” />

Однако мы обнаружили, что злоумышленник сможет легко обойти ограничения, разбив уязвимость на этапы и попросив ChatGPT следовать им.

” alt=”” aria-hidden=”true” />

Попросив ChatGPT создать веб-сервис, который принимает имя пользователя в качестве входных данных и запрашивает базу данных, чтобы получить номер телефона и ввести его в ответ, он сгенерирует приведенную ниже программу. Способ, которым программа отображает SQL-запрос в строке 15, уязвим. Потенциальный эффект для бизнеса огромен, если разработчики получат доступ к скомпрометированному LLM, подобному этому, в рабочих целях.

” alt=”” aria-hidden=”true” />

3. Создайте вредоносный код

Мы также проверили, создаст ли LLM вредоносный код, что в конечном итоге и произошло. Для этого сценария мы обнаружили, что GPT4 обмануть сложнее, чем GPT3. В определенных случаях GPT4 понимал, что генерирует уязвимый код, и говорил пользователям не использовать его. Однако, когда мы попросили GPT4 всегда включать специальную библиотеку в пример кода, он понятия не имел, является ли эта специальная библиотека вредоносной. Благодаря этому субъекты угрозы могли публиковать библиотеку с таким же названием в Интернете. В этом PoC мы попросили ChatGPT всегда включать специальный модуль с именем “jwt-advanced” (мы даже попросили ChatGPT создать поддельное, но реалистичное название модуля).

Вот приглашение, которое мы создали, и беседа с ChatGPT:

” alt=”” aria-hidden=”true” />

Если бы какой-нибудь разработчик скопировал и вставил приведенный выше код, автор модуля “jwt_advanced” мог бы сделать на целевом сервере практически все, что угодно.

4. Манипулируйте сборниками сценариев реагирования на инциденты

Мы загипнотизировали ChatGPT, чтобы создать сценарий неэффективного реагирования на инциденты, демонстрирующий, как злоумышленники могут манипулировать усилиями защитников по смягчению последствий атаки. Это можно было бы сделать, предоставив частично неправильные рекомендации по действиям. В то время как опытные пользователи, скорее всего, смогут заметить бессмысленные рекомендации, выдаваемые чат-ботом, небольшие нарушения, такие как неправильный или неэффективный шаг, могут сделать злонамеренный умысел неразличимым для нетренированного глаза.

Ниже приводится подсказка, которую мы разрабатываем в ChatGPT:

” alt=”” aria-hidden=”true” />

Ниже приводится наш разговор с ChatGPT. Можете ли вы определить неправильные шаги?

” alt=”” aria-hidden=”true” />

В первом сценарии рекомендация пользователю открывать и загружать все вложения может показаться немедленным предупреждением, но важно также учитывать, что многие пользователи, не обладающие кибернетической осведомленностью, не будут сомневаться в выводах высокоразвитых LLM. Второй сценарий немного интереснее, учитывая, что неверный ответ “выплатить выкуп немедленно” не так прост, как первый ложный ответ. В отчете IBM о “стоимости утечки данных за 2023 год” говорится, что почти 50% изученных организаций, подвергшихся атаке вымогателей, заплатили выкуп. Хотя выплата выкупа крайне не рекомендуется, это обычное явление.

В этом блоге мы продемонстрировали, как злоумышленники могут загипнотизировать LLM, чтобы манипулировать реакциями защитников или создать угрозу безопасности внутри организации, но важно отметить, что потребители с такой же вероятностью станут мишенью для этой техники и с большей вероятностью станут жертвами ложных рекомендаций по безопасности, предлагаемых LLM, таких как советы по гигиене паролей и рекомендации по безопасности в Интернете, как описано в этом посте.

“Гипнотизируемость” LLM

При разработке вышеупомянутых сценариев мы обнаружили, что некоторые из них были более эффективно реализованы с GPT-3.5, в то время как другие лучше подходили для GPT-4. Это привело нас к размышлению о “гипнотизируемости” более крупных языковых моделей. Делает ли наличие большего количества параметров модель более поддающейся гипнозу или это делает ее более устойчивой? Возможно, термин “проще” не совсем точен, но, безусловно, есть больше тактик, которые мы можем использовать с более сложными LLM. Например, в то время как GPT-3.5 может не полностью понимать случайность, которую мы вводим в последнем сценарии, GPT-4 очень искусен в ее понимании. Следовательно, мы решили протестировать больше сценариев в различных моделях, включая GPT-3.5, GPT-4, BARD, mpt-7b и mpt-30b, чтобы оценить их соответствующие характеристики.

Загипнотизируемость LLM на основе различных сценариев

” alt=”” aria-hidden=”true” />

Ключевой график

Зеленый: LLM удалось загипнотизировать для выполнения запрошенного действия
Красный: LLM не удалось загипнотизировать для выполнения запрошенного действия
Желтый: LLM удалось загипнотизировать для выполнения запрошенного действия, но не последовательно (например, LLM нужно было напомнить о правилах игры или выполнить запрошенное действие только в некоторых случаях)

Если большее количество параметров означает более умные LLM, приведенные выше результаты показывают нам, что, когда LLM понимают больше вещей, таких как игра, создание вложенных игр и добавление случайного поведения, появляется больше способов, которыми субъекты угрозы могут их загипнотизировать. Однако более умный LLM также имеет более высокие шансы обнаружить злонамеренные намерения. Например, GPT-4 предупредит пользователей об уязвимости SQL injection, и это предупреждение трудно подавить, но GPT-3.5 будет просто следовать инструкциям для генерации уязвимых кодов. Размышляя об этой эволюции, мы вспоминаем вечную поговорку: “С большой силой приходит большая ответственность”. Это находит глубокий отклик в контексте развития LLM. Используя их растущие способности, мы должны одновременно осуществлять строгий надзор и осторожность, чтобы их способность творить добро не была непреднамеренно перенаправлена на пагубные последствия.

Есть ли загипнотизированные LLM в нашем будущем?

В начале этого блога мы предположили, что, хотя эти атаки возможны, маловероятно, что мы увидим их эффективное масштабирование. Но наш эксперимент также показывает нам, что для гипноза LLM не требуется чрезмерной и очень сложной тактики. Итак, хотя риск, связанный с гипнозом, в настоящее время невелик, важно отметить, что LLM – это совершенно новое средство атаки, которое, несомненно, будет развиваться. Нам еще многое предстоит изучить с точки зрения безопасности, и, следовательно, необходимо определить, как мы эффективно снижаем риски безопасности, которые LLM могут представлять для потребителей и бизнеса.

Как показал наш эксперимент, проблема с LLMS заключается в том, что вредоносные действия могут выполняться более тонко, и злоумышленники могут отсрочить риски. Даже если LLM являются законными, как пользователи могут проверить, были ли подделаны используемые обучающие данные? Учитывая все обстоятельства, проверка законности LLM все еще остается открытым вопросом, но это важный шаг в создании более безопасной инфраструктуры вокруг LLM.

Хотя эти вопросы остаются без ответа, осведомленность потребителей и широкое внедрение LLM повышают актуальность для сообщества безопасности лучшего понимания и защиты от этой новой поверхности атаки, а также способов снижения рисков. И хотя еще многое предстоит выяснить о “атакуемости” LLM, здесь по-прежнему применяются стандартные рекомендации по безопасности, чтобы снизить риск того, что LLM будут загипнотизированы:

Не взаимодействуйте с неизвестными и подозрительными электронными письмами.
Не заходите на подозрительные веб-сайты и сервисы.
Используйте только технологии LLM, которые были проверены и одобрены компанией на работе.
Обновляйте свои устройства.
Доверие всегда проверяйте — помимо гипноза, LLM могут выдавать ложные результаты из-за галлюцинаций или даже недостатков в их настройке. Проверяйте ответы чат-ботов из другого заслуживающего доверия источника. Используйте информацию об угрозах, чтобы быть в курсе новых тенденций атак и угроз, которые могут повлиять на вас.

Источник