OWASP перечисляет 10 наиболее критичных уязвимостей большой языковой модели

В списке подчеркивается влияние и распространенность десяти наиболее критичных уязвимостей, обнаруженных в приложениях искусственного интеллекта на основе LLMS.

Проект Open Worldwide Application Security Project (OWASP) опубликовал десятку наиболее критичных уязвимостей, часто встречающихся в приложениях с большой языковой моделью (LLM), подчеркнув их потенциальное воздействие, простоту эксплуатации и распространенность.

Примеры уязвимостей включают в себя быстрое внедрение, утечку данных, неадекватную изолированность и несанкционированное выполнение кода.

По словам OWASP, список предназначен для информирования разработчиков, дизайнеров, архитекторов, менеджеров и организаций о потенциальных рисках безопасности при развертывании LLM и управлении ими, повышения осведомленности об уязвимостях, предложения стратегий исправления и улучшения состояния безопасности приложений LLM.

Появление генеративных интерфейсов чата с искусственным интеллектом, построенных на LLM, и их влияние на кибербезопасность является основным предметом обсуждения.

Опасения по поводу рисков, которые могут представлять эти новые технологии, варьируются от потенциальных проблем с обменом конфиденциальной бизнес-информацией с помощью передовых самообучающихся алгоритмов до злоумышленников, использующих их для значительного усиления атак.

Некоторые страны, штаты США и предприятия рассматривают или ввели запреты на использование генеративных технологий искусственного интеллекта, таких как ChatGPT, по соображениям безопасности данных и конфиденциальности.

Вот десять наиболее критичных уязвимостей, влияющих на приложения LLM, по версии OWASP.

1. Внедрение подсказок

Внедрение подсказок предполагает обход фильтров или манипулирование LLM с использованием тщательно разработанных подсказок, которые заставляют модель игнорировать предыдущие инструкции или выполнять непреднамеренные действия, пишет OWASP.

“Эти уязвимости могут привести к непреднамеренным последствиям, включая утечку данных, несанкционированный доступ или другие нарушения безопасности”.

Распространенные уязвимости при внедрении запросов включают обход фильтров или ограничений с использованием определенных языковых шаблонов или токенов, использование слабых мест в механизмах токенизации или кодирования LLM и введение LLM в заблуждение для выполнения непреднамеренных действий путем предоставления вводящего в заблуждение контекста.

Примером сценария атаки является то, что злоумышленник обходит фильтр контента, используя определенные языковые шаблоны, токены или механизмы кодирования, которые LLM не распознает как ограниченный контент, позволяя пользователю выполнять действия, которые должны быть заблокированы, сказал OWASP.

Превентивные меры для этой уязвимости включают:

Внедрите строгую проверку входных данных и очистку для пользовательских подсказок.
Используйте контекстно-зависимую фильтрацию и кодировку вывода, чтобы предотвратить манипулирование подсказками.
Регулярно обновляйте и дорабатывайте LLM, чтобы улучшить понимание вредоносных входных данных и граничных ситуаций.

2. Утечка данных

Утечка данных происходит, когда LLM случайно раскрывает конфиденциальную информацию, запатентованные алгоритмы или другие конфиденциальные детали в своих ответах. “Это может привести к несанкционированному доступу к конфиденциальным данным или интеллектуальной собственности, нарушениям конфиденциальности и другим нарушениям безопасности”, — сказал OWASP.

Неполная или неправильная фильтрация конфиденциальной информации в ответах LLM, чрезмерная подгонка / запоминание конфиденциальных данных в процессе обучения LLM и непреднамеренное раскрытие конфиденциальной информации из-за неправильного толкования LLM или ошибок являются распространенными уязвимостями утечки данных.

Злоумышленник может намеренно исследовать LLM с помощью тщательно разработанных подсказок, пытаясь извлечь конфиденциальную информацию, которую LLM запомнила из своих обучающих данных, или законный пользователь может непреднамеренно задать LLM вопрос, который раскрывает конфиденциальную информацию, написал OWASP.

Меры по предотвращению утечки данных включают:

Внедрите строгую фильтрацию выходных данных и контекстно-зависимые механизмы, чтобы предотвратить раскрытие LLM конфиденциальной информации.
Используйте методы дифференциальной конфиденциальности или другие методы анонимизации данных в процессе обучения LLM, чтобы снизить риск переобучения или запоминания.
Регулярно проверяйте ответы LLM, чтобы убедиться, что конфиденциальная информация не разглашается непреднамеренно.

3. Неадекватная изолированность

Если LLM не изолирована должным образом, когда у нее есть доступ к внешним ресурсам или чувствительным системам, неадекватная изолированность может привести к потенциальной эксплуатации, несанкционированному доступу или непреднамеренным действиям со стороны LLM.

По словам ОСВАПА, недостаточное отделение среды LLM от других критически важных систем или хранилищ данных, неправильные ограничения, которые позволяют LLM получать доступ к конфиденциальным ресурсам, и LLM, выполняющие действия системного уровня / взаимодействующие с другими процессами, являются распространенными уязвимостями для «песочницы» LLM.

Примером атаки может служить злоумышленник, использующий доступ LLM к конфиденциальной базе данных путем создания запросов, предписывающих LLM извлекать и раскрывать конфиденциальную информацию. Превентивные меры включают в себя:

Изолируйте среду LLM от других критически важных систем и ресурсов.
Ограничьте доступ LLM к конфиденциальным ресурсам и сведите его возможности к минимуму, необходимому для его предполагаемой цели.
Регулярно проводите аудит среды LLM и средств контроля доступа, чтобы обеспечить надлежащую изоляцию.

4. Несанкционированное выполнение кода

Несанкционированное выполнение кода происходит, когда злоумышленник использует LLM для выполнения вредоносного кода, команд или действий в базовой системе с помощью запросов на естественном языке.

Распространенные уязвимости включают в себя неочищенный или ограниченный пользовательский ввод, который позволяет злоумышленникам создавать запросы, запускающие выполнение несанкционированного кода, недостаточные ограничения на возможности LLM и непреднамеренное предоставление функциональности системного уровня или интерфейсов LLM.

OWASP привел два примера атаки: злоумышленник создает приглашение, которое инструктирует LLM выполнить команду, которая запускает обратную оболочку в базовой системе, предоставляя злоумышленнику несанкционированный доступ, и LLM непреднамеренно разрешено взаимодействовать с API системного уровня, которым злоумышленник манипулирует для выполнения несанкционированных действий в системе.

Команды могут помочь предотвратить несанкционированное выполнение кода с помощью следующих действий:

Внедрите строгие процессы проверки входных данных и очистки, чтобы предотвратить обработку LLM вредоносных или неожиданных запросов.
Обеспечьте надлежащую изолированность и ограничьте возможности LLM, чтобы ограничить его способность взаимодействовать с базовой системой.

5. Уязвимости при подделке запросов на стороне сервера

Уязвимости, связанные с подделкой запросов на стороне сервера (SSRF), возникают, когда злоумышленник использует LLM для выполнения непреднамеренных запросов или доступа к ограниченным ресурсам, таким как внутренние службы, API или хранилища данных.

По словам OWASP, распространенными уязвимостями SSRF являются недостаточная проверка входных данных, позволяющая злоумышленникам манипулировать запросами LLM для инициирования несанкционированных запросов, а также неправильные настройки в настройках безопасности сети или приложения, предоставляющие доступ к внутренним ресурсам LLM.

Для выполнения атаки злоумышленник может создать приглашение, предписывающее LLM сделать запрос к внутренней службе, минуя средства контроля доступа и получая несанкционированный доступ к конфиденциальной информации. Они также могут использовать неправильную конфигурацию в настройках безопасности приложения, которая позволяет LLM взаимодействовать с ограниченным API, получая доступ к конфиденциальным данным или изменяя их. Превентивные меры включают:

Внедрите строгую проверку входных данных и очистку, чтобы предотвратить инициирование неавторизованных запросов вредоносными или неожиданными запросами.
Регулярно проверяйте настройки безопасности сети / приложений, чтобы убедиться, что внутренние ресурсы непреднамеренно не подвергаются воздействию LLM.

6. Чрезмерная зависимость от контента, сгенерированного LLM

По мнению OSAWP, чрезмерная зависимость от контента, сгенерированного LLM, может привести к распространению вводящей в заблуждение или неверной информации, снижению участия человека в принятии решений и снижению критичности мышления.

“Организации и пользователи могут доверять контенту, созданному LLM, без проверки, что приводит к ошибкам, недопониманию или непреднамеренным последствиям”.

Общие проблемы, связанные с чрезмерной зависимостью от контента, сгенерированного LLM, включают принятие контента, сгенерированного LLM, как факта без проверки, предположение, что контент, сгенерированный LLM, свободен от предвзятости или дезинформации, и зависимость от контента, сгенерированного LLM, для принятия важных решений без участия человека или надзора, добавил OWASP.

Например, если компания полагается на LLM для создания отчетов и анализа безопасности, а LLM генерирует отчет, содержащий неверные данные, которые компания использует для принятия важных решений в области безопасности, могут возникнуть значительные последствия из-за зависимости от неточного контента, сгенерированного LLM.

Рик Тернер, старший главный аналитик по кибербезопасности в Omdia, называет это LLM-галлюцинациями.

“Если он возвращается, говоря чушь, и аналитик может легко идентифицировать его как таковой, он или она может отбросить его и помочь обучить алгоритм дальше. Но что, если галлюцинация весьма правдоподобна и выглядит как реальная вещь? Другими словами, может ли LLM на самом деле придать дополнительную достоверность ложноположительному результату с потенциально тяжелыми последствиями, если аналитик пойдет дальше и отключит систему или заблокирует аккаунт состоятельного клиента на несколько часов?”

7. Неадекватное согласование AI

Неадекватное согласование AI возникает, когда цели и поведение LLM не соответствуют предполагаемому варианту использования, что приводит к нежелательным последствиям или уязвимостям.

Плохо определенные цели, приводящие к тому, что LLM отдает приоритет нежелательному / вредоносному поведению, несогласованные функции вознаграждения или обучающие данные создают непреднамеренное поведение модели, а недостаточное тестирование и валидация поведения LLM являются распространенными проблемами, пишет OWASP.

Если LLM, предназначенный для оказания помощи в задачах системного администрирования, не выровнен, он может выполнять вредоносные команды или расставлять приоритеты действий, которые снижают производительность или безопасность системы.

Команды могут предотвратить уязвимости неадекватного согласования AI с помощью этих действий:

Определите цели и предполагаемое поведение LLM в процессе проектирования и разработки.
Убедитесь, что функции вознаграждения и данные обучения соответствуют желаемым результатам и не поощряют нежелательное или вредоносное поведение.
Регулярно тестируйте и подтверждайте поведение LLM в широком диапазоне сценариев, входных данных и контекстов для выявления и устранения проблем с согласованием.

8. Недостаточный контроль доступа

Недостаточный контроль доступа возникает, когда средства контроля доступа или механизмы аутентификации не реализованы должным образом, что позволяет неавторизованным пользователям взаимодействовать с LLM и потенциально использовать уязвимости.

По словам OWASP, несоблюдение строгих требований к аутентификации для доступа к LLM, неадекватная реализация управления доступом на основе ролей (RBAC), позволяющая пользователям выполнять действия, выходящие за рамки их предполагаемых разрешений, и неспособность обеспечить надлежащие средства контроля доступа к созданному LLM контенту и действиям — все это распространенные примеры, сказал OWASP.

Примером атаки является злоумышленник, получающий несанкционированный доступ к LLM из-за слабых механизмов аутентификации, что позволяет им использовать уязвимости или манипулировать системой, сказал OWASP. Превентивные меры включают в себя:

Внедрите надежные механизмы аутентификации, такие как многофакторная аутентификация (MFA), чтобы гарантировать, что только авторизованные пользователи могут получить доступ к LLM.
Внедрите надлежащие средства контроля доступа к контенту и действиям, генерируемым LLM, для предотвращения несанкционированного доступа или манипуляций.

9. Неправильная обработка ошибок

Неправильная обработка ошибок возникает, когда сообщения об ошибках или отладочная информация предоставляются таким образом, что могут раскрыть субъекту угрозы конфиденциальную информацию, системные данные или потенциальные векторы атаки.

Распространенные уязвимости обработки ошибок включают в себя раскрытие конфиденциальной информации или системных сведений через сообщения об ошибках, утечку отладочной информации, которая может помочь злоумышленнику определить потенциальные уязвимости или векторы атаки, и неспособность корректно обрабатывать ошибки, что потенциально приводит к неожиданному поведению или сбоям системы.

Например, злоумышленник может использовать сообщения об ошибках LLM для сбора конфиденциальной информации или системных сведений, что позволяет ему начать целевую атаку или использовать известные уязвимости.

В качестве альтернативы разработчик может случайно оставить отладочную информацию открытой в рабочей среде, что позволит злоумышленнику определить потенциальные векторы атаки или уязвимости в системе, согласно OWASP. Такие риски могут быть уменьшены с помощью следующих действий:

Внедрите надлежащие механизмы обработки ошибок, чтобы гарантировать, что ошибки будут обнаружены, зарегистрированы и обработаны.
Убедитесь, что сообщения об ошибках и отладочная информация не раскрывают конфиденциальную информацию или системные детали. Рассмотрите возможность использования общих сообщений об ошибках для пользователей, при этом регистрируя подробную информацию об ошибках для разработчиков и администраторов.

10. Отравление обучающих данных

Отравление обучающими данными — это когда злоумышленник манипулирует обучающими данными или процедурами тонкой настройки LLM для внедрения уязвимостей, бэкдоров или искажений, которые могут поставить под угрозу безопасность, эффективность или этичное поведение модели, пишет OWASP.

Распространенные проблемы с отравлением обучающих данных включают внедрение бэкдоров или уязвимостей в LLM посредством злонамеренных манипуляций с обучающими данными и внедрение искажений в LLM, что приводит к появлению предвзятых или несоответствующих ответов.

Эти действия могут помочь предотвратить этот риск:

Обеспечьте целостность обучающих данных, получив их из надежных источников и подтвердив их качество.
Внедрите надежные методы очистки данных и предварительной обработки для устранения потенциальных уязвимостей или искажений в обучающих данных.
Используйте механизмы мониторинга и оповещения для обнаружения необычного поведения или проблем с производительностью в LLM, что потенциально указывает на отравление обучающих данных.

Руководители служб безопасности, организации, ответственные за безопасное использование LLM

Руководители служб безопасности и их организации несут ответственность за обеспечение безопасного использования генеративных интерфейсов чата AI, использующих LLM, согласны эксперты.

“Команды безопасности и юристов должны сотрудничать, чтобы найти наилучший способ для своих организаций использовать возможности этих технологий без ущерба для интеллектуальной собственности или безопасности”, — недавно сказал ОГО Хаим Мазал, CSO в Gigamon.

Чат-боты на базе искусственного интеллекта нуждаются в регулярных обновлениях, чтобы оставаться эффективными в борьбе с угрозами, а человеческий надзор необходим для обеспечения правильной работы LLM, добавил Джошуа Кайзер, исполнительный директор по технологиям искусственного интеллекта в Tovie AI.

“Кроме того, LLM нуждаются в понимании контекста для предоставления точных ответов и выявления любых проблем безопасности и должны регулярно тестироваться и оцениваться для выявления потенциальных слабостей или уязвимостей”.

1. Внедрение подсказок

2. Утечка данных

3. Неадекватная изолированность

4. Несанкционированное выполнение кода

5. Уязвимости при подделке запросов на стороне сервера

6. Чрезмерная зависимость от контента, сгенерированного LLM

7. Неадекватное согласование AI

8. Недостаточный контроль доступа

9. Неправильная обработка ошибок

10. Отравление обучающих данных

Руководители служб безопасности, организации, ответственные за безопасное использование LLM

Author: admin

Related Posts

Quantum Echoes: Google заявила о первой «верифицируемой квантовой выгоде» на чипе Willow

Еженедельный аналитический отчёт: Кибербезопасность и Искусственный Интеллект (16–22 октября 2025 г.)

Perplexity представила «Perplexity at Work» — практичное руководство по работе с ИИ без хаоса