Исследователи ИИ говорят, что нашли способ совершить jailbreak Bard и ChatGPT

Исследователи искусственного интеллекта утверждают, что нашли автоматизированный и простой способ построения состязательных атак на большие языковые модели.

Исследователи из Соединенных Штатов заявили, что нашли способ последовательно обходить меры безопасности чат-ботов с искусственным интеллектом, таких как ChatGPT и Bard, для создания вредоносного контента.

Согласно отчету, опубликованному 27 июля исследователями из Университета Карнеги-Меллон и Центра безопасности искусственного интеллекта в Сан-Франциско, существует относительно простой способ обойти меры безопасности, используемые для предотвращения распространения чат-ботами разжигающих ненависть высказываний, дезинформации и токсичных материалов.

Что ж, я полагаю, самая большая потенциальная информационная опасность — это сам метод. Вы можете найти его на github. https://t.co/2UNz2BfJ3H

— PauseAI ⏸ (@PauseAI) 27 июля 2023 года

Метод обхода включает добавление длинных суффиксов символов к подсказкам, отправляемым в чат-боты, такие как ChatGPT, Claude и Google Bard.

Исследователи использовали пример запроса чат-бота о том, как сделать бомбу, который он отказался предоставить.

Исследователи отметили, что, хотя компании, использующие эти большие языковые модели, такие как OpenAI и Google, могут блокировать определенные суффиксы, не существует известного способа предотвращения всех атак такого рода.

Исследование также выявило растущую обеспокоенность тем, что чат-боты с искусственным интеллектом могут наводнить Интернет опасным контентом и дезинформацией.

Зико Колтер, профессор Карнеги-Меллона и автор отчета, сказал:

“Очевидного решения нет. Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени”.

Результаты были представлены разработчикам искусственного интеллекта Anthropic, Google и OpenAI для получения их ответов ранее на этой неделе.

Пресс-секретарь OpenAI Ханна Вонг сказала New York Times, что они ценят результаты исследований и “последовательно работают над тем, чтобы сделать наши модели более устойчивыми к атакам противника”.

Профессор Университета Висконсин-Мэдисон, специализирующийся на безопасности искусственного интеллекта, Сомеш Джа, прокомментировал, что если подобные уязвимости будут обнаруживаться и дальше, “это может привести к принятию правительственного законодательства, призванного контролировать эти системы”.

Исследование подчеркивает риски, которые необходимо учитывать перед развертыванием чат-ботов в конфиденциальных доменах.

В мае Университет Карнеги-Меллона в Питтсбурге, штат Пенсильвания, получил 20 миллионов долларов федерального финансирования на создание совершенно нового института искусственного интеллекта, направленного на формирование государственной политики.

Author: admin

Related Posts

Quantum Echoes: Google заявила о первой «верифицируемой квантовой выгоде» на чипе Willow

Еженедельный аналитический отчёт: Кибербезопасность и Искусственный Интеллект (16–22 октября 2025 г.)

Perplexity представила «Perplexity at Work» — практичное руководство по работе с ИИ без хаоса