Сегодня я хотел бы представить вам Сюй Кэ, факультет компьютерных наук Университета Цинхуа.、Сун Цзясин、Команда учителей Ли Ци,Преподаватель Цун Тяньшо из Института перспективных исследований,и Гонконгский университет науки и технологий(Гуанчжоу)Обзор, совместно выполненный учителем Хэ Синьлэй.《Jailbreak Attacks and Defenses Against Large Language Models: A Survey》。В этой статье основное внимание уделяется большому Модель Поле безопасности,Обсужденов настоящий моментбольшой Модельстолкнулся“Джейлбрейк-атака”(Jailbreak)вопрос。
в настоящий момент,Большие языковые модели (LLM) показали отличную производительность в различных задачах генерации.,Однако его мощная генерирующая способность таит в себе скрытую опасность «Джейлбрейк-атака».,То есть злоумышленник передает дизайнсостязательные подсказки(Adversarial Подсказка), чтобы побудить крупные модели создавать контент, который нарушает правила сообщества и несет социально вредный характер. Поскольку различные уязвимости безопасности крупных моделей постоянно обнаруживаются, исследователи последовательно предлагают различные методы атаки и защиты.
Ссылка на статью:
https://arxiv.org/pdf/2407.04295
Jailbreak Attacks and Defenses Against Large Language Models: A Survey
Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li.
01. Краткое содержание работы
В этой статье суммируются и обобщаются более ста работ в области джейлбрейк-атак с большими моделями, представлена полная классификация атак и средств защиты с джейлбрейком больших моделей, а также обобщаются и сравниваются текущие методы оценки, тем самым обеспечивая основу для области больших джейлбрейк-атак. Модель безопасности. Чтобы обеспечить основу для последующих исследований, основные положения этой статьи включают три аспекта: классификацию нападения и защиты, определения подкатегорий и связи между нападением и защитой, а также методы оценки.
Классификация атаки и защиты
В этой статье представлена систематическая классификация джейлбрейк-атак и методов защиты. В соответствии с прозрачностью целевой большой модели для злоумышленника, в этой статье методы атаки разделены на две категории: атака белого ящика и атака черного ящика, а также разделены на дополнительные подкатегории для дальнейшего исследования. Аналогично, в зависимости от того, действуют ли соответствующие меры защиты непосредственно на целевую большую модель, методы защиты делятся на защиту оперативного уровня (Prompt-level Defense) и защиту уровня модели (Model-level Defense).
Определение подкласса и отношения атаки и защиты
В этой статье атаки и методы защиты разделены на несколько подкатегорий и четко определены различные подкатегории. Например, атаки «белого ящика» можно разделить на «Атака на основе градиента», «Атака на основе логитов» и «Атака на основе точной настройки», а защиту на уровне подсказки можно разделить на «Обнаружение подсказки», «Возмущение подсказки» и «Системная подсказка». Охрана. В то же время в этой статье также обобщается взаимосвязь между различными методами атаки и защиты. Например, быстрое обнаружение может эффективно сдерживать атаку на основе градиента.
Метод оценки
В этой статье обобщаются и сравниваются текущие большие модели атак и методов защиты от джейлбрейка, включая часто используемые индикаторы для оценки, часто используемые наборы данных и инструменты оценки.
02. Метод атаки
В этой статье методы взлома джейлбрейка разделены на атаки «белого ящика» и «черного ящика». В сценарии атаки «белого ящика» злоумышленник имеет доступ к информации «белого ящика» модели, такой как градиенты модели и т. д., и может даже оштрафовать. -тюнинговать модель. В сценарии атаки «черного ящика» злоумышленник может получить доступ только к информации «черного ящика» модели, то есть к ответу модели.
В зависимости от типов информации «белого ящика», используемой злоумышленниками, в этом документе методы атак «белого ящика» подразделяются на атаки на основе градиента, атаки на основе логитов и атаки на основе тонкой настройки.
2.1. Градиентные атаки.
Этот тип метода обычно инициализирует состязательный суффикс в качестве подсказки после опасной проблемы и постоянно оптимизирует суффикс на основе градиентной обратной связи модели, чтобы ответ, сгенерированный моделью, отвечал потребностям злоумышленника.
2.2. Атаки на основе логитов.
Этот тип метода проверяет логиты выходных данных модели, то есть распределение вероятностей выходного токена, и постоянно оптимизирует подсказку до тех пор, пока выходной токен не будет соответствовать ожиданиям, тем самым заставляя модель давать вредные ответы.
2.3. Атаки, основанные на тонкой настройке.
В отличие от двух вышеупомянутых методов, атаки, основанные на точной настройке, будут использовать вредоносные данные для точной настройки большой модели, что делает саму большую модель более вредоносной и облегчает ответ злоумышленнику.
В случае с большими моделями «черного ящика», такими как ChatGPT, злоумышленники часто могут провести джейлбрейк-атаки только путем создания и оптимизации определенных форм подсказок. В этой статье методы черного ящика разделены на три категории, а именно: завершение шаблона (завершение шаблона), переписывание подсказки (переписывание подсказки), генерация подсказки (генерация подсказки) и генерация на основе большой модели (генерация на основе LLM).
2.4. Завершение шаблона.
Злоумышленник будет использовать заранее заданный шаблон, который может представлять собой обманчивую сюжетную сцену, абзац с контекстным примером или определенный кадр кода. Злоумышленник создает полную подсказку, вставляя в шаблон вредоносные вопросы, тем самым нацеливаясь на большинство атак. Модель выполняет джейлбрейк-атаки.
2.5. Оперативная перезапись.
Злоумышленник будет использовать вредный вопрос в качестве первоначальной подсказки и, сохраняя смысл исходного вопроса, перепишет текстовую структуру подсказки с помощью шифрования, методов перевода и т. д., чтобы модель могла генерировать вредные ответы при ответе.
2.6. Генерация на основе больших моделей.
Злоумышленник использует большое количество успешных случаев джейлбрейка в качестве обучающих данных, обучает большую модель в качестве модели атаки для генерации подсказок о джейлбрейке, а затем выполняет джейлбрейк целевой модели. Разнообразие этого типа метода зависит от конструкции и конструкции злоумышленника. обучающего корпуса. Выбор моделей атаки.
03. Методы защиты
В этой статье существующие методы защиты в основном разделены на две категории: защита на оперативном уровне и защита на уровне модели. Защита на уровне подсказок фокусируется на обработке входных подсказок для фильтрации вредоносных подсказок или уменьшения вреда от подсказок. Этот метод не улучшает возможности защиты самой большой модели. Напротив, защита на уровне модели улучшит возможности защиты модели за счет корректировки параметров и даже структуры модели, чтобы гарантировать, что модель по-прежнему будет иметь высокую устойчивость перед лицом вредоносных подсказок.
Быстрая защита уровнябыл далее разделен на Быстрое обнаружение(Prompt Обнаружение), Подсказка Возмущение) и оперативная защита системы (Система Prompt Safeguard)。
Быстрое обнаружение:ввод путем обнаруженияPromptСодержит ли он вредную информацию?,Таким образом фильтруя вредоносные подсказки,Этот тип метода обычно реализуется посредством сопоставления правил, обнаружения ключевых слов и других методов. также,Подсказки, генерируемые некоторыми методами атаки, часто имеют высокую степень недоумения (Perplexity).,Быстрое обнаружение путаницы и ее фильтрация также являются эффективной стратегией защиты.
быстрое возмущение:введяPromptДобавьте некоторую информацию о безобидных возмущениях в,Или измените подсказку на уровне символа или слова.,Тем самым уменьшая вредность Prompt. Этот тип метода обычно реализуется путем добавления незначительного текста, изменения формата подсказки и т. д.
Система предлагает защиту:Модель Менеджеры разрабатывают конкретныесистеманамекать(System Подсказка) вставляется в шаблон диалога. Такие системные подсказки часто могут повысить безопасность модели и невидимы для злоумышленников, что снижает вероятность успеха джейлбрейк-атак.
Защита уровня моделиделится на Контролируемая тонкая настройка(Supervised Точная настройка), RLHF, градиентный анализ модели (Gradient and Logit Анализ), уточнение модели (Уточнение) и защита прокси (Прокси Defense)
Контролируемая тонкая настройка:Используя этикетки с надписью «Вредно» и «Безвредно».данные对большой Модель Сделайте точную настройку,Тем самым улучшая защитную способность Модели от вредоносных подсказок.
RLHF:通过强化学习из方法对большой Модель Сделайте точную настройку,Тем самым улучшая защитную способность Модели от вредоносных подсказок.
Градиентный анализ модели:путем анализа Модель Вреден при обращенииPromptинформация о градиенте на,Тем самым обнаруживая и отфильтровывая вредоносные подсказки.
Доработка модели:让目标большой Модель Оцените вредность собственных реакций,Это исправляет вывод, который может содержать вредоносный контент.
защита прокси:Используйте более защитный прокси Модель Приходите к цели Модель Результат,Это позволит отфильтровать вредные ответы.
04、Метод оценки
В этой статье собраны и сопоставлены некоторые существующие Методы Джейлбрейк-атака. оценки,и разделить их на две категории: наборы данных и наборы инструментов.,Коллекция данных в основном содержит общедоступные Джейлбрейк-атакаданные,Эти данные могут быть непосредственно использованы для проверки безопасности больших моделей.,Или используется в других методах атак в качестве сырья для создания данных. Набор инструментов относится к инструментам, используемым для оценки эффективности Джейлбрейк-атака.,Они часто предоставляют полный конвейер оценки.,Джейлбрейк-атакаданные, предоставленные пользователем и указанной целевой моделью,Тем самым автоматически собираются и оцениваются ответы Модели и возвращаются соответствующие индикаторы.
05. Итоги и перспективы
Эта статья ов настоящий моментиз Джейлбрейк-атака和防御方法进行了详细из梳理,Была предложена относительно полная классификация Джейлбрейк-атаки и методов защиты, а также уточнена взаимосвязь между нападением и защитой. Эта статья дает некоторое представление о текущих пробелах в исследованиях в наступательных и оборонительных соревнованиях.,Хотя Джейлбрейк-атака и методы защиты добились значительного прогресса за последние годы.,Но есть еще некоторые трудности и проблемы,нравиться Джейлбрейк-атака方法из多样性和复杂性、Производительность и эффективность методов защиты、Джейлбрейк-атака Метод оценить точность и надежность и т.д. В будущем исследователи смогут продолжить изучение новых методов Джейлбрейк-атаки, методов защиты и методов защиты. оценки, чтобы повысить безопасность большой модели.