LLM 탈옥 공격 평가를 위한 개방형 벤치마크

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion 외

인용 493인기 24.8

원문 보기 ↗

AI 분석

한줄 요약

LLM 탈옥 공격의 평가를 표준화하고 재현성을 확보하기 위한 오픈소스 벤치마크로, 최신 공격 프롬프트, 데이터셋, 평가 프레임워크 및 리더보드를 제공한다.

풀어야 하는 문제

기존 LLM 탈옥 평가는 표준 관행 부재, 비용 및 성공률 측정 방식의 비일관성, 폐쇄적 코드와 API 의존으로 인한 재현성 부족 등의 문제가 있다.

접근 방법

(1) 최신 탈옥 공격 프롬프트를 저장소로 관리, (2) OpenAI 사용 정책에 부합하는 100개 행동 데이터셋 구축, (3) 위협 모델, 시스템 프롬프트, 채팅 템플릿, 점수 함수를 포함한 표준화된 평가 프레임워크 제공, (4) 공격 및 방어 성능을 추적하는 리더보드 운영.

결과·기여

탈옥 공격과 방어의 공정하고 재현 가능한 비교를 가능하게 하여 LLM 안전성 연구를 촉진한다. 커뮤니티가 지속적으로 기여할 수 있는 진화하는 벤치마크를 제공한다.