コンテンツに移動

LLM のソルト化: SophosAI、CAMLIS 2025 でジェイルブレイクに対する新しい防御策を発表

10 月 22 日から 24 日にかけて、SophosAI は CAMLIS 2025 で「LLM のソルト化」(ジェイルブレイクに対する新たな対策) とコマンドライン分類に関する研究を発表します。
Tamás Vörös
Ben Gelman

** 本記事は、Getting salty with LLMs: SophosAI unveils new defense against jailbreaking at CAMLIS 2025 の翻訳です。最新の情報は英語記事をご覧ください。**

SophosAI チームの研究者たちが、バージニア州アーリントンで開催される Conference on Applied Machine Learning in Information Security (CAMLIS) 2025 で研究内容を発表します。

10 月 23 日には、シニアデータサイエンティストの Ben Gelman が、コマンドライン異常検知に関するポスターセッションを行います。この研究は、彼が以前 Black Hat USA 2025 で発表し、前回のブログ記事で紹介したものです。

10 月 22 日には、シニアデータサイエンティストの Tamás Vörös が「LLM Salting: From Rainbow Tables to Jailbreaks (LLM のソルト化: レインボーテーブルからジェイルブレイクへ)」と題した講演を行い、大規模言語モデル (LLM) のジェイルブレイクへの防御策となる軽量なメカニズムについて議論します。

GPT、Claude、Gemini、LLaMA などの LLM が、ほとんど手を加えられることなく導入される事例が増えています。この広範な再利用により、チャットボットから生産性向上ツールに至るまで、各アプリケーションで使われるモデルが画一的になってしまいます。その結果、セキュリティ上の脆弱性となる可能性があります。モデルが不適切な応答をするのを防ぐ拒否メカニズム (ガードレール) をバイパスするジェイルブレイクプロンプトを一度作ってしまえば、多くの導入環境でそのまま使い回せてしまうことになるからです。これは、事前計算された入力を複数の標的に対して使い回すというパスワードセキュリティにおける古典的な手法「レインボーテーブル攻撃」に似ています。

この種の汎用化されたジェイルブレイクは問題です。なぜなら、多くの企業が特定の基本モデルを使って顧客向けの LLM を構築しているため、1つのジェイルブレイクが、その基本モデルを使用するすべての LLM インスタンスに有効である可能性があるからです。そして当然ながら、これらのジェイルブレイクは、機密性の高い内部データの流出から、不正確、不適切、あるいは有害な応答の生成に至るまで、望ましくない影響をもたらす可能性があります。

Tamás らのチームは、暗号化の領域から着想を得て、「LLM のソルト化 (LLM salting)」と呼ばれる新しい技術を開発しました。これは、ジェイルブレイクの再利用を無効化する軽量なファインチューニング手法です。

応答を拒否する挙動が特定のパターン (活性化空間方向) によって制御されていることを示す最近の研究に基づいた LLM のソルト化は、この「拒否パターン」に狙いを定めた小さな変更 (回転) を加えます。この変更により、モデルの一般的な能力は維持される一方、ジェイルブレイクの再利用は無効化され、攻撃者はモデルの「ソルト化された」コピーごとに別の攻撃を用意せざるを得なくなります。

Tamás らの実験において、LLM のソルト化は、標準的なファインチューニングやシステムプロンプトの変更よりも、効果的にジェイルブレイクの成功率を下げられることが分かりました。この手法により、モデルの精度を犠牲にすることなく、導入環境を攻撃に対してより堅牢にできます。

Tamás は講演で、LLM のソルト化がジェイルブレイクの使いまわしから組織やモデルの使用者、およびユーザーを保護するのにどのように役立つかに焦点を当てながら、研究結果と実験手法を解説します。

この斬新な防御メカニズムに関する詳細な記事は、CAMLIS での講演後に公開される予定です。