「AIの悪用対策、いま各社どうしてる？」—Anthropicが“ジェイルブレイク危険度”のものさしを公開

何が起きたか

2026年7月2日、Claudeを作っている Anthropic が、AIの安全対策について2つのことを発表しました（一次ソース）。

ジェイルブレイクの危険度を測るものさし：ジェイルブレイクとは、AIに本来答えてはいけないことを答えさせる“抜け穴”のこと。その危険度を CJS-0（情報レベル）〜CJS-4（重大）の5段階で評価する枠組みの草案を公開しました。評価は「どれだけ危険な能力を解放するか」「どれだけ広く効くか」「悪用のしやすさ」「見つかりやすさ」の4つの観点で行うとしています。
他社との協力：Anthropic は Amazon・Microsoft・Google など（同社が「Glasswing パートナー」と呼ぶ企業群）と一緒に、このジェイルブレイク危険度のものさしを作っています。
最新モデル Fable 5 の安全装置：AIが危険なサイバー関連の依頼（例：ランサムウェア作成）をブロックしつつ、正当な防御目的の作業は通す仕組みです。依頼を「禁止／高リスクの両用／低リスクの両用／無害」の4段階に仕分けします。今回は安全側の余裕を従来より大きめに取ったとのことで、有害な依頼をより多く止める代わりに、正当な依頼までまれに巻き込んで止めてしまうことがある、と会社自身が書いています。

正直に言うと、これで明日から使えるボタンが増えるわけではありません。ただ、「AIって悪いことに使われないの？」という漠然とした不安に対して、作り手側がどう線引きしようとしているかが一歩見える話です。

子どもがAIを触るとき、ニュースで「AIが悪用された」と聞くとき、“各社は危険度を段階で測って線を引こうとしている”と知っておくだけで、落ち着いて向き合いやすくなります。しかも1社だけの自己申告ではなく、複数の大手が横並びで共通のものさしを作ろうとしている点は、地味ですが大事なところだと思います。

注意点も正直に書いておくと、これはまだ草案（early draft）で、完成した公式ルールではありません。「何％の攻撃を止められる」といった具体的な数値も、今回のページには載っていません。過度な期待はせず、“方向性が見えた”くらいに受け取るのがちょうどいいと思います。

安全装置の話って、使い勝手が上がるニュースに比べると地味で、正直あまり盛り上がりません。でも、うちみたいに毎日AIに家事や仕事を任せる家庭が増えるほど、「作り手がどこまで本気で安全を考えているか」は気になってきます。

むしろ、まれに正当な質問まで断ってしまうことがある、と作り手自身が隠さず書いているのは、個人的にはかえって信頼できると感じました。完璧だと言い張るより、こういう正直さのほうが安心できます。