何が起きたか

2026年7月2日、Claudeを作っている Anthropic が、AIの安全対策について2つのことを発表しました(一次ソース)。

  • ジェイルブレイクの危険度を測るものさし:ジェイルブレイクとは、AIに本来答えてはいけないことを答えさせる“抜け穴”のこと。その危険度を CJS-0(情報レベル)〜CJS-4(重大)の5段階で評価する枠組みの草案を公開しました。評価は「どれだけ危険な能力を解放するか」「どれだけ広く効くか」「悪用のしやすさ」「見つかりやすさ」の4つの観点で行うとしています。
  • 他社との協力:Anthropic は Amazon・Microsoft・Google など(同社が「Glasswing パートナー」と呼ぶ企業群)と一緒に、このジェイルブレイク危険度のものさしを作っています。
  • 最新モデル Fable 5 の安全装置:AIが危険なサイバー関連の依頼(例:ランサムウェア作成)をブロックしつつ、正当な防御目的の作業は通す仕組みです。依頼を「禁止/高リスクの両用/低リスクの両用/無害」の4段階に仕分けします。今回は安全側の余裕を従来より大きめに取ったとのことで、有害な依頼をより多く止める代わりに、正当な依頼までまれに巻き込んで止めてしまうことがある、と会社自身が書いています。

生活で何が変わるか

正直に言うと、これで明日から使えるボタンが増えるわけではありません。ただ、「AIって悪いことに使われないの?」という漠然とした不安に対して、作り手側がどう線引きしようとしているかが一歩見える話です。

子どもがAIを触るとき、ニュースで「AIが悪用された」と聞くとき、“各社は危険度を段階で測って線を引こうとしている”と知っておくだけで、落ち着いて向き合いやすくなります。しかも1社だけの自己申告ではなく、複数の大手が横並びで共通のものさしを作ろうとしている点は、地味ですが大事なところだと思います。

注意点も正直に書いておくと、これはまだ草案(early draft)で、完成した公式ルールではありません。「何%の攻撃を止められる」といった具体的な数値も、今回のページには載っていません。過度な期待はせず、“方向性が見えた”くらいに受け取るのがちょうどいいと思います。

親方の一言

安全装置の話って、使い勝手が上がるニュースに比べると地味で、正直あまり盛り上がりません。でも、うちみたいに毎日AIに家事や仕事を任せる家庭が増えるほど、「作り手がどこまで本気で安全を考えているか」は気になってきます。

むしろ、まれに正当な質問まで断ってしまうことがある、と作り手自身が隠さず書いているのは、個人的にはかえって信頼できると感じました。完璧だと言い張るより、こういう正直さのほうが安心できます。