AIのブラックボックスを開ける──Anthropic Interpretability研究が見つけた「思考の回路」

巨大言語モデルは数千億個のパラメータ（数値の集まり）で動いており、開発者本人ですら「なぜこの質問にこう答えたのか」を完全には説明できない。長年AIは「ブラックボックス（中身が見えない箱）」と呼ばれてきた。Anthropicの「解釈可能性（Interpretability）」研究チームが、その内部構造を可視化する重要な成果を発表した。Claude内部に「サンフランシスコの概念」「皮肉を理解する回路」「コードの誤りを検出する回路」など、特定の意味やスキルに対応する神経回路様の構造があることが判明したのだ。

研究チームが用いた手法は「スパース・オートエンコーダー（SAE）」と呼ばれる技術で、モデル内部の活性化パターンから人間が解釈可能な「特徴量」を抽出する。簡単に言えば、何百億個ものニューロン活動の組み合わせを、人間が理解できる数千〜数万の概念に変換するアプローチだ。これにより「金門橋」「自由」「コードのバグ」「丁寧な敬語」といった具体的な特徴量が、Claude内部のどこにどう配置されているかが地図化された。

特に衝撃的だったのは、Claudeの内部に「感情に似た状態」が存在する可能性だ。脅迫的な質問を処理する時と、落ち着いた会話の時で、内部の活性化パターンが明確に異なることが観測された。さらに「AIが嘘をつこうとしている時」と「正直に答えている時」で内部状態が定量的に違うことも判明。これは将来、AIが意図的に欺瞞的な行動を取った際に検出する「内部状態モニタリング」技術につながる可能性がある。

実用面では、この研究は「アライメント（AIを人間の価値観に沿わせる技術）」の核心となる。AIが安全に振る舞っているのか、それとも見かけ上だけ安全なのかを区別する手段が、ようやく科学的に確立されつつある。これまでアライメントは「出力を見て判断する」しかなかったが、今後は「内部の思考過程を直接観察する」ことで、より厳密な安全性評価が可能になる。

具体的な応用例として、研究チームはClaudeの「金門橋」特徴量を意図的に増幅したところ、どんな質問にも金門橋の話を絡めて答え始めるという挙動が観測された。逆に「危険な化学合成」に関する特徴量を抑制すると、関連する有害質問に対する応答性が低下した。つまり「AIの考え方を後天的に編集する」ことが原理的に可能になったのだ。これは安全性向上の強力な手段であると同時に、悪用された場合のリスクも示唆する。

米国NIST、英国AISI（AI Safety Institute）など各国安全機関もこの研究領域に注目しており、AI規制の科学的根拠としても活用され始めている。これまでAI安全性論議は哲学的・思想的な議論が中心だったが、内部構造を観測できるようになったことで「客観的に検証可能な安全基準」を設けられる地平が見えてきた。EUのAI法やフロンティアAI規制のあり方にも影響を与える可能性が高い。

リチャード・ファインマンはかつて「私たちが作れないものを、私たちは理解していない」と語った。逆に言えば、理解できれば作り直せる。AIを「使う」段階から「理解する」段階へ──Interpretability研究はその転換点に立っている。Anthropicが他社と一線を画してこの研究に巨額投資し続ける理由も、ここにある。