Anthropicが新モデル「Claude 3.7 Sonnet」を発表した。最大の特徴は、答えを出す前に「内部で思考する時間」を取れる仕組み──「Extended Thinking(拡張思考)」だ。これまでのAIは質問を受けて即座に答えを生成していたが、複雑な問題ほど直感的な回答は誤りやすい。新モデルは数秒〜数十秒の思考時間を取って、内部で複数の解法を試行し、検証してから最終回答を出す。効果は劇的で、米国大学院入試レベルの数学問題集GPQA Diamondで前モデル比約20ポイント向上、プログラミング能力テストSWE-Benchでもトップスコアを更新した。
技術的にこの仕組みは、内部で「思考トークン」と呼ばれる中間出力を最大128,000トークン分(日本語で約9万字相当)展開できる。論文1本分の考察を内部で行ってから、ユーザーには結論だけを返すイメージだ。OpenAIがo1シリーズで先行したアプローチに対し、Anthropicの実装は思考プロセスを可視化(オプションで表示可能)し、ユーザーが推論過程を検証できるようにした点が特徴だ。これは医療・法務・金融など「なぜそう判断したか」が問われる分野で重要な意味を持つ。
ただし「考える時間」が長いほど精度は上がるが、応答速度とコストは増す。ユーザーは「すぐ答える通常モード」と「じっくり考える拡張思考モード」を場面ごとに使い分けられる。「明日の天気を教えて」のような単純な質問に拡張思考は不要だが、「複雑な契約書のリスクを検討して」「数学のオリンピック問題を解いて」「複数の前提条件があるバグの原因を特定して」といったタスクでは威力を発揮する。
API経由ではbudget_tokensというパラメータで思考量を細かく制御でき、開発者は「最大何秒まで考えていいか」を指定可能。このきめ細かい制御性は、コスト管理が必須の本番運用において重要な意味を持つ。本番アプリでは「ユーザーが画面で待てる時間」と「精度」のバランスを動的に調整する設計が一般化していく見込みだ。例えばカスタマーサポートのチャットボットなら通常モード、専門家向けの法律相談ツールなら拡張思考モード、といった使い分けが想定される。
業界的には、AIの能力向上が「より大きなモデル」から「より深く考えるモデル」へとパラダイムシフトしつつあることを象徴する。GPT-4以降、単純なモデルサイズの拡大は性能向上への貢献度が逓減してきた。代わりに「推論時計算量(test-time compute)」を増やすこと──つまり推論時にAIが自ら考える時間を取らせることが、性能改善の新たな主軸になっている。Claude 3.7、OpenAIのo1/o3、Google Gemini 2.0 Thinking、DeepSeek R1など、各社が同様の方向に向かっている。
この変化は、AIの開発コスト構造そのものを変える可能性を秘めている。これまでは「巨大データセンターで巨大モデルを学習させる」ことが競争力の源泉だったが、これからは「推論時に賢く考えさせるアルゴリズム」も重要な差別化要素となる。学習コストで優位に立てない後発組でも、推論時の工夫で先行モデルに追いつける余地が生まれた。中国のDeepSeekが少ない学習コストで高性能モデルを発表できたのも、この潮流の中にある。
「すぐに正解する」AIから「じっくり考える」AIへ。人間の知的作業との距離が一段近づいた瞬間といえる。同時に、AIが「思考」と呼べるレベルの内部処理を行うようになったことで、AIが何を「考えて」いるのかを理解する必要性も急速に高まっている。Anthropicが力を入れる解釈可能性研究との接続も、この文脈で注目される。