Anthropic、コーディングAI世界一「Claude Opus 4.7」を公開——GPT-5.4を超える性能

2026年4月23日

URLをコピーしました！

2026年4月16日、AI開発企業Anthropicが新モデル「Claude Opus 4.7」を公開した。数字を見れば、何が変わったかは明らかだ。

GPT-5.4もGeminiも超えた——コーディングで世界一に

「SWE-bench」と呼ばれるコーディングの能力テストがある。AIにバグだらけのプログラムを渡し、自力で修正できるかを測るものだ。Claude Opus 4.7はここで64.3%を記録。OpenAIのGPT-5.4（57.7%）、GoogleのGemini 3.1 Pro（54.2%）をいずれも上回り、現時点での世界1位に立った。

モデル	SWE-benchスコア
Claude Opus 4.7	64.3%
GPT-5.4	57.7%
Gemini 3.1 Pro	54.2%

プログラム開発を丸ごと任せられる時代に

単にスコアが上がっただけではない。米国の金融テクノロジー企業Rampは、Claude Opus 4.7を社内の開発ワークフローに導入した結果、エンジニアが細かい手順を一つひとつ指示する必要が大幅に減ったと報告している。アプリ開発ツールのBoltでも、従来モデルより最大10%の精度向上を確認した。いずれもAnthropicが公開した導入事例資料に基づく数字だ。「道具として使う」から「作業を丸ごと任せる」へ——その境界線が着実に動いている。

書類・図面の読み取りも3倍の精度に

コーディング以外でも変化がある。画像の読み取り解像度が従来の約3.3倍（最大2576px）になった。スクリーンショット全体の細部まで分析できるようになり、書類や図面を扱う業務での活用幅が広がる。

性能向上の代償——利用コストが最大35%増

性能向上には代償もある。テキストを処理する内部の仕組みが刷新されたことで、前モデルと比べて利用コストが最大35%上昇する場合がある。特に長い文書を扱う作業でこの差が出やすく、短い問い合わせ中心の使い方であれば影響は小さい。すべての作業でOpus 4.7が最適解というわけではない。

深い推論モードは通常の約半分の速度

「深い推論モード」使用時の回答生成速度は1秒あたり42トークンにとどまる。通常の応答モード（同社モデルで概ね80〜100トークン/秒）と比べると、おおよそ半分のペースだ。高い精度と引き換えに、待ち時間が発生する。

難問ほど時間をかけて深く考える、新しい思考方式

ではなぜ、Opus 4.7はここまで強くなれたのか。単にデータを増やしたのではない。考え方そのものが変わった。

これまでのAIは、「今日の天気は？」という簡単な質問にも、難解なプログラムのバグ修正にも、同じだけの処理時間をかけていた。人間なら直感的に難易度を見極め、考える深さを変える。Opus 4.7はそれをできるようになった。

Anthropicはこの仕組みを「適応型思考（Adaptive Thinking）」と呼ぶ。AIが問題の難しさを自分で判断し、簡単なものにはすぐ答え、難しいものには最大限の処理を使って考え抜く。難問ほど時間をかける——それだけのことだが、AIの設計としては大きな転換だ。

思考プロセスが長くなると、AIが考えている過程が膨大なテキストになる。それを別のAIが要約して見せる機能も加わった。何が起きているかを追いやすくなる。

もう一つ、「タスク予算」という仕組みも導入された。AIが数時間にわたって自律的に作業するとき、処理量が際限なく膨れ上がるのを防ぐ上限設定だ。コスト管理の仕組みであると同時に、AIが長時間・単独で複雑な作業をこなせる環境を整えるための布石でもある。

Opus 4.7の裏にある「公開できないAI」の存在

AIが自分で考える深さを変えられるようになった。では、その能力をもっと極端に伸ばしたらどうなるか——実はAnthropicは、それをもうやっている。

Anthropicの公式発表によると、社内には「Claude Mythos（ミュトス）」と呼ばれる非公開モデルが存在する。別の評価基準で同じくコーディング能力を測ると、Opus 4.7が87.6%なのに対し、Mythosは93.9%を記録している。つまりAnthropicは、「世界一のAI」よりも強いAIを、すでに手の中に持っている。

モデル	SWE-bench Verified スコア
Claude Mythos	93.9%
Claude Opus 4.7	87.6%

SWE-bench Verified スコア比較

ではなぜ公開しないのか。サイバー攻撃に悪用されるリスクが高すぎると、Anthropic自身が判断したからだ。新薬を開発したが副作用が大きすぎて市場に出せない——それに近い状況が、AIの世界で起きている。作れるが出せない。この選択はAI業界では異例のことだ。

ただし完全に封印するわけでもない。AnthropicはMythosの機能をセキュリティ専門家だけに限定提供する「サイバー検証プログラム」を開始した。防衛目的に限り、攻撃パターンの研究や脆弱性の検証に使わせる試みだ。Opus 4.7はその文脈で、「Mythosを安全な形に制限した第一歩」として位置づけられている。世界一の新製品発表は、実はより強力な何かの予告編だった。

「強くしながら封じる」という問い

「強くしながら封じる」——この綱渡りは、Anthropic一社の問題ではない。AIを強くするほど悪用リスクも上がる。「もっと便利に」と「安全に使えるように」が真正面からぶつかる構図は、これからのAI開発全体が直面する問いだ。その線引きを誰がどう決めるのか。Anthropicの今回の判断は、その問いに対する一つの答えでもある。

Anthropic Claude LLM OpenAI プログラミング生成AI

よかったらシェアしてね！