Anthropicは2026年5月28日(米国時間)、最新AIモデル「Claude Opus 4.8」の一般提供を開始した。前バージョンのOpus 4.7と比較して、コーディング・エージェントスキル・推論・金融分析など、ほぼすべての評価指標でパフォーマンスが向上している。コーディングベンチマーク「SWE-Bench Pro」ではOpus 4.8が69.2%を記録し、GPT-5.5の58.6%やGemini 3.1 Proの54.2%を上回る結果を示したとされている。
今回の最大の改善点として注目されるのが「誠実さ(Honesty)」の向上だ。従来のAIモデルに共通する課題として、証拠が不十分な状態でも自信満々に作業の進捗を主張してしまう問題があったが、Opus 4.8ではこの傾向が大幅に改善された。具体的には、自身が記述したコードの欠陥を見逃す確率が前バージョン比で約4分の1に減少しており、未実装の機能やテスト失敗などをユーザーに報告し忘れる割合も3.7%まで低下したとされている。安全性評価においては、欺瞞や悪用への協力といった不整合な挙動の発生率が、限定公開中の上位モデル「Claude Mythos Preview」と同程度の水準であることも確認されているという。
新機能として「Dynamic Workflows」の研究プレビューが導入された。これはClaude Codeにおいて、AIが自律的に作業計画を立て、単一セッション内で数百のサブエージェントを並列実行できる機能だ。数十万行規模のコードベース移行や大規模なバグ探しなど、従来は数週間を要していた大規模エンジニアリング作業を数日で完了させることが可能になるとされており、Enterprise・Team・MaxプランのClaude Codeで利用できる。また、claude.aiとCoworkにはユーザーがAIの思考量を調整できる「Effort制御」も追加され、Low・Medium・High・Extra・Maxの5段階から選択可能となっている。
料金体系はOpus 4.7から変更なく、入力トークン100万あたり5ドル、出力トークン100万あたり25ドルである。高速モードはそれぞれ10ドル・50ドルとなっているが、高速モードの料金は前世代比で3分の1に引き下げられている点も注目に値する。Anthropicはさらに、Opusと同等の機能をより低コストで提供するモデルの開発も進めており、現在政府やセキュリティ企業などに限定提供中の「Claude Mythos Preview」についても、サイバーセキュリティ対策を整え次第、数週間以内にすべてのユーザーへ提供する見込みとしている。
管理人コメント
コードの欠陥を見逃す確率が4分の1に減少って、もはや「ちゃんと自分のミスに気づけるAI」が登場した時代ですよ。人間のエンジニアでもデバッグ中に自分のバグを見逃すことあるのに、AIに先を越されてしまうとは……。「Mythos(神話)」クラスのモデルが数週間後に全公開予定とのことで、開発界隈はこれから神話時代に突入するようだ。
読み込み中...






