AI News

エンジニアリング AI生成記事 6分で読めます 5回閲覧

Z.aiがエンジニアリング特化のオープンソースLLM「GLM-4.7」を発表!プログラミング性能で世界最高水準へ

Featured image: Generated image

この記事の要約

  • Z.aiが「GLM-4.7」を発表
  • SWE-benchで73.8%を記録
  • 思考と行動の統合機能を強化

2025年12月、AI技術の最前線を走るZ.ai(旧Zhipu AI)から、エンジニアリングワークフローに特化した新たなオープンソース大規模言語モデル(LLM)「GLM-4.7」が発表されました。このモデルは、高度なプログラミング能力と複雑な推論能力を兼ね備え、ソフトウェア開発の現場における強力な開発ツールとしての活用が期待されています。

特に注目すべきは、主要なベンチマークにおける圧倒的なスコアと、推論と行動を織り交ぜる「Thinking Mode」の進化です。これにより、従来のモデルでは困難だった長時間のタスク実行や複雑なエージェント動作の安定性が飛躍的に向上しました。本記事では、IT業界に大きなインパクトを与えるGLM-4.7の詳細と、その技術的な特徴について深掘りします。

概要

Section image: Generated image

2025年12月、Z.aiはエンジニアリング向けのオープンソースLLM「GLM-4.7」を正式に発表しました。同モデルはSWE-bench Verifiedにおいて73.8%というスコアを記録し、前バージョンから大幅な性能向上を実現しています。また、Code ArenaのブラインドテストではWebDev部門およびオープンソースモデルとして1位を獲得しました。

この発表は、オープンソースモデルが商用の最先端モデルと対等以上に渡り合える時代が到来したことを意味します。特に実際の開発現場で求められる問題解決能力が強化されたことで、エンジニアの負担軽減や生産性向上が期待されます。ソフトウェア開発におけるAIアシスタントの役割が、単なるコード補完から自律的なタスク遂行へと進化していることを示唆する重要なニュースです。

圧倒的なコーディング性能とベンチマーク結果

GLM-4.7は、複数の主要なベンチマークにおいて、オープンソースモデルとしての記録を塗り替える驚異的な性能を示しました。特に、実際のソフトウェアエンジニアリングの課題解決能力を測る指標において、その強さが際立っています。

  • SWE-bench Verifiedで73.8%を達成:これは前バージョンのGLM-4.6と比較して+5.8%の向上であり、複雑なコード修正や機能追加における信頼性が高まったことを示しています。
  • SWE-bench Multilingualで66.7%を記録:多言語対応においても+12.9%という大幅なスコアアップを果たしており、グローバルな開発環境での有用性が証明されました。
  • LiveCodeBench v6で84.9%(SOTA):リアルタイムのコーディング課題においても、オープンソースモデルとしてState-of-the-Art(最先端)の地位を確立しました。

これらの結果は、公式ブログでも強調されており、Claude Sonnet 4.5GPT-5.2といった強力なプロプライエタリ(商用)モデルに匹敵、あるいは一部の指標で上回る性能を発揮しています。特にCode Arenaのブラインドテストにおいて、Web開発部門で1位を獲得した事実は、Webエンジニアにとって非常に魅力的な選択肢となることを示しています。

「Thinking Mode」による推論と行動の融合

GLM-4.7の最大の特徴の一つが、強化された「Interleaved Thinking(思考と行動の織り交ぜ)」機能、通称「Thinking Mode」です。これは単にコードを出力するだけでなく、問題を解決するための道筋を立て、ツールを使用し、その結果に基づいて次の行動を決定するというプロセスを高度に統合したものです。

  • 推論と行動のシームレスな統合:モデルが複雑なタスクに直面した際、段階的な思考プロセス(推論)と、実際のコード実行やコマンド操作(行動)を交互に行うことで、より人間に近い形での問題解決を可能にしています。
  • エージェント動作の安定性向上:従来のモデルでは、長時間のタスクサイクルや頻繁なツール使用を行うと動作が不安定になる傾向がありましたが、GLM-4.7ではこの点が大幅に改善されています。これにより、自律型AIエージェントとしての実用性が高まりました。
  • 指示追従性の強化:複雑な開発要件や制約条件が含まれる指示に対しても、的確に意図を汲み取り、正確にタスクを遂行する能力が向上しています。

この技術的な進歩により、GLM-4.7は単なるコード生成ツールを超え、エンジニアと協働するパートナーとしての資質を備えるようになりました。Business Wireの報道によると、このモデルは実際の開発ワークフローに耐えうるよう設計されており、デバッグやリファクタリングといった高度な作業にも対応可能です。

実開発に即したスペックと仕様

エンジニアリングの現場でAIモデルを活用するためには、モデルの性能だけでなく、処理できる情報量(コンテキストウィンドウ)や出力の長さも重要な要素となります。GLM-4.7は、これらのスペック面でも実用性を重視した設計がなされています。

  • 200,000トークンのコンテキストウィンドウ:大規模なコードベースや詳細なドキュメントを一度に読み込ませることが可能です。これにより、プロジェクト全体の文脈を理解した上でのコード提案や修正が行えます。
  • 最大128,000トークンの出力:長文のコード生成や、詳細な技術ドキュメントの作成、あるいは複雑なログの解析結果の出力など、途切れることなく一貫した回答を得ることができます。
  • オープンソースとしての提供:企業や個人開発者が、自身のインフラ上でモデルを運用できるため、セキュリティ要件の厳しいプロジェクトや、カスタマイズが必要な環境でも導入しやすいというメリットがあります。

LLM-Statsの情報によれば、この広大なコンテキストと出力能力は、競合モデルと比較してもトップクラスの水準です。特に、長時間にわたる対話や、大規模なリポジトリ全体の解析といったタスクにおいて、その真価を発揮することでしょう。

まとめ

2025年末に登場したZ.aiの「GLM-4.7」は、オープンソースLLMの新たな基準を打ち立てました。エンジニアリング領域におけるその卓越した性能は、今後のIT業界における開発スタイルを大きく変える可能性を秘めています。

  • SWE-bench Verified 73.8%をはじめとする圧倒的なベンチマークスコアにより、コーディング能力の高さが客観的に証明されました。
  • Thinking Mode」の実装により、複雑な推論と行動を組み合わせたタスク遂行が可能となり、エージェントとしての利用価値が高まりました。
  • 200kのコンテキストウィンドウとオープンソースという特性は、実際の開発ツールとして導入する際の大きなアドバンテージとなります。

プログラミング支援AIの進化は留まるところを知りません。GLM-4.7のような高性能なオープンソースモデルの登場により、高度なAI技術がより多くの開発者に開放され、ソフトウェア開発の効率化とイノベーションがさらに加速していくことが期待されます。

本記事は生成AIにより複数の公開情報を元に自動生成されています。重要な判断の際は、複数の情報源を参照されることを推奨します。 詳細は免責事項をご確認ください。