Z.ai發佈GLM-5.1開源模型,編程基準測試成績超越多款閉源對手
🤖 智谱人工智能(Z.ai)於4月7日正式發佈開源大型語言模型GLM-5.1,在SWE-Bench Pro基準測試中取得58.4%的成績,超過Anthropic、OpenAI及Google旗下多款閉源模型,並聲稱訓練過程全程採用華為晶片,未有使用NVIDIA產品。
⚙️ 技術規格
GLM-5.1以今年2月發佈的GLM-5為基礎,透過後訓練優化強化代理式編程能力,並非重新設計的架構。主要規格如下:
– 🧠 參數規模:744億參數混合專家架構(MoE),共256個專家子模型,每個token推論時啟動8個
– 📏 上下文長度:最長200,000 tokens
– 📦 訓練數據:28.5萬億tokens
– 🖥️ 訓練硬件:約10萬顆華為昇騰910B(Ascend 910B)
– 🔧 訓練框架:華為自研MindSpore框架
– 📄 開源授權:MIT授權
📊 基準測試成績
– SWE-Bench Pro:GLM-5.1取得58.4%,高於Claude Opus 4.6的57.3%、GPT-5.4的57.7%及Gemini 3.1 Pro的54.2%
– SWE-Bench Verified:GLM-5.1錄得77.8%,Claude Opus 4.6為80.8%
– Terminal-Bench 2.0:GLM-5.1取得56%
– 編程評估(Claude Code測試):GLM-5.1得45.3分,Claude Opus 4.6得47.9分
整體編程能力達到Claude Opus 4.6約94.6%的水準,API定價每月約3至10美元。模型針對長時間自主任務作出優化,設計目標為可持續工作8小時,能在多輪工具呼叫中維持穩定表現。
⚠️ 訓練硬件聲明存爭議
Z.ai聲稱GLM-5以約10萬顆華為昇騰910B訓練,全程使用MindSpore框架,不涉及NVIDIA晶片。此說法被部分業界人士視為中國在AI晶片出口管制下的一項技術指標。
不過,有開發者指出,GLM-5訓練所採用的Slime強化學習框架在技術上不支援華為硬件,令上述說法難以獨立核實。在官方技術論文公開接受外界審查前,相關聲明仍有待確認。
🚀 部署與可用性
GLM-5.1已上架Hugging Face,提供FP8量化版本,支援vLLM及SGLang推論框架,並兼容Cursor及Cline等逾20款整合開發環境。Z.ai於今年1月在港交所上市,集資約4.3億美元(約33億港元)。
========
👇 相信「AI × 數碼營銷」是未來的你,
歡迎 Tag 一位同行好友,一起成長!
#AIMarketerHK #DigitalMarketing #GLM
