AI Marketing

Claude AI「變笨」三重工程失誤 Anthropic認錯補救惟信任危機 牽出AI監管盲點

Claude AI「變笨」三重工程失誤

Claude AI「變笨」三重工程失誤
Anthropic認錯補救惟信任危機
牽出AI監管盲點

人工智能公司Anthropic旗下助手Claude近月表現急劇倒退,引發全球開發者強烈不滿,「AI縮水」(AI shrinkflation)一詞因此流傳,指用戶付相同費用卻換來質素下滑的服務。風波持續下,Anthropic於上月(4月23日)公開事後報告,承認三項工程配置失誤是元兇,並宣布已全數修復。事件同時觸發外界對AI行業監管透明度的深層質疑。

📉 數據顯示跌幅驚人

AI評測平台BridgeMind的測試結果觸目:Claude Opus 4.6準確率由83.3%驟跌至68.3%,在幻覺評測榜上由第2位跌至第10位,幻覺出現率近乎翻倍。AMD人工智能部門資深總監Stella Laurenzo在GitHub上公開分析逾6,800個Claude Code工作階段及約23.5萬次工具呼叫,發現模型傾向選擇「最簡單的修法」而非「正確解法」,閱讀代碼次數大幅減少,並出現中途放棄任務等異常行為。Laurenzo直言,Claude Code已退化至「不能信任其執行複雜工程任務」的地步。

🔍 三項失誤疊加釀禍

Anthropic確認,事件源於三項互相獨立的產品層變更,全部涉及模型執行環境(Harness),而非模型訓練本身。

⚙️ 推理深度靜悄悄降級(3月4日):Anthropic將Claude Code預設推理力道由「高」調低至「中」,聲稱旨在減少介面延遲,但同時令模型在複雜任務上明顯失準。此次變更未有發布更新日誌,亦無提供用戶自選設定路徑,至4月7日才悄悄回撥。

🧠 快取漏洞致模型失憶(3月26日):工程師原意是在對話閒置逾一小時後清除舊思考記錄,節省快取空間,但程式錯誤導致系統在每一輪對話後都持續觸發清除,令模型不斷喪失「短期記憶」,在長對話中反覆遺忘並重複。此漏洞同時造成快取頻繁失效,加速消耗用戶使用限額,至4月10日修復。

✂️ 系統提示誤傷(4月16日):Anthropic在後台系統提示加入指令,限制工具呼叫之間的文字不超過25字、最終回覆不超過100字,原意針對Opus 4.7的冗長輸出問題,卻意外波及Opus 4.6,令代碼品質評分下滑約3%,至4月20日撤銷。

✅ 修復已完成 補償使用限額

三項問題已於v2.1.116版本中全數修復,推理力道還原,快取漏洞修補,冗餘限制撤銷。作為補償,所有訂閱用戶的使用限額已於4月23日重置。Anthropic同時宣布四項預防措施:更多內部員工將使用與公開版一致的Claude Code;每次系統提示變更須執行消融測試;新增稽核工具追蹤提示詞變更;以及加強端對端測試以防快取類漏洞重演。

⚖️ 靜默縮水牽出監管盲點

這次事件折射出AI行業一個結構性困境:模型如同黑盒,普通用戶甚至專業開發者均難以分辨「模型本身退化」與「工程配置失誤」,兩者對使用體驗的破壞無異,但成因與修復路徑截然不同。Anthropic起初否認刻意削弱模型,但Laurenzo等高知名度技術人員的公開稽核數據令爭議難以迴避,部分用戶更已取消訂閱。

從監管角度而言,在未通知用戶的情況下降低服務質素,在部分司法管轄區可能構成誤導性商業行為。歐盟《AI法案》第50條要求AI服務商以清晰方式披露系統關鍵資訊,正研議中的《數碼公平法案》更預計於2026年第四季出台,進一步規管AI訂閱服務的披露義務。對付費用戶而言,服務規格靜默縮水亦可能直接觸發合約違約爭議,一旦用戶能舉證服務質素在付費期間明顯倒退且公司事前未作任何披露,集體訴訟的門檻將大為降低。

監管困局的根源在於,AI系統本身難以被外部核查,監管速度追不上技術迭代速度。安永研究報告指出,企業若缺乏清晰的AI治理架構,商譽損失往往先於法律罰款而至。如何在靜悄悄的工程變更與用戶知情權之間取得平衡,將是AI公司維繫信任、同時應對日趨嚴格監管環境的長期課題。

========

👇 相信「AI × 數碼營銷」是未來的你,
歡迎 Tag 一位同行好友,一起成長!

#AIMarketerHK #DigitalMarketing #Claude

View original Facebook post