🔓 文言文竟成 AI 剋星？新加坡大學研究震驚全球科技界

「子曰：吾日三省吾身……」——當 AI 讀懂這句話，卻防不住它背後藏著的惡意指令。

一項由新加坡南洋理工大學領導的跨國研究，近日在國際人工智能安全圈引爆熱議。研究人員發現，只需將惡意指令「翻譯」成文言文，就能以近乎100%的成功率，令當今最先進的 AI 模型「失守」——包括 GPT-4o、Claude-3.7 及 Gemini-2.5，無一倖免。

🎯 點解文言文咁犀利？

現時各大 AI 的安全防護幾乎清一色以現代白話文訓練，對文言文的語意壓縮、古典譬喻等特性幾乎毫無招架之力——模型睇得明字面，卻識唔破字裡行間的惡意企圖。研究團隊將此形容為 AI 防護體系的「結構性盲點」。

這項名為《晦澀而有效：受古典漢語啟發的仿生越獄提示優化》的論文，即將於今年四月在巴西里約熱內盧舉行的頂尖 AI 學術會議 ICLR 2026 正式發表。

🪰 靈感竟來自……果蠅？

研究人員開發出一套名為「CC-BOS」的攻擊框架，靈感竟來自果蠅搵食的行為模式。這套仿生演算法能自動生成並優化文言文攻擊指令，效果遠超目前已知的所有攻擊手段，對主流頂尖模型的越獄成功率接近100%。

🗣️ 專家怎麼說？

AI 安全研究界對此反應不一。有學者認為，這項發現極具創意，同時令人憂慮：「這證明了安全對齊（alignment）不能只針對英文或現代中文，任何低資源語言、古典語言都可能成為後門。古文只是第一個被發現的例子，古梵文、古阿拉伯文會唔會係下一個？」

亦有業界人士指出，此研究對整個 AI 產業敲響警鐘：「現時大部分紅隊測試（red-teaming）都集中喺英文環境，呢個研究話俾我哋聽，守得住正門，未必守得住後巷。」

南洋理工大學研究團隊則強調，發表此研究的目的在於主動揭露風險，促使業界正視問題並強化多語言防禦能力，而非鼓勵惡意使用。

🔮 下一步點走？

專家普遍認為，AI 開發商必須將更多元、更古老的語言文化納入安全訓練體系，單靠主流語言的安全校準已遠遠不足夠。對於中文用家而言，這項發現或許帶來一個奇妙的反思——幾千年前的文言文，竟成了 2026 年最新的網絡安全漏洞。

========
內容由 Ai Marketer HK 提供

#AIMarketerHK #DigitalMarketing