【🖥️AI安全｜Google：Gemini 面對「模型抽取／蒸餾攻擊」　以大量提問企圖複製 LLM 能力】

Google Threat Intelligence Group（GTIG）與 Google DeepMind 近日發表 AI 威脅追蹤內容，指出生成式 AI 普及後，攻擊者除咗利用 AI 加速社交工程、偵察與內容生成，亦開始將焦點放到大型語言模型（LLM）本身：透過 **Model Extraction（模型抽取）／Distillation（蒸餾）**方式，嘗試由模型輸出反向「學走」模型能力。

所謂「模型抽取／蒸餾攻擊」，並非傳統意義入侵伺服器或偷取模型權重，而係利用合法存取（例如持有 API key、符合使用條款嘅存取方式），用非常系統化、批量化嘅提問策略，持續收集輸出結果，從而建立一個「替代模型」去模仿原模型嘅回應風格、能力邊界甚至推理模式。

報告提到，Gemini 近期面對大量反覆提示（prompts）嘗試，攻擊者被形容具有「商業動機」，目標係複製 AI 系統能力，而非單純測試或一般用戶查詢。多間外媒其後引述 Google 指，團隊偵測到一宗涉及超過 100,000 次 prompts 的可疑活動，懷疑係針對 Gemini 的「專有推理能力」而來；Google 表示已即時偵測並阻截，並對相關帳戶/資產採取處置，同時加強安全控制與模型防護。

GTIG 亦指出，AI 正被威脅行為者整合進既有攻擊鏈：包括生成更像真嘅社交工程內容、協助撰寫或調整惡意程式碼、提升偵察效率等。不過，就「前沿模型被國家級 APT 直接突破」呢類敘事，報告整體取態相對審慎，更傾向形容 AI 正令既有攻擊手法更快、更平、更易規模化，而唔係代表攻擊能力突然出現顛覆式跳躍。

View original Facebook post