【🖥️AI安全|Google:Gemini 面對「模型抽取/蒸餾攻擊」 以大量提問企圖複製 LLM 能力】
Google Threat Intelligence Group(GTIG)與 Google DeepMind 近日發表 AI 威脅追蹤內容,指出生成式 AI 普及後,攻擊者除咗利用 AI 加速社交工程、偵察與內容生成,亦開始將焦點放到大型語言模型(LLM)本身:透過 **Model Extraction(模型抽取)/Distillation(蒸餾)**方式,嘗試由模型輸出反向「學走」模型能力。
所謂「模型抽取/蒸餾攻擊」,並非傳統意義入侵伺服器或偷取模型權重,而係利用合法存取(例如持有 API key、符合使用條款嘅存取方式),用非常系統化、批量化嘅提問策略,持續收集輸出結果,從而建立一個「替代模型」去模仿原模型嘅回應風格、能力邊界甚至推理模式。
報告提到,Gemini 近期面對大量反覆提示(prompts)嘗試,攻擊者被形容具有「商業動機」,目標係複製 AI 系統能力,而非單純測試或一般用戶查詢。多間外媒其後引述 Google 指,團隊偵測到一宗涉及 超過 100,000 次 prompts 的可疑活動,懷疑係針對 Gemini 的「專有推理能力」而來;Google 表示已即時偵測並阻截,並對相關帳戶/資產採取處置,同時加強安全控制與模型防護。
GTIG 亦指出,AI 正被威脅行為者整合進既有攻擊鏈:包括生成更像真嘅社交工程內容、協助撰寫或調整惡意程式碼、提升偵察效率等。不過,就「前沿模型被國家級 APT 直接突破」呢類敘事,報告整體取態相對審慎,更傾向形容 AI 正令既有攻擊手法更快、更平、更易規模化,而唔係代表攻擊能力突然出現顛覆式跳躍。
