Netflix 開源全新 AI 模型 VOID:超越像素物件刪除,物理現實也重新演繹
Netflix 於 2026 年 4 月初正式向全球開源發布旗下首個公開 AI 模型 VOID(Video Object and Interaction Deletion),標誌著影片後期製作技術進入全新紀元。這個工具的革命性,不在於「刪除」本身,而在於它能理解物件消失後,整個場景的物理世界應該如何重新運作。
🎬 VOID 是甚麼?釐清它的真正性質
不少人看到 Netflix 發布 AI 模型,第一反應是:「這是串流版 ChatGPT?」答案是否定的。VOID 與 ChatGPT、Gemini 等大型語言模型性質截然不同,它是一個專攻影片視覺後製的 AI 工具,更接近 Runway、Adobe After Effects 的進化替代品,而非通用對話助手。
。VOID 的核心突破,在於它能理解物理因果邏輯:
🚗 移除兩車相撞中的一輛 → 另一輛車繼續正常行駛,碎片、煙塵同步消失
🏊 移除跳入泳池的人 → 水面平靜如初,水花從未出現
⚽ 移除持球運動員 → 球依重力自然落下,而非憑空蒸發
這種能力,是市面上所有同類工具從未實現過的。
⚙️ 技術架構:多個頂尖模型聯手驅動
VOID 並非單一模型,而是一條整合多個業界頂尖工具的多模型技術管線:
🔹 阿里巴巴 CogVideoX:作為基礎影片擴散模型,以合成數據微調訓練
🔹 Google Gemini Pro:分析場景語境,識別物件消失後的受影響區域
🔹 Meta SAM2:負責精確的物件分割定位
🔹 核心創新——四值遮罩(Quadmask):將場景編碼為「移除區域」與「物理受影響區域」兩層結構,引導模型進行有物理依據的畫面重建
🔹 雙程推理管線:第一程完成大部分重建;若出現物件變形,第二程以光流扭曲技術修正失真
由索菲亞大學 INSAIT 的 Luc Van Gool 教授與 Netflix 研究團隊共同研發,並已發表學術論文於 arXiv。
📊 表現如何?人類偏好測試說明一切
在多場景人類偏好測試中,VOID 獲得 64.8% 受訪者青睞,對手 Runway 僅得 18.4%,差距懸殊。模型現以 Apache 2.0 授權免費開源,可商業使用,代碼、論文及互動示範分別發佈於 GitHub、arXiv 及 Hugging Face。
⚠️ 唯一門檻:運行需要最少 40GB 顯存的 GPU,目前主要適合專業製作環境或雲端部署,普通創作者需等待日後雲端服務整合。
♟️ Netflix 的真正盤算:策略遠大於技術
VOID 的開源,絕非單純的技術分享,而是 Netflix 在 AI 時代精心部署的四重策略棋局:
🏢 1. 宣示科技公司身份
Netflix 長期被視為娛樂串流平台。VOID 作為其首個公開 AI 模型,向全球業界清晰宣告:Netflix 擁有世界級 AI 研究能力,是一家真正的科技公司。這對吸引頂尖 AI 人才、提升技術社群影響力至關重要。
🎥 2. 善用自家內容資產
Netflix 每年投入逾百億美元製作原創內容,坐擁全球規模最大的高質量影片數據資源。VOID 的研發動力,正是源自內部真實製作痛點——快速修正拍攝失誤、修改素材以適應不同地區監管要求、更新廣告素材等。自家痛點驅動研發,再以開源讓全球開發者持續改良,一舉兩得。
🌐 3. 以開源搶佔行業標準
Apache 2.0 免費商用授權看似慷慨,實則是奪取行業定義權的高招。當 VOID 的技術框架成為業界基準,Adobe、Runway 等競爭對手便需以 VOID 的能力為標準跟進。開源亦同時吸引全球開發者貢獻改進,節省龐大研發成本。
🗺️ 4. VOID 只是 AI 路線圖的序章
Netflix 行政總裁 Ted Sarandos 曾明確表示,AI 是「提升創作者效率的工具」。影片物件移除功能相對獨立,風險較低,適合作為首個公開項目測試市場反應。業界普遍預期,Netflix 未來將陸續在影片分類、色彩校正、個人化縮圖生成、自動字幕等更核心業務場景推出 AI 工具,逐步建立完整的 AI 技術生態。
Netflix 的這一步,不只是發布一個工具,而是重新定義了影片後製的可能性邊界——而這場變革,香港的內容創作業不能置身事外。🚀
========
內容由 Ai Marketer HK 提供
#AIMarketerHK #DigitalMarketing #netflex
