財訊快報

全球首個大一統多模態視頻模型可靈O1發佈(07:01)
撰文日期：2025/12/3

香港2025年12月2日 /美通社/ -- 領先的內容社區及社交平台快手科技（「快手」或「公司」；港幣櫃台股份代號：01024 / 人民幣櫃台股份代號：81024）宣佈，12月1日，可靈AI正式發佈其全新產品「可靈O1」，定位為首個大一統的多模態創作工具。可靈O1基於全新的視頻和圖像模型，整合文字、視頻、圖片、主體等多模態輸入，將所有生成和編輯任務融合於一個全能引擎之中。可靈O1的推出，徹底解決了AI視頻生成中角色、場景等一致性難題，為影視、自媒體、廣告電商等應用場景，提供了深度適配的一站式解決方案。

大一統模型，解決視頻創作的所有難題

作為首個大一統多模態視頻模型，可靈O1基於多模態視覺語言（MVL）理念，突破傳統單一視頻生成任務的模型邊界，將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務，融合於同一個全能引擎之中，用戶無需切換模型及工具，即可一站式完成從生成到編輯的全流程創作。

憑藉深層語義理解力，可靈O1可將用戶上傳的圖片、視頻、主體、文字均視為指令。模型打破了模態限制，能夠從不同視角綜合理解一張照片、一段視頻或一個主體，精準生成各項細節。

可靈O1的多模態指令輸入區，讓繁瑣的剪輯後期變成了簡單的對話。使用者無需手動遮罩或輸入關鍵幀，只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」等指令，模型即可讀懂影像邏輯，實現從局部主體替換到整體風格重繪的像素級語義重構。此外，它也全面支援圖片/主體參考、視頻內容編輯、鏡頭切換、首尾幀生成及文生視頻等多種能力。

針對AI視頻落地中常見的角色與場景不一致的痛點，可靈O1底層強化了對輸入圖像及視頻的理解。它能像人類導演一樣，「記住」主角、道具和場景，確保主體特徵在鏡頭變化中始終保持穩定。此外，該模型展現了強大的多主體融合能力。用戶可以自由組合多個不同主體，或將主體與參考圖混搭。即便是在複雜的群像戲或互動場景中，模型也能獨立鎖定並保持每一位角色或道具的特徵，確保「主角」在不同鏡頭中實現工業級的特徵統一。

可靈O1支援「技能組合」，不再局限於單點任務。使用者可以指令其「在視頻中增加主體的同時修改背景」，或者「在圖片參考生成時，同步修改風格」。這種一次生成多種創意變化的能力，極大地拓展了創作的自由度，讓創意的化學反應成為可能。

在時長控制上，可靈O1將定義時間的權力交還給創作者，支援3-10秒自由生成。無論是短促的視覺衝擊，還是悠長的故事鋪陳，都由使用者自由掌控。值得一提的是，作為統一模型的一部分，可靈O1的首尾幀能力也將支持3-10秒的生成時長選擇（即將發佈），進一步增強敘事的張弛度。

同時發佈的還有可靈圖像O1模型，可實現從基礎圖像生成到高階細節編輯全鏈路無縫銜接，用戶既可通過純文本生成圖像，也可上傳最多10張參考圖進行融合再創作。該模型具備四大核心優勢：特徵高度保持，讓主體元素穩定不偏差；細節修改精準響應，讓每一處調整都符合預期；風格調性準確把控，讓畫面氛圍始終統一；超豐富想像力，讓創意呈現更具張力，真正實現「所想即所得」。

一個模型覆蓋多創作場景：影視、自媒體、廣告電商

全新的可靈O1集生成與編輯於一體，廣泛適用於影視、自媒體、廣告電商等多種場景。無論是從零構建的敘事生成，還是對既有素材的深度重塑，可靈O1都能根據不同需求，靈活調用其參考、編輯的能力，輕鬆完成創作。

在影視創作領域，可靈O1憑藉強大一致性的圖片（主體）參考，結合主體庫功能，可以精準鎖定每個分鏡的角色及服化道，輕鬆生成多個連貫的影視鏡頭。對於視頻後期、自媒體創作者而言，只需輸入「刪除背景中的路人」、「讓天空變藍」等簡單對話指令，就能讓可靈O1自動完成像素級的智能修補與重構。

針對傳統線下廣告實拍成本高，製作週期長的問題，用戶現在只需上傳商品、模特和場景圖，輔以簡單指令，即可快速生成多個酷炫的商品展示廣告，大幅降低實拍成本。針對模特約拍麻煩與換裝難題，可靈O1可搭建永不落幕的虛擬T台：上傳模特和服裝實拍圖，輸入指令，便能完美還原服飾的質感和細節，批量生產高品質的Lookbook視頻。

可靈O1能實現上述強大而全面的功能，源於在技術底座的深層創新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂，構建了全新的生成式底座。通過融合多模態理解的Multimodal Transformer和多模態長上下文，實現了多任務的深度融合與統一。