香港2025年12月2日 /美通社/ -- 領先的內容社區及社交平台快手科技(「快手」或「公司」;港幣櫃台股份代號:01024 / 人民幣櫃台股份代號:81024)宣佈,12月1日,可靈AI正式發佈其全新產品「可靈O1」,定位為首個大一統的多模態創作工具。可靈O1基於全新的視頻和圖像模型,整合文字、視頻、圖片、主體等多模態輸入,將所有生成和編輯任務融合於一個全能引擎之中。可靈O1的推出,徹底解決了AI視頻生成中角色、場景等一致性難題,為影視、自媒體、廣告電商等應用場景,提供了深度適配的一站式解決方案。




大一統模型,解決視頻創作的所有難題

作為首個大一統多模態視頻模型,可靈O1基於多模態視覺語言(MVL)理念,突破傳統單一視頻生成任務的模型邊界,將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務,融合於同一個全能引擎之中,用戶無需切換模型及工具,即可一站式完成從生成到編輯的全流程創作。

憑藉深層語義理解力,可靈O1可將用戶上傳的圖片、視頻、主體、文字均視為指令。模型打破了模態限制,能夠從不同視角綜合理解一張照片、一段視頻或一個主體,精準生成各項細節。

可靈O1的多模態指令輸入區,讓繁瑣的剪輯後期變成了簡單的對話。使用者無需手動遮罩或輸入關鍵幀,只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」等指令,模型即可讀懂影像邏輯,實現從局部主體替換到整體風格重繪的像素級語義重構。此外,它也全面支援圖片/主體參考、視頻內容編輯、鏡頭切換、首尾幀生成及文生視頻等多種能力。

針對AI視頻落地中常見的角色與場景不一致的痛點,可靈O1底層強化了對輸入圖像及視頻的理解。它能像人類導演一樣,「記住」主角、道具和場景,確保主體特徵在鏡頭變化中始終保持穩定。此外,該模型展現了強大的多主體融合能力。用戶可以自由組合多個不同主體,或將主體與參考圖混搭。即便是在複雜的群像戲或互動場景中,模型也能獨立鎖定並保持每一位角色或道具的特徵,確保「主角」在不同鏡頭中實現工業級的特徵統一。

可靈O1支援「技能組合」,不再局限於單點任務。使用者可以指令其「在視頻中增加主體的同時修改背景」,或者「在圖片參考生成時,同步修改風格」。這種一次生成多種創意變化的能力,極大地拓展了創作的自由度,讓創意的化學反應成為可能。

在時長控制上,可靈O1將定義時間的權力交還給創作者,支援3-10秒自由生成。無論是短促的視覺衝擊,還是悠長的故事鋪陳,都由使用者自由掌控。值得一提的是,作為統一模型的一部分,可靈O1的首尾幀能力也將支持3-10秒的生成時長選擇(即將發佈),進一步增強敘事的張弛度。

同時發佈的還有可靈圖像O1模型,可實現從基礎圖像生成到高階細節編輯全鏈路無縫銜接,用戶既可通過純文本生成圖像,也可上傳最多10張參考圖進行融合再創作。該模型具備四大核心優勢:特徵高度保持,讓主體元素穩定不偏差;細節修改精準響應,讓每一處調整都符合預期;風格調性準確把控,讓畫面氛圍始終統一;超豐富想像力,讓創意呈現更具張力,真正實現「所想即所得」。



一個模型覆蓋多創作場景:影視、自媒體、廣告電商

全新的可靈O1集生成與編輯於一體,廣泛適用於影視、自媒體、廣告電商等多種場景。無論是從零構建的敘事生成,還是對既有素材的深度重塑,可靈O1都能根據不同需求,靈活調用其參考、編輯的能力,輕鬆完成創作。

在影視創作領域,可靈O1憑藉強大一致性的圖片(主體)參考,結合主體庫功能,可以精準鎖定每個分鏡的角色及服化道,輕鬆生成多個連貫的影視鏡頭。對於視頻後期、自媒體創作者而言,只需輸入「刪除背景中的路人」、「讓天空變藍」等簡單對話指令,就能讓可靈O1自動完成像素級的智能修補與重構。

針對傳統線下廣告實拍成本高,製作週期長的問題,用戶現在只需上傳商品、模特和場景圖,輔以簡單指令,即可快速生成多個酷炫的商品展示廣告,大幅降低實拍成本。針對模特約拍麻煩與換裝難題,可靈O1可搭建永不落幕的虛擬T台:上傳模特和服裝實拍圖,輸入指令,便能完美還原服飾的質感和細節,批量生產高品質的Lookbook視頻。

可靈O1能實現上述強大而全面的功能,源於在技術底座的深層創新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂,構建了全新的生成式底座。通過融合多模態理解的Multimodal Transformer和多模態長上下文,實現了多任務的深度融合與統一。