據(jù)新浪科技2024年4月28日消息,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了視頻大模型Vidu。該模型采用團(tuán)隊原創(chuàng)的 Diffusion 與 Transformer 融合的架構(gòu) U-ViT,支持一鍵生成長達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容。
Vidu 不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點(diǎn)。它是自 Sora 發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對標(biāo)國際頂尖水平,并在加速迭代提升中。
與 Sora 一致,Vidu 能夠根據(jù)提供的文本描述直接生成長達(dá)16秒的高質(zhì)量視頻。短片中的片段都是從頭到尾連續(xù)生成,沒有明顯的插幀現(xiàn)象,推測 Vidu 采用的是“一步到位”的生成方式,與 Sora 一樣,文本到視頻的轉(zhuǎn)換是直接且連續(xù)的,在底層算法實現(xiàn)上是基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理。 |