12月17日 - 圖森未來今日正式發(fā)布“Ruyi”圖生視頻大模型,并將Ruyi-Mini-7B版本正式開源,用戶可以從huggingface上下載使用。圖森表示,希望通過開源模式,讓更多AIGC愛好者和社區(qū)成員能夠自由體驗(yàn)。
“Ruyi”專為在消費(fèi)級顯卡(例如 RTX 4090)上運(yùn)行而設(shè)計(jì), 并提供詳盡的部署說明和 ComfyUI 工作流,以便用戶能夠快速上手。
圖森未來介紹,Ruyi是圖森未來正式發(fā)布的第一款“圖生視頻”模型。
憑借在幀間一致性、動(dòng)作流暢性方面的卓越表現(xiàn),以及和諧自然的色彩呈現(xiàn)和構(gòu)圖,Ruyi大模型將為視覺敘事提供全新的可能性。
同時(shí),該模型還針對動(dòng)漫和游戲場景進(jìn)行深度學(xué)習(xí),將成為ACG愛好者理想的創(chuàng)意伙伴。
Ruyi是一個(gè)基于DiT架構(gòu)的圖生視頻模型,它由兩部分構(gòu)成:一個(gè)Casual VAE模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓,一個(gè)Diffusion Transformer負(fù)責(zé)壓縮后的視頻生成。其中Casual VAE模塊會(huì)將空間分辨率壓縮至1/8,時(shí)間分辨率壓縮至1/4,壓縮后每個(gè)像素由16位的BF16進(jìn)行表示。DiT部分使用3D full attention,在空間上使用2D RoPE進(jìn)行位置編碼,時(shí)間上使用sin_cos進(jìn)行位置編碼,最終的loss選用了DDPM進(jìn)行訓(xùn)練。模型的總參數(shù)量約為7.1B,使用了約200M個(gè)視頻片段進(jìn)行訓(xùn)練。
整個(gè)訓(xùn)練分為了4個(gè)階段:
在第一階段我們使用約200M的視頻數(shù)據(jù)+30M圖片數(shù)據(jù)進(jìn)行256分辨率的預(yù)訓(xùn)練,訓(xùn)練batch size為4096,共訓(xùn)練350k個(gè)iteration至充分收斂。
第二階段使用了約60M的視頻數(shù)據(jù)進(jìn)行384-512分辨率的多尺度微調(diào)訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練了60k個(gè)iteration。
第三階段使用了約20M的高質(zhì)量視頻數(shù)據(jù)和8M的高質(zhì)量圖片進(jìn)行384-1024分辨率的多尺度微調(diào),訓(xùn)練batch size根據(jù)顯存大小進(jìn)行動(dòng)態(tài)調(diào)整,共訓(xùn)練約10k個(gè)iteration。
第四階段使用了10M的精選高質(zhì)量視頻數(shù)據(jù)進(jìn)行了圖生視頻的訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練約10k個(gè)iteration。
不過,Ruyi目前仍然存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場等問題,我們正在改進(jìn)這些缺點(diǎn),在日后的更新中對它們進(jìn)行修復(fù)。
隨著AIGC領(lǐng)域競爭的日益激烈,圖森未來認(rèn)為: 最佳應(yīng)用場景是孵化生成式AI工具的原動(dòng)力。公司致力于利用大模型降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。因此,Ruyi將持續(xù)聚焦在如何真正解決行業(yè)痛點(diǎn)。
本次發(fā)布的Ruyi大模型,已經(jīng)可以實(shí)現(xiàn)輸入關(guān)鍵幀后,生成之后5秒的內(nèi)容,或輸入兩個(gè)關(guān)鍵幀,由模型生成中間的過渡內(nèi)容,降低開發(fā)周期。
圖森表示,未來將持續(xù)深耕場景需求,在此基礎(chǔ)上實(shí)現(xiàn)直接生成CUT的突破。同時(shí)圖森表示,在下一次的發(fā)布中,將同時(shí)發(fā)布兩個(gè)版本,為不同需求的創(chuàng)作者提供更加靈活的選擇。
x
-
圖森未來正式更名為CreateAI,并發(fā)布多項(xiàng)重大進(jìn)展 2024-12-19 10:03
-
豆包發(fā)布視覺理解模型,價(jià)格僅為同行15%,通用模型pro全面對齊GPT-4o,價(jià)格僅為其1/8 2024-12-18 11:20
-
這也是一個(gè)悲傷的故事:通用斷供Crusie,8年700億的夢碎了 2024-12-13 12:32
-
極越CEO夏一平發(fā)長文致歉:我沒有跑路,做營銷忽略了公司戰(zhàn)略和融資 2024-12-16 13:53
-
奔馳三大全新純電平臺亮相,純電MPV首款概念車VAN.EA曝光 2024-12-16 12:03
-
極越「原地解散」:百度的一場造車鬧劇 2024-12-16 18:23