開云(中國)kaiyun網頁版登錄入口開云體育比如無信號燈路口讓行:路邊起步變談:以及夜間行車等-開云(中國)kaiyun體育網址-登錄入口
可控視頻生成,關于自動駕駛時候而言,通常十分緊迫。
比如,生成高質地、長時代且可控的高質地街景視頻,不錯中意建立自動駕駛欺詐的數據缺口。
當前,香港漢文大學、香港科技大學和華為聯手向這一恒久挑戰發起了沖鋒:推出MagicDriveDiT,再行界說自動駕駛視頻生成的尺度。
當前該責任同期賑濟昇騰 Ascend NPU 以及 NVIDIA GPU 磨練和推理。
具體而言,MagicDriveDiT 基于 DiT 架構謀略。通過流匹配時候和漸進式磨練戰略,MagicDriveDiT 不僅晉升了系統的推廣智商,還能靈驗生成復雜場景。這一身手極地面提高了視頻生成的質地,尤其是在生成高分辨率和長時代視頻方面貫通杰出。
精準場景落幕
先來看 MagicDriverDiT 的生成落幕。
通過精準的場景落幕,MagicDriveDiT 不錯生成許若干見的行駛路況。
比如無信號燈路口讓行:
路邊起步變談:
以及夜間行車等。
值得一提的是,MagicDriveDiT 既賑濟單個物體的精準落幕:
也賑濟復雜的自車 3D 軌跡落幕。
MagicDriveDiT 的舉座謀略框架
架構謀略方面,率先,MagicDriveDiT 將跨視角一致性模塊引入 STDiT3 的基礎模塊中,建議了 MVDiT 模塊來處置多視角視頻合成。
其次,關于自動駕駛場景中常見的多種落幕,MagicDriveDiT 在 STDiT3 的基礎上取舍絕頂的落幕分支以及交叉崇拜力分辯處置不同的落幕種類信號。
此前的視頻生成齊是基于 2DVAE 編碼落幕的,落幕條款的空間編碼模塊并不適用于 3DVAE 的時空潛變量。針對現存身手在可推廣性和落幕條款整合方面的不及,MagicDriveDiT 取舍空間 - 時代條款編碼時候,落幕了對時空潛變量的精準落幕。這種身手使得生成的視頻在視覺落幕上愈加傳神,大致中意自動駕駛欺詐對高質地街景視頻的需求。
以下視頻空間編碼和時空編碼對比,此前的視頻落幕身手并不適用于 3DVAE 的時空潛變量:
MagicDriveDiT 建議的條款時空編碼模塊:
磨練身手上,MagicDriveDiT 發現,提高視頻分辨率關于生成骨子的質地晉升最顯豁。
因此,MagicDriveDiT 取舍了分辨率優先的漸進式的磨練戰略,加快模子磨練斂跡,況兼慢慢適配更高分辨率和更長的視頻。此外,通過混雜數據磨練,MagicDriveDiT 還落幕了視頻長度外推的智商,不錯告成生成卓著磨練長度的視頻。
△MagicDriveDiT 取舍的漸進式磨練戰略
執行落幕顯現,MagicDriveDiT 在生成確切街景視頻方面的貫通優于現存的其他身手,不僅在分辨率上有所沖破,還在幀數上落幕了顯赫晉升,落幕了前所未有的視頻生成落幕。
與關聯責任的分辨率、時長對比落幕如下:
更多骨子請見論文:
https://arxiv.org/abs/2411.13807
款式地址:https://github.com/flymin/MagicDriveDiT
— ?完? —
投稿請發郵件到:
ai@qbitai.com
標題注明【投稿】,告訴咱們:
你是誰,從哪來,投稿骨子?
附上論文 / 款式主頁貫穿,以及干系形狀哦
咱們會(盡量)實時回話你
點這里? ? 關懷我,銘記標星哦~
一鍵三連「共享」、「點贊」和「在看」
科技前沿進展日日相遇 ~ ?