開云(中國)kaiyun網頁版登錄入口開云體育比如無信號燈路口讓行：路邊起步變談：以及夜間行車等-開云(中國)kaiyun體育網址-登錄入口

發布日期：2025-06-16 06:05 點擊次數：73

可控視頻生成，關于自動駕駛時候而言，通常十分緊迫。

比如，生成高質地、長時代且可控的高質地街景視頻，不錯中意建立自動駕駛欺詐的數據缺口。

當前，香港漢文大學、香港科技大學和華為聯手向這一恒久挑戰發起了沖鋒：推出MagicDriveDiT，再行界說自動駕駛視頻生成的尺度。

當前該責任同期賑濟昇騰 Ascend NPU 以及 NVIDIA GPU 磨練和推理。

具體而言，MagicDriveDiT 基于 DiT 架構謀略。通過流匹配時候和漸進式磨練戰略，MagicDriveDiT 不僅晉升了系統的推廣智商，還能靈驗生成復雜場景。這一身手極地面提高了視頻生成的質地，尤其是在生成高分辨率和長時代視頻方面貫通杰出。

精準場景落幕

先來看 MagicDriverDiT 的生成落幕。

通過精準的場景落幕，MagicDriveDiT 不錯生成許若干見的行駛路況。

比如無信號燈路口讓行：

路邊起步變談：

以及夜間行車等。

值得一提的是，MagicDriveDiT 既賑濟單個物體的精準落幕：

也賑濟復雜的自車 3D 軌跡落幕。

MagicDriveDiT 的舉座謀略框架

架構謀略方面，率先，MagicDriveDiT 將跨視角一致性模塊引入 STDiT3 的基礎模塊中，建議了 MVDiT 模塊來處置多視角視頻合成。

其次，關于自動駕駛場景中常見的多種落幕，MagicDriveDiT 在 STDiT3 的基礎上取舍絕頂的落幕分支以及交叉崇拜力分辯處置不同的落幕種類信號。

此前的視頻生成齊是基于 2DVAE 編碼落幕的，落幕條款的空間編碼模塊并不適用于 3DVAE 的時空潛變量。針對現存身手在可推廣性和落幕條款整合方面的不及，MagicDriveDiT 取舍空間 - 時代條款編碼時候，落幕了對時空潛變量的精準落幕。這種身手使得生成的視頻在視覺落幕上愈加傳神，大致中意自動駕駛欺詐對高質地街景視頻的需求。

以下視頻空間編碼和時空編碼對比，此前的視頻落幕身手并不適用于 3DVAE 的時空潛變量：