Search

Home
Education
Publications

Light Dark Automatic

Vision-Language Models

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

Kewei Zhang, Jin Wang, Sensen Gao, Chengyue Wu, Yulong Cao, Songyang Han, Boris Ivanovic, Langechuan Liu, Marco Pavone, Song Han, Daquan Zhou, Enze Xie

Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM

Chengyue Wu, Shiyi Lan, Yonggan Fu, Sensen Gao, Jin Wang, Jincheng Yu, Jose M. Alvarez, Pavlo Molchanov, Ping Luo, Song Han, Ligeng Zhu, Enze Xie

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM

Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View

Compositional reasoning capabilities are usually considered as fundamental skills to characterize human perception. Recent studies show …

Jin Wang, Shichao Dong, Yapeng Zhu, Kelu Yao, Weidong Zhao, Chao Li, Ping Luo

PDF Cite Code Project

© 2026 Jin Wang. This work is licensed under CC BY NC ND 4.0

Published with Wowchemy — the free, open source website builder that empowers creators.

Cite