Publications

Kewei Zhang, Jin Wang, Sensen Gao, Chengyue Wu, Yulong Cao, Songyang Han, Boris Ivanovic, Langechuan Liu, Marco Pavone, Song Han, Daquan Zhou, Enze Xie (2026). Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving. Preprint.

Jin Wang, Jianxiang Lu, Comi Chen, Guangzheng Xu, Haoyu Yang, Peng Chen, Na Zhang, Yifan Xu, Longhuang Wu, Shuai Shao, Qinglin Lu, Ping Luo (2026). Rotate Your Character: Revisiting Video Diffusion Models for High-Quality 3D Character Generation. To appear in ECCV 2026.

Jin Wang, Jianxiang Lu, Guangzheng Xu, Comi Chen, Haoyu Yang, Linqing Wang, Peng Chen, Mingtao Chen, Zhichao Hu, Longhuang Wu, Shuai Shao, Qinglin Lu, Ping Luo (2026). TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment. To appear in ICML 2026.

Chengyue Wu, Shiyi Lan, Yonggan Fu, Sensen Gao, Jin Wang, Jincheng Yu, Jose M. Alvarez, Pavlo Molchanov, Ping Luo, Song Han, Ligeng Zhu, Enze Xie (2026). Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM. Preprint.

Haonan Jia, Shichao Dong, Xin Dong, Zenghui Sun, Jin Wang, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Kaifu Zhang (2026). Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning. In CVPR 2026.

Riling Wei, Kelu Yao, Chuanguang Yang, Jin Wang, Zhuoyan Gao, Chao Li (2026). Asymmetric Cross-Modal Knowledge Distillation: Bridging Modalities with Weak Semantic Consistency. In AAAI 2026.

Jin Wang, Yao Lai, Aoxue Li, Shifeng Zhang, Jiacheng Sun, Ning Kang, Chengyue Wu, Zhenguo Li, Ping Luo (2025). FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities. In NeurIPS 2025 (Spotlight).

PDF Cite Code Project

Quanfeng Lu, Zhantao Ma, Shuai Zhong, Jin Wang, Dahai Yu, Michael K. Ng, Ping Luo (2025). SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control. Preprint.

Xin Dong, Shichao Dong, Jin Wang, Jing Huang, Li Zhou, Zenghui Sun, Lihua Jing, Jingsong Lan, Xiaoyong Zhu, Bo Zheng (2025). INTER: Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling. In ICCV 2025.

Jin Wang, Chenghui Lv, Xian Li, Shichao Dong, Huadong Li, Kelu Yao, Chao Li, Wenqi Shao, Ping Luo (2025). Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models. In CVPR 2025.

PDF Cite Code Dataset Project

Shurong Yang, Huadong Li, Juhao Wu, Minhao Jing, Linze Li, Renhe Ji, Jiajun Liang, Haoqiang Fan, Jin Wang (2025). Megactor-sigma: Unlocking flexible mixed-modal control in portrait animation with diffusion transformer. In AAAI 2025.

Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li (2025). Falcon: A remote sensing vision-language foundation model. Preprint.

Fanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao (2025). MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models. In ICLR 2025.

PDF Cite Code Dataset Project

Huadong Li, Minhao Jing, Jin Wang, Shichao Dong, Jiajun Liang, Haoqiang Fan, Renhe Ji (2024). Sparse Beats Dense: Rethinking Supervision in Radar-Camera Depth Completion. In ECCV 2024.

Huadong Li, Shichao Dong, Jin Wang, Rong Fu, Minhao Jing, Jiajun Liang, Haoqiang Fan, Renhe Ji (2024). Towards RGB-NIR Cross-modality Image Registration and Beyond. Preprint.

Jin Wang, Shichao Dong, Yapeng Zhu, Kelu Yao, Weidong Zhao, Chao Li, Ping Luo (2024). Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View. In ICML 2024.

PDF Cite Code Project

Kelu Yao, Jin Wang, Boyu Diao, Chao Li (2023). Towards Understanding the Generalization of Deepfake Detectors from a Game-Theoretical View. In ICCV 2023.

Shichao Dong, Jin Wang, Renhe Ji, Jiajun Liang, Haoqiang Fan, Zheng Ge (2023). Implicit Identity Leakage: The Stumbling Block to Improving Deepfake Detection Generalization. In CVPR 2023.

PDF Cite Code Poster Slides Video DOI

Shichao Dong, Jin Wang, Jiajun Liang, Haoqiang Fan, Renhe Ji (2022). Explaining Deepfake Detection by Analysing Image Matching. In ECCV 2022.

PDF Cite Code Poster Video DOI

Chao Li, Kelu Yao, Jin Wang, Boyu Diao, Yongjun Xu, Quanshi Zhang (2022). Interpretable Generative Adversarial Networks. In AAAI 2022 (ORAL).

PDF Cite Poster Slides Video DOI