📝 Publications

Book

Springer 2025

Visual Object Tracking: An Evaluation Perspective
X. Zhao, Shiyu Hu, X. Yin
Springer, Part of the book series: Advances in Computer Vision and Pattern Recognition (ACVPR)
📌 Visual Object Tracking 📌 Intelligent Evaluation Technology
📃 Book

Accept

First Author / Corresponding Author

TPAMI 2023

Global Instance Tracking: Locating Target More Like Humans
Shiyu Hu, X. Zhao, L. Huang, K. Huang
IEEE Transactions on Pattern Analysis and Machine Intelligence (CCF-A Journal)
📌 Visual Object Tracking 📌 Large-scale Benchmark Construction 📌 Intelligent Evaluation Technology
📃 Paper 📑 PDF 🪧 Poster 🌐 Platform 🔧 Toolkit 💾 Dataset

IJCV 2024

SOTVerse: A User-defined Task Space of Single Object Tracking
Shiyu Hu, X. Zhao, K. Huang
International Journal of Computer Vision (CCF-A Journal)
📌 Visual Object Tracking 📌 Dynamic Open Environment Construction 📌 3E Paradigm
📃 Paper 📑 PDF 🪧 Poster 🌐 Platform

IJCV 2024

BioDrone: A Bionic Drone-based Single Object Tracking Benchmark for Robust Vision
X. Zhao, Shiyu Hu✉️, Y. Wang, J. Zhang, Y. Hu, R. Liu, H. Lin, Y. Li, R. Li, K. Liu, J. Li
International Journal of Computer Vision (CCF-A Journal)
📌 Visual Object Tracking 📌 Drone-based Tracking 📌 Visual Robustness
📃 Paper 🌐 Platform 📑 PDF 🔧 Toolkit 💾 Dataset

NeurIPS 2023

A Multi-modal Global Instance Tracking Benchmark (MGIT): Better Locating Target in Complex Spatio-temporal and causal Relationship
Shiyu Hu, D. Zhang, M. Wu, X. Feng, X. Li, X. Zhao, K. Huang
Conference on Neural Information Processing Systems (CCF-A Conference, Poster)
📌 Visual Language Tracking 📌 Long Video Understanding and Reasoning 📌 Hierarchical Semantic Information Annotation
📃 Paper 📃 PDF 🪧 Poster 📹 Slides 🌐 Platform 🔧 Toolkit 💾 Dataset

ICCV 2025

ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking
X. Feng*, Shiyu Hu*, X. Li, D. Zhang, M. Wu, J. Zhang, X. Chen, K. Huang (*Equal Contributions)
International Conference on Computer Vision (CCF-A Conference, Highlight)
📌 Visual Language Tracking 📌 Multimodal Learning 📌 Adaptive Prompts
📃 Paper 📑 PDF

ICRA 2026

MATrack: Efficient Multiscale Adaptive Tracker for Real-Time Nighttime UAV Operations
X. Li*, X. Li*, Shiyu Hu✉️
International Conference on Robotics and Automation (CAAI-A Conference)
📌 Nighttime UAVs Tracking 📌 Multiscale Adaptive Tracker 📌 Visual Object Tracking
📃 Paper 📑 PDF

ICMR 2025

DARTer: Dynamic Adaptive Representation Tracker for Nighttime UAV Tracking
X. Li*, X. Li*, Shiyu Hu✉️
International Conference on Multimedia Retrieval (CCF-B Conference)
📌 Nighttime UAVs Tracking 📌 Dark Feature Blending 📌 Dynamic Feature Activation
📃 Paper 📑 PDF

中国图象图形学报 2023

Visual Intelligence Evaluation Techniques for Single Object Tracking: A Survey (单目标跟踪中的视觉智能评估技术综述)
Shiyu Hu, X. Zhao, K. Huang
Journal of Images and Graphics (《中国图象图形学报》, CCF-B Chinese Journal)
📌 Visual Object Tracking 📌 Intelligent Evaluation Technique 📌 AI4Science
📃 Paper 📑 PDF

IET-CVI 2025

Improved SAR Aircraft Detection Algorithm Based on Visual State Space Models
Y. Wang, J. Zhang, Y. Wang, Shiyu Hu✉️, B. Shen, Z. Hou, W. Zhou
IET Computer Vision (CCF-C Journal)
📌 Synthetic Aperture Radar 📌 State Space Models 📌 Aircraft Object Detection

Collaborator (Arranged in Chronological Order)

CVPR 2026

Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning
X. Li*, X. Li*, Shiyu Hu, K. Huang
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CCF-A Conference)
📌 Video Large Language Models 📌 Video Reasoning 📌 Video Understanding
📃 Paper 📑 PDF

AAAI 2026

CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos
X. Li*, X. Li*, Shiyu Hu, K. Huang, W. Zhang
Proceedings of the AAAI Conference on Artificial Intelligence (CCF-A Conference, Oral)
📌 Video-based QA 📌 Video Reasoning 📌 Video Understanding
📃 Paper 📑 PDF 📹 Slides

AAAI 2026

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains
X. Li*, X. Li*, Shiyu Hu, Y. Guo, W. Zhang
Proceedings of the AAAI Conference on Artificial Intelligence (CCF-A Conference, Oral)
📌 Verifable Reward 📌 Reinforcement Learning
📃 Paper 📑 PDF 📹 Slides

ICLR 2026

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models
X. Feng, H. Yu, M. Wu, Shiyu Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang
International Conference on Learning Representations (CCF-A Conference)
📌 Visual Understanding 📌 Video Generation 📌 Evaluation Technique
📃 Paper 📑 PDF

PR 2026

Tracking by Detection and Query: An Efficient End-to-End Framework for Multi-Object Tracking
S. Jia, Shiyu Hu, Y. Cao, F. Yang, X. Lu, X. Lu
Pattern Recognition (CCF-B Journal)
📌 Multi-object Tracking 📌 Tracking by Detection 📌 Tracking by Query
📃 Paper 📑 PDF

TCSVT 2026

Talk with Your Fingers: A Depth-Aware Benchmark for Air-Writing Recognition
M. Wu, Y. Zhao, X. Li, Shiyu Hu, Y. Cai, J. Wu, W. Wang, K. Huang
IEEE Transactions on Circuits and Systems for Video Technology (CCF-B Journal)
📌 Depth-aware Air-writing 📌 Benchmark Construction 📌 Human-machine Interaction
📃 Paper

TNSE 2026

Constraint-Driven Evolution of Multimodal Video Intelligence: A Network and System Perspectives
X. Li*, X. Li*, Shiyu Hu, Z. Zhang, KH Cheong
IEEE Transactions on Network Science and Engineering
📌 Constraint-driven Video Intelligence 📌Multimodal Understanding and Reasoning
📃 Paper

Mathematics 2026

CalcTutor: Multi-Agent LLM Grading of Handwritten Mathematics with RAG-Grounded Feedback for Adaptive Learning Support
L. Tan, B. Zhu, Shiyu Hu, A. Mishra, Darren J. Yeo, KH Cheong
Mathematics
📌 Adaptive Learning 📌 Multi-agent LLM 📌 Retrieval Augmented Generation

ICML 2025

CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features
X. Feng, D. Zhang, Shiyu Hu, X. Li, M. Wu, J. Zhang, X. Chen, K. Huang
International Conference on Machine Learning (CCF-A Conference, Poster)
📌 Visual Object Tracking 📌 Multi-modal Learning
📃 Paper 📑 PDF

ICASSP 2025

Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
X. Feng, D. Zhang, Shiyu Hu, X. Li, M. Wu, J. Zhang, X. Chen, K. Huang
IEEE International Conference on Acoustics, Speech, and Signal Processing (CCF-B Conference, Poster)
📌 Visual Language Tracking 📌 Multi-modal Learning 📌 Grounding Model
📃 Paper 📃 PDF

C&E:AI 2025

Artificial Intelligence-Enabled Adaptive Learning Platforms: A Review
L. Tan, Shiyu Hu, Darren J. Yeo, KH Cheong
Computers & Education: Artificial Intelligence
📌 Adaptive Learning Platforms 📌 AI for Education 📌 Educational Technology
📃 Paper 📑 PDF

Mathematics 2025

A Comprehensive Review on Automated Grading Systems in STEM Using AI Techniques
L. Tan, Shiyu Hu, Darren J. Yeo, KH Cheong
Mathematics
📌 Automated Grading Systems 📌 AI for Education 📌 Educational Technology
📃 Paper

Innovation and Emerging Technologies 2025

Trustworthy AI in education: Framework, cases, and governance strategies
Y. Ma, X. Li, Shiyu Hu, S. Liu, KH Cheong
Innovation and Emerging Technologies
📌 Trustworthy Artificial Intelligence 📌 Educational Governance 📌 Algorithmic Fairness;
📃 Paper

中国心理卫生杂志 2025

A Review of Intelligent Psychological Assessment Based on Interactive Environment (基于交互环境的智能化心理测评)
K. Huang, Y. Kang, C. Yan, Shiyu Hu, L. Wang, T. Tao, W. Gao
Chinese Mental Health Journal (《中国心理卫生杂志》, CSSCI Journal, Top Psychological Journal in China)
📌 Psychological Assessment System 📌 Gamified Assessment 📌 AI4Science

NeurIPS 2024

Beyond Accuracy: Tracking more like Human via Visual Search
D. Zhang, Shiyu Hu, X. Feng, X. Li, M. Wu, J. Zhang, K. Huang
Conference on Neural Information Processing Systems (CCF-A Conference, Poster)
📌 Visual Object Tracking 📌 Visual Search Mechanism 📌 Visual Turing Test
📃 Paper 📑 PDF

NeurIPS 2024

MemVLT: Vision-Language Tracking with Adaptive Memory-based Prompts
X. Feng, X. Li, Shiyu Hu, D. Zhang, M. Wu, J. Zhang, X. Chen, K. Huang
Conference on Neural Information Processing Systems (CCF-A Conference, Poster)
📌 Visual Language Tracking 📌 Human-like Memory Modeling 📌 Adaptive Prompts
📃 Paper 📑 PDF

ICASSP 2024

Robust Single-particle Cryo-EM Image Denoising and Restoration
J. Zhang, T. Zhao, Shiyu Hu, X. Zhao
IEEE International Conference on Acoustics, Speech, and Signal Processing (CCF-B Conference, Poster)
📌 Medical Image Processing 📌 AI4Science 📌 Diffusion Model
📃 Paper 📑 PDF

TCSVT 2024

Finger in Camera Speaks Everything: Unconstrained Air-Writing for Real-World
M. Wu, K. Huang, Y. Cai, Shiyu Hu, Y. Zhao, W. Wang
IEEE Transactions on Circuits and Systems for Video Technology (CCF-B Journal)
📌 Air-writing Technique 📌 Benchmark Construction 📌 Human-machine Interaction
📃 Paper 📃 PDF 🔧 Toolkit

PRCV 2024

VS-LLM: Visual-Semantic Depression Assessment based on LLM for Drawing Projection Test
M. Wu, Y. Kang, X. Li, Shiyu Hu, X. Chen, Y. kang, W. Wang, K. Huang
Chinese Conference on Pattern Recognition and Computer Vision (CCF-C Conference)
📌 Psychological Assessment System 📌 Gamified Assessment 📌 AI4Science
📃 Paper 📃 PDF

PRCV 2023

A Hierarchical Theme Recognition Model for Sandplay Therapy
X. Feng, Shiyu Hu, X. Chen, K. Huang
Chinese Conference on Pattern Recognition and Computer Vision (CCF-C Conference, Poster)
📌 Psychological Assessment System 📌 Gamified Assessment 📌 AI4Science
📃 Paper 📑 PDF 🔖 Supplementary 🪧 Poster

CSAI 2023

Rethinking Similar Object Interference in Single Object Tracking
Y. Wang, Shiyu Hu, X. Zhao
International Conference on Computer Science and Artificial Intelligence (EI Conference, Oral)
📌 Visual Object Tracking 📌 Similar Object Interference 📌 Data Mining
📃 Paper 🗒 bibTex 📑 PDF

Neurocomputing 2022

Revisiting Instance Search: A New Benchmark Using Cycle Self-training
Y. Zhang, C. Liu, W. Chen, X. Xu, F. Wang, H. Li, Shiyu Hu, X. Zhao
Neurocomputing (CCF-C Journal)
📌 Video Instance Search 📌 Benchmark Construction 📌 Data Mining
📃 Paper 📑 PDF 🌐 Project

图学学报 2021

Visual Turing: The Next Development of Computer Vision in The View of Human-computer Gaming (视觉图灵：从人机对抗看计算机视觉下一步发展)
K. Huang, X. Zhao, Q. Li, Shiyu Hu
Journal of Graphics (《图学学报》, CCF-C Chinese Journal)
📌 Visual Object Tracking 📌 Intelligent Evaluation Technique 📌 AI4Science
📃 Paper 📑 PDF

Workshop

AAAIW 2026 Learning to Be Taught: A Structured SOEI Framework for Modeling and Evaluating Personality-Aligned Virtual Student Agents, Y. Ma*, Shiyu Hu*, X. Li, Y. Wang, Y. Chen, S. Liu, KH Cheong (*Equal Contributions), the AI for Education Workshop in the 40th Annual AAAI Conference on Artificial Intelligence (Workshop in CCF-A Conference), 📹 Slides
AAAIW 2026 Redefining Educational Simulation: EduVerse as a User-Defined and Developmental Multi-Agent Simulation Space, Y. Ma*, Shiyu Hu*, B. Zhu, Y. Wang, Y. Kang, S. Liu, KH Cheong (*Equal Contributions), the AI for Education Workshop in the 40th Annual AAAI Conference on Artificial Intelligence (Workshop in CCF-A Conference), 📹 Slides
AAAIW 2026 From Objective to Subjective: A Benchmark for Virtual Student Abilities, B. Zhu*, Shiyu Hu*, Y. Ma, Y. Zhang, KH Cheong (*Equal Contributions), the AI for Education Workshop in the 40th Annual AAAI Conference on Artificial Intelligence (Workshop in CCF-A Conference), 📹 Slides
CVPRW 2024 Diverse Text Generation for Visual Language Tracking Based on LLM, X. Li, X. Feng, Shiyu Hu, M. Wu, D. Zhang, J. Zhang, K. Huang, the 3rd Workshop on Vision Datasets Understanding and DataCV Challenge in CVPR 2024 (Workshop in CCF-A Conference, Oral, Best Paper Honorable Mention), 📃 Paper 📃 PDF 🪧 Poster 📹 Slides 🌐 Platform 🔧 Toolkit 💾 Dataset 🏆 Award

Preprint

FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning
Shiyu Hu*, X. Li*, X. Li, J. Zhang, Y. Wang, X. Zhao, KH Cheong (*Equal Contributions)
📌 Large Vision-Language Models 📌 Video Caption 📌 Video Understanding
📃 Paper 📑 PDF 🌐 Project

Preprint

When LLMs Learn to be Students: The SOEI Framework for Modeling and Evaluating Virtual Student Agents in Educational Interaction
Y. Ma*, Shiyu Hu*, X. Li, Y. Wang, Y. Chen, S. Liu, KH Cheong (*Equal Contributions)
📌 AI4Education 📌 LLMs 📌 LLM-based Agent
📃 Paper 📑 PDF

Preprint

EduVerse: A User-Defined Multi-Agent Simulation Space for Education Scenario
Y. Ma*, Shiyu Hu*, B. Zhu, Y. Wang, Y. Kang, S. Liu, KH Cheong (*Equal Contributions)
📌 AI4Education 📌 LLMs 📌 LLM-based Agent
📃 Paper 📑 PDF

Preprint

EduPersona: Benchmarking Subjective Ability Boundaries of Virtual Student Agents
B. Zhu*, Shiyu Hu*, Y. Ma, Y. Zhang, KH Cheong (*Equal Contributions)
📌 AI4Education 📌 LLMs 📌 LLM-based Agent
📃 Paper 📑 PDF

Preprint

SOI is the Root of All Evil: Quantifying and Breaking Similar Object Interference in Single Object Tracking
Y. Wang*, Shiyu Hu*, S. Jia, P. Xu, H. Ma, Y. Ma, J. Zhang, X. Lu, X. Zhao (*Equal Contributions)
📌 Visual Object Tracking 📌 Similar Object Interference 📌 Multimodal Learning
📃 Paper 📑 PDF

Preprint

How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
X. Li*, Shiyu Hu*, X. Feng, D. Zhang, M. Wu, J. Zhang, K. Huang (*Equal Contributions)
📌 Visual Language Tracking 📌 Multimodal Learning 📌 Evaluation Technique
📃 Paper 📑 PDF

Preprint

DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM
X. Li, Shiyu Hu, X. Feng, D. Zhang, M. Wu, J. Zhang, K. Huang
📌 Visual Language Tracking 📌 Large Language Model 📌 Evaluation Technique
📃 Paper 📑 PDF 🌐 Project

Preprint

Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
X. Li, Shiyu Hu, X. Feng, D. Zhang, M. Wu, J. Zhang, K. Huang
📌 Visual Language Tracking 📌 Multi-modal Interaction 📌 Evaluation Technology
📃 Paper 📑 PDF 🌐 Project

Preprint

Look Less, Reason More: Rollout-Guided Adaptive Pixel-Space Reasoning
X. Li*, X. Li*, J. Gao, R. Pi, Shiyu Hu, W. Zhang
📌 Thinking-with-Image 📌 Vision-Language Models 📌 Pixel Reasoning
📃 Paper 📑 PDF

Preprint

Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
X. Li*, X. Li*, R. Pi, Shiyu Hu, J. Zhao,J. Gao
📌 Thinking-with-Image 📌 Vision-Language Models 📌 Agentic Models
📃 Paper 📑 PDF

Preprint

Nearing or Surpassing: Overall Evaluation of Human-Machine Dynamic Vision Ability
Shiyu Hu, X. Zhao, Y. Wang, Y. Shan, K. Huang
📌 Visual Object Tracking 📌 Intelligent Evaluation Technique 📌 AI4Science
📑 PDF