Publications: Yinghao Ma

Xue L, Zhou Z, Pan J, Li Z, Fan S, Ma Y, Cheng S, Yang D et al. ( 2026 ) . Audio-FLAN: An Instruction-Following Dataset for Unified Audio Understanding and Generation of Speech, Music, and Sound .

10.48550/arxiv.2502.16584

Li C, Chen Y, Ji Y, Xu J, Cui Z, Li S, Zhang Y, Tang J et al. ( 2026 ) . OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs .

10.48550/arxiv.2510.10689

https://qmro.qmul.ac.uk/xmlui/handle/123456789/125032

Ma Y, Xia H, Gao H, Chen W, Ye Y, Yang Y, Chang S, Ding M et al. ( 2026 ) . CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction .

10.48550/arxiv.2603.00610

Jiang X, Wang Q, Wu J, He X, Xu Z, Ma Y, Piao M, Yang K et al. ( 2026 ) . AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking .

10.48550/arxiv.2601.17645

Ma Z, Yang G, Chen W, Gao Z, Du Y, Li X, Zheng Z, Zhu H et al. ( 2026 ) . SLAM-LLM: A Modular, Open-Source Multimodal Large Language Model Framework and Best Practice for Speech, Language, Audio and Music Processing . IEEE Journal of Selected Topics in Signal Processing vol. 20 , ( 1 ) 63 - 76 .

10.1109/jstsp.2026.3653157

Li Y, Ma Y, Zhang G, Yuan R, Zhu K, Guo H, Liang Y, Liu J et al. ( 2025 ) . OmniBench: Towards The Future of Universal Omni-Language Models .

10.48550/arxiv.2409.15272

https://qmro.qmul.ac.uk/xmlui/handle/123456789/113994

Ma Y, Xia H, Chen W, Taheri T, Chang S, Gao H, Yuan R, Ding M et al. ( 2025 ) . A Comprehensive Music Interaction Platform for Evaluating Music Generation Models . Conference: DMRN+20 Digital Music Research Network One-day Workshop 2025 ( King’s College London (Bush House). London, UK ) from: 16/12/2025 to: 16/12/2025 ,

Ma Y, Li Y, Benetos E, Lin C ( 2025 ) . Controlled Genre-Specific Music Generation: Fine-Tuning with Predictive Data Mixture Optimization . Conference: DMRN+20 Digital Music Research Network One-day Workshop 2025 ( King’s College London (Bush House). London, UK ) from: 16/12/2025 to: 16/12/2025 ,

https://qmro.qmul.ac.uk/xmlui/handle/123456789/122842

Taheri T, Ma Y, Benetos E ( 2025 ) . SAR-LM: Symbolic Audio Reasoning with Large Language Models . Conference: DMRN+20 Digital Music Research Network One-day Workshop 2025 ( King’s College London (Bush House). London, UK ) from: 16/12/2025 to: 16/12/2025 ,

Tang X, Lei X, Zhu C, Chen S, Yuan R, Li Y, Oh C, Zhang G et al. ( 2025 ) . AutoMV: An Automatic Multi-Agent System for Music Video Generation .

10.48550/arxiv.2512.12196

Taheri T, Ma Y, Benetos E ( 2025 ) . SAR-LM: Symbolic Audio Reasoning with Large Language Models .

10.48550/arxiv.2511.06483

Ma Y, Li S, Yu J, Benetos E, Maezawa A ( 2025 ) . CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following . Conference: 26th International Society for Music Information Retrieval Conference (ISMIR) ( Daejeon, Korea ) from: 21/09/2025 to: 25/09/2025 ,

https://qmro.qmul.ac.uk/xmlui/handle/123456789/107957

Yuan R, Lin H, Guo S, Zhang G, Pan J, Zang Y, Liu H, Liang Y et al. ( 2025 ) . YuE: Scaling Open Foundation Models for Long-Form Music Generation .

10.48550/arxiv.2503.08638

https://qmro.qmul.ac.uk/xmlui/handle/123456789/125031

Ma Y, Li S, Yu J, Benetos E, Maezawa A ( 2025 ) . CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following .

10.48550/arxiv.2506.12285

Ma Z, Ma Y, Zhu Y, Yang C, Chao Y-W, Xu R, Chen W, Chen Y et al. ( 2025 ) . MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix .

10.48550/arxiv.2505.13032

https://qmro.qmul.ac.uk/xmlui/handle/123456789/113995

Qu X, Bai Y, Ma Y, Zhou Z, Lo KM, Liu J, Yuan R, Min L et al. ( 2024 ) . MuPT: A Generative Symbolic Music Pretrained Transformer .

10.48550/arxiv.2404.06393

https://qmro.qmul.ac.uk/xmlui/handle/123456789/106408

Yuan R, Lin H, Wang Y, Tian Z, Wu S, Shen T, Zhang G, Wu Y et al. ( 2024 ) . ChatMusician: Understanding and Generating Music Intrinsically with LLM . Conference: 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024) ( Bangkok, Thailand ) from: 11/08/2024 to: 16/08/2024 ,

10.18653/v1/2024.findings-acl.373

https://qmro.qmul.ac.uk/xmlui/handle/123456789/97871

Zhuo L, Yuan R, Pan J, Ma Y, LI Y, Zhang G, Liu S, Dannenberg R et al. ( 2024 ) . LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT .

10.48550/arxiv.2306.17103

https://qmro.qmul.ac.uk/xmlui/handle/123456789/90411

Li Y, Yuan R, Zhang G, Ma Y, Chen X, Yin H, Xiao C, Lin C et al. ( 2024 ) . MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training . Conference: International Conference on Learning Representations (ICLR) ( Vienna, Austria ) from: 07/05/2024 to: 11/05/2024 ,

https://qmro.qmul.ac.uk/xmlui/handle/123456789/95146

Deng Q, Yang Q, Yuan R, Huang Y, Wang Y, Liu X, Tian Z, Pan J et al. ( 2024 ) . ComposerX: Multi-Agent Symbolic Music Composition with LLMs .

10.48550/arxiv.2404.18081

https://qmro.qmul.ac.uk/xmlui/handle/123456789/98627

Li D, Ma Y, Wei W, Kong Q, Wu Y, Che M, Xia F, Benetos E et al. ( 2024 ) . Mertech: Instrument Playing Technique Detection Using Self-Supervised Pretrained Model with Multi-Task Finetuning . Conference: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) vol. 00 , 521 - 525 .

10.1109/icassp48485.2024.10447445

https://qmro.qmul.ac.uk/xmlui/handle/123456789/93901

Deng Z, Ma Y, Liu Y, Guo R, Zhang G, Chen W, Huang W, Benetos E ( 2024 ) . MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response . Conference: Findings of the Association for Computational Linguistics: NAACL 20243643 - 3655 .

10.18653/v1/2024.findings-naacl.231

https://qmro.qmul.ac.uk/xmlui/handle/123456789/96229

Yuan R, Ma Y, Li Y, Zhang G, Chen X, Yin H, Zhuo L, Liu Y et al. ( 2023 ) . MARBLE: Music Audio Representation Benchmark for Universal Evaluation .

10.48550/arxiv.2306.10548

https://qmro.qmul.ac.uk/xmlui/handle/123456789/93083

Li D, Ma Y, Wei W, Kong Q, Wu Y, Che M, Xia F, Benetos E et al. ( 2023 ) . MERTech: Instrument Playing Technique Detection Using Self-Supervised Pretrained Model With Multi-Task Finetuning .

10.48550/arxiv.2310.09853

https://qmro.qmul.ac.uk/xmlui/handle/123456789/93901

Deng Z, Ma Y, Liu Y, Guo R, Zhang G, Chen W, Huang W, Benetos E ( 2023 ) . MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response .

10.48550/arxiv.2309.08730

https://qmro.qmul.ac.uk/xmlui/handle/123456789/96229

Ma Y, Yuan R, Li Y, Zhang G, Chen X, Yin H, Lin C, Benetos E et al. ( 2023 ) . On the Effectiveness of Speech Self-supervised Learning for Music .

10.48550/arxiv.2307.05161

https://qmro.qmul.ac.uk/xmlui/handle/123456789/90410

Miller J, Lewis D, Guo Z, Li Y, Ma Y, Vahidi C, Boon H, Wolstanholme L et al. ( 2022 ) . DMRN+17: Digital Music Research Network One-day Workshop 2022 . Conference: DMRN+17: Digital Music Research Network One-day Workshop 2022 ( Queen Mary Univeristy of London ) from: 20/12/2022 to: 20/12/2022 ,

https://qmro.qmul.ac.uk/xmlui/handle/123456789/88838

Li Y, Yuan R, Zhang G, Ma Y, Lin C, Chen X, Ragni A, Yin H et al. ( 2022 ) . Large-Scale Pretrained Model for Self-Supervised Music Audio Representation Learning . Conference: DMRN+17: Digital Music Research Network One-day Workshop 2022 ( London, UK ) from: 20/12/2022 to: 20/12/2022 ,

https://qmro.qmul.ac.uk/xmlui/handle/123456789/83372

Li Y, Yuan R, Zhang G, Ma Y, Lin C, Chen X, Ragni A, Yin H et al. ( 2022 ) . MAP-Music2Vec: A Simple and Effective Baseline for Self-Supervised Music Audio Representation Learning .

10.48550/arxiv.2212.02508

Hu J, Cheng Z, MA Y, Dixit S, Pan B, Chen L, Ma L, Zeng Z et al. . From Static Perception to Interactive Decision: A Survey of Multimodal Reasoning .

https://qmro.qmul.ac.uk/xmlui/handle/123456789/125896

Ma Y, Gamper H . Toward Instruction-Guided Interactive Low-Latency Generation for Acoustic Music . Conference: 23rd Sound and Music Computing Conference and Winter School ( Zagreb (Croatia) )

Global main menu

Areas of study

Study at Queen Mary

Experience Queen Mary

Research and Innovation

Research by faculties and centres

Collaborations and partnerships

Publications: Mr Yinghao Ma