2026年2月,瞿介明教授、周敏教授团队在杂志《npj Digital Medicine》(IF 15.1,Q1)在线发表题名为“A device-invariant multi-modal learning framework for respiratory disease classification” ——“基于多模态学习框架的咳嗽音分析设备用于呼吸道疾病鉴别”的研究论文。
瑞金医院呼吸与危重症医学科瞿介明教授、周敏教授,Luca Healthcare陈思博士、王乾博士为论文的共同通讯作者;Luca Healthcare杨默、瑞金医院呼吸与危重症医学科刘雪菲博士、杜威主治医师为论文的共同第一作者。
doi:10.1038/s41746-026-02445-4.
研究背景
咳嗽是多种呼吸系统疾病的共同症状,其声学特征蕴含丰富的病理信息。近年来,深度学习驱动的咳嗽音分析技术取得突破性进展,使得利用智能手机等设备通过咳嗽音的特征识别不同类型的呼吸道疾病成为可能。相比胸部影像、肺功能检测等传统手段,基于咳嗽声音的分析具有无创、低成本、易推广、适用于远程医疗等优势,为早期呼吸道疾病识别和智能化诊断提供了新的可能。
然而,当前方法仍有局限性:1、设备异质性:不同型号的手机、麦克风采集的声音特征存在差异,导致模型泛化能力差;2、模态单一:仅依赖音频,忽略人口统计学特征和疾病症状等信息,单一模态难以全面建模;3、单标签局限:临床患者常存在多重共病,单标签分类无法反映真实疾病复杂性。因此,该文提出一种设备不变的多模态深度学习框架,通过构建涵盖七种呼吸道疾病、超过10,000例的大规模多中心数据集,融合咳嗽声学特征、人口学数据与症状特征,并引入对抗性训练与不变风险最小化策略,解决设备异质性与多标签分类难题,提升了模型在真实临床环境下的泛化能力。
主要内容及贡献
1.提出设备不变的多模态深度学习框架:本研究提出了一种融合咳嗽声音、人口学数据与症状描述的多模态框架,用于成人呼吸系统疾病的多标签分类。其核心创新包括:①对抗性训练模块;②不变风险最小化(IRM)增强损失;③多标签联合建模。
2.构建大规模多中心真实数据集:团队收集了来自四个独立临床中心、超过10,000例成人门诊患者的真实数据,涵盖七种主要呼吸系统疾病。
3.模型分类性能与泛化能力强:①疾病识别效果优异:在COPD、下呼吸道感染和肺部阴影三类疾病的识别中,AUROC分别达到0.9698、0.8483和0.8720;在七类疾病合并症识别中,整体AUROC达0.8907。②跨设备泛化能力突出:经对抗训练的模型在未见设备上的性能下降幅度远低于非对抗模型,表明其具备良好的设备不变性和稳健性。③多模态协同增益显著:模型消融实验表明,音频是主要贡献模态,融合人口学和症状信息后,模型性能进一步提升,验证了多模态信息互补的有效性。
4.提供轻量化模型提高临床可部署性:论文提供了适用于移动端部署的轻量版本(226M参数),在不显著降低性能的前提下,大幅提升推理效率和内存使用效率,适用于移动设备和边缘计算场景,为社区健康中心、远程医疗平台提供了可扩展的AI筛查工具。
Abstract
Recent advances in cough sound analysis using deep learning techniques enable smartphone-based respiratory disease screening suitable for self-management care in a home setting, yet their utility is limited by device heterogeneity, population diversity, and challenges in multimodal integration. We propose a device-invariant, multimodal deep learning framework that jointly models cough acoustics, demographic data, and symptom descriptions for multi-label classification of adult respiratory diseases. To address the issues of device effect, an adversarial branch is embedded in the audio encoder to enforce device-invariant feature learning, while an invariant risk minimization-augmented loss enhances robustness to non-structural shifts. To evaluate the effectiveness of our proposed method, a real-world, multi-center dataset containing over 10,000 cases spanning seven major respiratory conditions was curated. On the tasks of individual respiratory disease identification for chronic obstructive pulmonary disease (COPD), lower respiratory tract infection (LRTI) and pulmonary shadows (PS), our method achieves superior performance with the area under the receiver operating characteristic curve (AUROC) of 0.9698, 0.8483 and 0.8720, respectively. It also shows promising results in identifying the presence of comorbidities for 7 respiratory diseases with an overall AUROC of 0.8907. More importantly, extensive experimental results demonstrate our method mitigates the issues of device effect and facilitates the cross-device generalization for cough-based respiratory disease diagnoses. This work demonstrates a scalable and transferable AI-based approach for cough-driven respiratory screening, emphasizing the importance of multimodal fusion and robust representation learning in advancing clinical applicability.
中文摘要:
近年来,基于深度学习技术的咳嗽声音分析取得显著进展,使得在家庭环境中通过智能手机进行呼吸系统疾病筛查成为可能,为自我健康管理提供了新途径。然而,该技术的实际应用仍面临设备异构性、人群多样性以及多模态数据融合困难等挑战。我们提出了一种与设备无关的多模态深度学习框架,通过联合建模咳嗽声学特征、人口统计学数据和疾病症状,实现对成人呼吸系统疾病的多标签分类。为解决设备效应问题,我们在音频编码器中嵌入对抗性分支,强制学习与设备无关的特征,同时采用基于不变风险最小化的损失函数增强模型对非结构性数据偏移的鲁棒性。为验证方法的有效性,我们构建了一个包含7种主要呼吸系统疾病、涵盖10,000余例真实病例的多中心数据集。在慢性阻塞性肺病、下呼吸道感染和肺部阴影的单一疾病识别任务中,该方法表现优异,受试者工作特征曲线下面积分别达到0.9698、0.8483和0.8720;在7种呼吸系统疾病合并症识别中,总体AUROC达到0.8907。更重要的是,大量实验结果表明,该方法有效缓解了设备效应问题,提升了基于咳嗽的呼吸系统疾病诊断模型在不同设备间的泛化能力。本研究展示了基于人工智能的咳嗽驱动呼吸系统筛查方法的可扩展性与可迁移性,强调了多模态融合和鲁棒表示学习在推动临床应用中具有关键作用。
作者介绍
瞿介明:主任医师,博士生导师,上海交通大学医学院附属瑞金医院终身教授。上海市呼吸传染病应急防控与诊治重点实验室主任,上海交通大学医学院呼吸病研究所所长,中华医学会呼吸病学分会前任主委,中国医师协会呼吸医师分会候任会长;研究方向:肺部感染及新型治疗策略与技术。
周敏:主任医师,教授,上海交通大学医学院附属瑞金医院呼吸与危重症医学科常务副主任,上海交通大学医学院呼吸病研究所副所长,中华医学会呼吸病学分会慢阻肺学组副组长,上海医学会呼吸病分会委员,上海市科委学科带头人;研究方向:肺部感染、慢性气道疾病。
刘雪菲:博士,上海交通大学医学院附属瑞金医院呼吸与危重症医学科;研究方向:慢阻肺与肺部感染。
杜威:主治医师,上海交通大学医学院附属瑞金医院呼吸与危重症医学科;研究方向:慢性气道疾病的诊治。
陈思:博士, Luca Healthcare 创始人与研发负责人;研究方向:数字生物标记物。
王乾:博士, Luca Healthcare 算法负责人; 研究方向:迁移学习,域适应/泛化,多模态大模型。
特别感谢周敏教授给《呼吸界》的投稿!
* 文章仅供医疗卫生相关从业者阅读参考
本文完
责编:Jerry
