摘要:随着电子健康档案(EHR)的普及, 相似患者检索已成为支持辅助诊断和制定治疗计划等临床决策的重要任务. 然而, EHR 数据具有高维度、异构性且数量大的特点. 为了有效整合多模态临床数据并实现高效检索, 本文提出了一种基于深度哈希的多模态临床数据相似病例检索模型——MCDF. 该模型根据不同模态数据的特性, 将结构化文本数据、非结构化文本数据、和图像数据分别使用多层感知机(multi-layer perceptron, MLP)模型、BioBERT、BioMedCLIP进行特征提取, 并通过自注意力机制模块进行特征融合. 利用三元组损失函数引导模型直接生成能够有效代表样本的哈希码, 通过哈希码快速比对实现样本检索, 不仅能提高检索的准确性, 还能显著提升检索效率. 本文基于公开数据集MIMIC-III, 采用归一化折扣累计收益均值(MNDCG)和均值平均精度(MAP)作为评价指标, 将MCDF模型与传统哈希方法(如spectral hashing)和先进哈希方法(如deep hashing network)进行比较. 实验结果显示, MCDF模型的表现优于所有基线模型, 验证了本文提出模型的优越性.