摘要:众多基因生物标志物选择方法常因研究样本较少而不能直接用于临床诊断. 于是有学者提出整合不同基因表达数据同时保留生物信息完整性的方法. 然而, 由于存在批量效应, 导致直接整合不同基因表达数据可能会增加新的系统误差. 针对上述问题, 提出一个融合自主学习与SCAD-Net正则化的分析框架. 一方面, 自主学习方法能够先从低噪声样本中学习出基础模型, 然后再通过高噪声样本学习使得模型更加稳健, 从而避免批量效应; 另一方面, SCAD-Net正则化融合了基因表达数据与基因间的交互信息, 可以实现更好的特征选择效果. 不同情形下的模拟数据以及在乳腺癌细胞系数据集上的结果表明, 基于自主学习与SCAD-Net正则化的回归模型在处理高维复杂网络数据集时具有更好的预测效果.