摘要:FSSD (fast and efficient subgroup set discovery)是一种子群发现算法, 旨在短时间内提供多样性模式集, 然而此算法为了减少运行时间, 选择域数量少的特征子集, 当特征子集与目标类不相关或者弱相关时, 模式集质量下降. 针对这个问题, 提出一种基于集成特征选择的FSSD算法, 它在预处理阶段使用基于ReliefF (Relief-F)和方差分析的集成特征选择来获得多样性和相关性强的特征子集, 再使用FSSD算法返回高质量模式集. 在UCI数据集、全国健康和营养调查报告(NHANES)数据集上的实验结果表明, 改进后的FSSD算法提高了模式集质量, 归纳出更有趣的知识. 在NHANES数据集上, 进一步分析模式集的特征有效性和阳性预测值.