摘要:不良文本识别的实际应用中, 大多数文本之间总有交界甚至彼此掺杂, 这种非线性不可分问题给不良文本识别带来了难度. 应用SVM通过非线性变换可以使原空间转化为某个高维空间中的线性问题, 而选择合适的核函数是SVM的关键. 由于单核无法兼顾对独立的不良词汇和词汇组合的识别, 使识别准确率不高, 而且也无法兼顾召回率. 针对不良文本识别的特定应用, 依据Mercer定理结合线性核与多项式核提出了一种新的组合核函数, 这种组合核函数能兼顾线性核与多项式核的优势, 能够实现对独立的不良词汇以及词汇组合进行识别. 在仿真实验中评估了线性核、齐次多项式核以及组合核函数, 实验结果表明组合核函数的识别准确率与召回率都比较理想.