摘要:西班牙语(以下简称西语)是仅次于汉语的世界第二大母语语言, 是联合国6种官方语言之一. 西语复杂的词形变化和语法规则, 导致C-value等经典的词语提取方法的效果无法保证, 进而影响基于西语文本挖掘的效果. 因此, 本文研究西语文本词语提取方法, 为西语文本的结构化建模提供完备的词库. 给定待分析的西班牙语文本, 该方法分3步提取得到词语集合: 文本预处理、候选词语提取和DC-value成词度计算. 其中, 前两步所得的候选词语集合可直接用作文本挖掘的词库; 第三步所得的候选词语成词度可辅助判断候选词语成词的可能性, 减轻人工判断的工作量. 实验结果表明, 本文方法自动提取的西文词语集合的准确率达到80%, 且召回率远高于经典方法, 能够为西语文本挖掘提供有效的词库.