本文已被:浏览 1865次 下载 4962次
Received:August 25, 2008
Received:August 25, 2008
中文摘要: 本文在简要介绍PPM数据压缩算法及其改进的基础上,着重论述该算法在垃圾邮件过滤中的应用。首先将样本邮件进行文本预处理,并对正常邮件和垃圾邮件训练集进行训练,分别建立上下文模型;然后输入待过滤邮件,与PPM压缩模型进行比较,分别计算交叉熵以判断邮件类型;最后,测试结果表明,该算法达到较好效果。
中文关键词: 垃圾邮件过滤 PPM数据压缩 上下文模型交叉熵
Abstract:
keywords:
文章编号: 中图分类号: 文献标志码:
基金项目:国家863计划项目(2007AA01Z197)
Author Name | Affiliation |
王海晓 | 浙江大学 计算机学院 浙江 杭州 310027 |
彭鹏 | 浙江大学 计算机学院 浙江 杭州 310027 |
徐从富 | 浙江大学 计算机学院 浙江 杭州 310027 |
Author Name | Affiliation |
王海晓 | 浙江大学 计算机学院 浙江 杭州 310027 |
彭鹏 | 浙江大学 计算机学院 浙江 杭州 310027 |
徐从富 | 浙江大学 计算机学院 浙江 杭州 310027 |
引用文本:
王海晓,彭鹏,徐从富.基于PPM算法的垃圾邮件过滤方法.计算机系统应用,2009,18(3):133-136
.Spam Email Filtering Based on PPM Algorithm.COMPUTER SYSTEMS APPLICATIONS,2009,18(3):133-136
王海晓,彭鹏,徐从富.基于PPM算法的垃圾邮件过滤方法.计算机系统应用,2009,18(3):133-136
.Spam Email Filtering Based on PPM Algorithm.COMPUTER SYSTEMS APPLICATIONS,2009,18(3):133-136