《现代电子技术》2006年第24期摘录:2006年第24期总第239于
-
如发现有乱码,请点击下面链接浏览原文
正文摘录:
2006年第24期总第239于将合法邮件误判为垃圾邮件的损失要远大于将垃圾邮件判为合法邮件的损失,则当t<1时,即将其判为合法邮件,而若t>999,将其判为垃圾邮件,并对此邮件停止计算,否则继续下一次t:。虽然看起来此种算法会导致计算量的增大,但是由于经过每一次筛选后,可疑邮件的数量会急剧衰减,则仍可保证算法的效率。3算法性能分析为了准确地评价此算法的好坏,此处引入2个性能指标,误报率R。和漏报率R。。:R。,,R…。”一s为将合法邮件判为垃圾邮件的数量;n。一。为将垃圾邮件判为合法邮件的数量;num(L)为实际的合法邮件的数量;num(S)为实际垃圾邮件的数量。在获取一定数量邮件样本后,可以通过防真实验,得出以下可以反映算法性能的误报率R。和漏报率R…的参数对比曲线图。其中在传统贝叶斯方法中,仅用期望交叉熵作为评估函数。由图1新老算法关于误报率的对比曲线图20003000400050006000700080009000100001100012000图可以得出,在具有相同邮件样本条件下,新方法的误报率和漏报率都可明显降低。4结语本文为减少在垃圾邮件过滤中产生的误报率和漏报率的损失,首先基于期望交叉熵及互信息函数而提出新的评估函数,此评估函数可从学习集中获取对邮件分类更具价值的特征项,为后续的过滤算法打好了基础。而后又提出了基于贝叶斯公式的最小损失垃圾邮件过滤算法。仿真实验说明此整套方法可克服传统贝叶斯算法中误报率和漏报率较高的缺点。参考文献[1]YounghwaLee.ThecAN—SPAMAct:ASilverBulletSo—lution[J].CommunicationsoftheACM,2005,48(6):131—132.[2]IonAndroutsopoulos,JohnKoutsias,KonstantinosV.AnExperimentalComparisonofNaiveBayesianandKeywordbasedAnti——spamFilteringwithPersonalE——mailMessa—.ges.AnnualACMConferenceonResearchandDevelopmentinInformationRetrieval,2000:160—167.[33DanielGrossman,PedroDomingos.LearningBayesianNetworkClassifiersbyMaximizingConditionalLikelihood.ACMInternationalConferenceProceedingSeries,2004,69.[4]DruckerH,wuDonghui,VapnikVN.SupportVectorMa—chinesforSpamCategorization.IEEETransactionsonNeu—ralNeworks,1999,10(5):1048—1054.[5]AndroutsopoulosI,PaliourasG.LearningtOFilterSpamEmail:AComparisonofaNaiveBayesianandaMemory--一basedApproach.In:Proc.oftheWorkshopMachineLearn—ingandTextualInformationAccess.4thEuropeanConf.onPKDD一2000.France,2000.E6]李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究I-j].清华大学学报,2001(7):98—101.[7]詹川,卢显良,周旭,等.基于贝叶斯公式的垃圾邮件过滤方法[J].计算机科学,2005(2):73—75.L8]刘震,余垄,周明天.基于多级属性集的垃圾邮件过滤技术[J].计算机应用研究,2005(7):122—124.[9]丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005(18):127—130.图2新老算法关于漏报率的对比曲线图作者简介谢金晶女,1985年出生,武汉大学计算机学院本科生。张艺濒女,1985年出生,武汉大学计算机学院本科生。·…0¨【’’ll¨I—w_l¨。’H¨l-一’’l【¨”’”ll¨a’㈨…·0…¨‘__¨((tin代电子技市》(半月刊)欢迥投稿029--85398771磊五童一
公司名称:《现代电子技术》杂志
商品品牌:《现代电子技术》杂志
阅读此文(图):
点击此处在线翻阅