基于主题网络爬虫的不良网页的发现与识别Unhealthy Webpage Detection Based on Topic-focused Web Crawler
方育柯,傅彦,周俊临,夏虎
摘要(Abstract):
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.
关键词(KeyWords): 主题网络爬虫;不良网页;文本特征
基金项目(Foundation): 国家自然科学基金资助项目,编号60973120,60903073;; 国家863计划项目,编号2007AA01Z440;; 四川省科技攻关项目,编号2008GZ0009
作者(Author): 方育柯,傅彦,周俊临,夏虎
参考文献(References):
- [1]姜帆,张霁雪.我国政府对互联网的管制[J].财经界:下半月,2006(12):75-81.
- [2]张永奎,李东艳.互联网中非法文本特征分析及其属性预选取新方法[J].计算机应用,2004,24(4):114-115.
- [3]陈平,刘晓霞,李亚军.文本分类中改进型互信息特征选择的研究[J].微电子学与计算机,2008,25(6):194-196.
- [4]Page L,Brin S.The PageRank citation ranking:bringing order to the Web[EB/OL].[2009-11-01].http://www.db.stanford.edu/~backup/PageRanksub.ps.
- [5]Arasu A,Novak J,Tomkins A,et al.PageRank computation and the structure of the Web:experiments and algorithms[EB/OL].[2010-03-01].http://citeseerx.ist.psu.edu/viewdoc/summary?doi=?doi=10.1.1.18.5264.
- [6]Ester M,Gross M,Kriegel H P.Focused Web crawling:a generic framework for specifying the use interest and for a-daptive crawling strategies[EB/OL].[2010-01-11].http://www.dbs.informatik.uni-muenchen.de/~ester/papers/VLDB2001.submitted.pdf.
- [7]Arasu A,Cho J,Garcia-Molina H,et al.Searching the Web[J].ACM Transactions on Internet Technology,2002,1(1):1-42.