郑州大学学报(理学版)

2010, v.42(02) 26-30

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Archive) | 高级检索(Advanced Search)

基于主题网络爬虫的不良网页的发现与识别
Unhealthy Webpage Detection Based on Topic-focused Web Crawler

方育柯,傅彦,周俊临,夏虎

摘要(Abstract):

针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.

关键词(KeyWords): 主题网络爬虫;不良网页;文本特征

Abstract:

Keywords:

基金项目(Foundation): 国家自然科学基金资助项目,编号60973120,60903073;; 国家863计划项目,编号2007AA01Z440;; 四川省科技攻关项目,编号2008GZ0009

作者(Author): 方育柯,傅彦,周俊临,夏虎

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享