当前位置: 网站首页 > IT资讯

PDF搜索工具内是不是也有一个“爬虫”?

时间:1970-1-1 08:33:31来源: IT资讯作者:admin 点击:0次 字体 [ С]

  “Filter”这个英文单词直译为过滤、搜索。提到“搜索”,大家立马联想到的就是——搜索引擎,因为百度、google等知名搜索引擎的广泛运用,为用户提供检索服务,极大地方便了网民对互联网的运用。据数据显示,中国4亿的网民平均每人每天至少有3次需要用到搜索引擎。可见,搜索功能的运用早已是大势所趋。

  以百度为例,百度的搜索引擎工具是一种全文搜索引擎。通过自己的网页抓取程序,俗称“爬虫”或“蜘蛛”,顺着互联网网页中的超链接连续地抓取网页,并提取信息建立网页数据库。当搜索引擎抓到网页后,再做大量的预处理工作,像是提取关键字等,再提供检索服务。当用户输入检索的信息,搜索引擎便从索引数据库中找到匹配该关键字的网页。基本上这种全文的搜索引擎的工作流程是:“爬虫”爬取网页信息——处理网页信息,提取关键字等——搜索时,匹配关键字的网页信息。

发表评论
验证码:
最新评论
相关文章
最热文章