元数据
这就是搜索引擎
- 书名: 这就是搜索引擎
- 作者: 张俊林
- 简介: 本书针对搜索引擎领域相关技术有非常全面性的描述,涉及到了搜索引擎研发中的几乎所有的重要技术点,同时对机器学习排序等学术前沿的研究方向做了总结与归纳,另外,还紧密结合Google等搜索引擎的实际体系结构和算法进行了归纳与分析,是理论与实践结合紧密的书籍。
- 出版时间: 2012-01-01 00:00:00
- ISBN: 9787121148651
- 分类: 计算机-理论知识
- 出版社: 电子工业出版社
- PC地址:https://weread.qq.com/web/reader/a28325105a618ea287e580a
高亮划线
1.2 搜索引擎技术发展史
📌 采用链接分析能够有效改善搜索结果质量,但是这种搜索引擎并未考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会获得相同的搜索结果。 ⏱ 2022-01-16 09:23:07
1.4 搜索引擎的3个核心问题
📌 搜索引擎需要解决的核心问题,即用户在此时此地发出某个查询,他的真实搜索意图到底是什么。 ⏱ 2022-01-22 11:57:09
📌 信息的可信性 ⏱ 2022-01-22 11:58:09
2.2 优秀爬虫的特性
📌 爬虫禁抓协议(Robot Exclusion Protocol)指的是由网站所有者生成一个指定的文件robot.txt,并放在网站服务器的根目录下,这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。 ⏱ 2022-01-22 15:21:33
2.4 抓取策略
📌 爬虫的抓取策略有很多种,但不论方法如何,其基本目标一致:优先选择重要网页进行抓取。 ⏱ 2022-01-22 15:28:37
📌 是非完全PageRank策略的基本思路:对于已经下载的网页,加上待抓取URL队列中的URL一起,形成网页集合,在此集合内进行PageRank计算,计算完成后,将待抓取URL队列里的网页按照PageRank得分由高到低排序,形成的序列就是爬虫接下来应该依次抓取的URL列表。 ⏱ 2022-01-22 15:29:55
📌 完全PageRank赋予这些新抽取出来但是又没有PageRank值的网页一个临时PageRank值,将这个网页的所有入链传导的PageRank值汇总,作为临时PageRank值 ⏱ 2022-01-22 16:53:14