元数据

这就是搜索引擎

书名：这就是搜索引擎

作者：张俊林

简介：本书针对搜索引擎领域相关技术有非常全面性的描述，涉及到了搜索引擎研发中的几乎所有的重要技术点，同时对机器学习排序等学术前沿的研究方向做了总结与归纳，另外，还紧密结合Google等搜索引擎的实际体系结构和算法进行了归纳与分析，是理论与实践结合紧密的书籍。

出版时间： 2012-01-01 00:00:00

ISBN： 9787121148651

分类：计算机-理论知识

出版社：电子工业出版社

PC地址：https://weread.qq.com/web/reader/a28325105a618ea287e580a

高亮划线

1.2 搜索引擎技术发展史

📌 采用链接分析能够有效改善搜索结果质量，但是这种搜索引擎并未考虑用户的个性化要求，所以只要输入的查询请求相同，所有用户都会获得相同的搜索结果。 ⏱ 2022-01-16 09:23:07

1.4 搜索引擎的3个核心问题

📌 搜索引擎需要解决的核心问题，即用户在此时此地发出某个查询，他的真实搜索意图到底是什么。 ⏱ 2022-01-22 11:57:09

📌 信息的可信性 ⏱ 2022-01-22 11:58:09

2.2 优秀爬虫的特性

📌 爬虫禁抓协议（Robot Exclusion Protocol）指的是由网站所有者生成一个指定的文件robot.txt，并放在网站服务器的根目录下，这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。 ⏱ 2022-01-22 15:21:33

2.4 抓取策略

📌 爬虫的抓取策略有很多种，但不论方法如何，其基本目标一致：优先选择重要网页进行抓取。 ⏱ 2022-01-22 15:28:37

📌 是非完全PageRank策略的基本思路：对于已经下载的网页，加上待抓取URL队列中的URL一起，形成网页集合，在此集合内进行PageRank计算，计算完成后，将待抓取URL队列里的网页按照PageRank得分由高到低排序，形成的序列就是爬虫接下来应该依次抓取的URL列表。 ⏱ 2022-01-22 15:29:55

📌 完全PageRank赋予这些新抽取出来但是又没有PageRank值的网页一个临时PageRank值，将这个网页的所有入链传导的PageRank值汇总，作为临时PageRank值 ⏱ 2022-01-22 16:53:14

Quartz 4

Explorer

这就是搜索引擎

元数据

高亮划线

1.2 搜索引擎技术发展史

1.4 搜索引擎的3个核心问题

2.2 优秀爬虫的特性

2.4 抓取策略

读书笔记

本书评论

Graph View

Table of Contents