元数据

这就是搜索引擎

  •  这就是搜索引擎|200
  • 书名: 这就是搜索引擎
  • 作者: 张俊林
  • 简介: 本书针对搜索引擎领域相关技术有非常全面性的描述,涉及到了搜索引擎研发中的几乎所有的重要技术点,同时对机器学习排序等学术前沿的研究方向做了总结与归纳,另外,还紧密结合Google等搜索引擎的实际体系结构和算法进行了归纳与分析,是理论与实践结合紧密的书籍。
  • 出版时间: 2012-01-01 00:00:00
  • ISBN: 9787121148651
  • 分类: 计算机-理论知识
  • 出版社: 电子工业出版社
  • PC地址:https://weread.qq.com/web/reader/a28325105a618ea287e580a

高亮划线

1.2 搜索引擎技术发展史

📌 采用链接分析能够有效改善搜索结果质量,但是这种搜索引擎并未考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会获得相同的搜索结果。 ⏱ 2022-01-16 09:23:07

1.4 搜索引擎的3个核心问题

📌 搜索引擎需要解决的核心问题,即用户在此时此地发出某个查询,他的真实搜索意图到底是什么。 ⏱ 2022-01-22 11:57:09

📌 信息的可信性 ⏱ 2022-01-22 11:58:09

2.2 优秀爬虫的特性

📌 爬虫禁抓协议(Robot Exclusion Protocol)指的是由网站所有者生成一个指定的文件robot.txt,并放在网站服务器的根目录下,这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。 ⏱ 2022-01-22 15:21:33

2.4 抓取策略

📌 爬虫的抓取策略有很多种,但不论方法如何,其基本目标一致:优先选择重要网页进行抓取。 ⏱ 2022-01-22 15:28:37

📌 是非完全PageRank策略的基本思路:对于已经下载的网页,加上待抓取URL队列中的URL一起,形成网页集合,在此集合内进行PageRank计算,计算完成后,将待抓取URL队列里的网页按照PageRank得分由高到低排序,形成的序列就是爬虫接下来应该依次抓取的URL列表。 ⏱ 2022-01-22 15:29:55

📌 完全PageRank赋予这些新抽取出来但是又没有PageRank值的网页一个临时PageRank值,将这个网页的所有入链传导的PageRank值汇总,作为临时PageRank值 ⏱ 2022-01-22 16:53:14

读书笔记

本书评论