寻找 w 开头的全球书籍搜索网站

Table of Contents generated with DocToc

0. 摘要

一开始将 w 联想成 world 的缩写,在 Google 结合 intitle: world、inurl: www.world、“”、-amazon,检索 book information,注意到了 worldcat,并且发现 worldcat 被 Zotero Translater 收录。然后去zotero/translators: Zotero Translators查找 w 开头的网站,发现只有 worldcat 符合。用 worldcat 网站的功能和 Wikipedia 介绍,来检验答案。

1. 背景

ch0 检索实操题:有一个 w 开头的网站,可以搜索全球书籍信息。尝试找到这个网站,并记录你的检索时间和过程。完成 300 字左右的信息分析报告。

2. 分析过程

2.1 三种思路

  • Google搜索:世界书籍信息网站,并不断调整中文关键词,尤其要用非逻辑排除豆瓣、亚马逊等网站

  • Google搜索:世界书籍信息网站 AND "w*",并不断调整中文关键词

  • Google 搜索:world book information AND "w*",并不断调整关键词

2.2 具体步骤

  1. 明确检索目的:根据题目可获得两个信息:全球书籍信息网站、以 w 开头的网站
  2. 选择检索工具:因为搜索对象是网站,所以选择用 Google Search 搜索
  3. 确定关键词:推测 “w” 是 “world” 的缩写,因此尝试搜索:世界书籍信息网站
  4. 筛选检索结果:检索第一条是World Digital Library Home,资源不多,感觉不是特别满意
  5. 调整检索策略:由于第一页的其他条目几乎不相关,直接跳到思路三,用英文搜索
  6. 进行下一次检索:一次尝试
    1. 尝试锁定标题含“world”,Google检索:book information intitle: world,第一页得到World Book Encyclopedia 2018The World Book encyclopedia. (图书, 2015) [WorldCat.org]Google Services And Products/Search - Wikibooks, open books for an open world三个备选结果,查看网站首页,快速排除第一和第三,保留 WorldCat.org:世界上最庞大的图书馆目录
    2. 前一次的检索结果是具体书籍的信息,因此加上另一本书书名去检索,Google检索:"The Moon and Sixpence" book information -amazon intitle:world,第一页得到The Moon and Sixpence by W. Somerset Maugham | World of rare Books.comThe Moon And Sixpence by Maugham, Somerset. | World of rare Books.com都是卖书网站,排除该方案
    3. 尝试锁定URL含“www.world”检索:book information inurl: world,依然是World Book Encyclopedia 2018The World Book encyclopedia. (图书, 2012) [WorldCat.org]Google Services And Products/Search - Wikibooks, open books for an open world,此时发现 worldcat 被 Zotero Connecter 收录,确定 worldcat 是较理想的备选答案
    4. zotero/translators: Zotero Translators,页面定位到" w"字母,得到备选结果Wiley Online Library、Winnipeg Free Press、WorldCat Discovery Service,若网站没有被 Zotero Translater 收录,它一定没那么重要,因此基本确定答案是三者之一。打开三个网站的首页,保留 worldcat。

3. 结论

用不同方法检验一下 WorldCat.org:世界上最庞大的图书馆目录 的正确性:

  • 在 worldcat.org 中搜索:创新算法,有结果
  • 在 Wikipedia 中搜索:worldcat,WorldCat - Wikiwand信息基本符合
  • 以及之前“被 Zotero Translater 收录”这一筛选条件

确定答案为 worldcat.org

4. 讨论

4.1 对结论的讨论

筛选网站的主要依据是:是否被 Zotero Translater 收录,万一正确答案并没有被 Zotero Translater 收录呢?分析之后可以看出,worldcat 极其符合要求,不太可能有其他答案,如果有,那也是题目的问题。

4.2 可优化的环节

一开始未联系起常用的豆瓣读书与搜索目标的关系,豆瓣是搜索大陆书籍信息,搜索目标是全球版的豆瓣读书,豆瓣读书被 Zotero Translater 收录,那搜索目标是否也被 Zotero Translater 收录呢?

将 w 假定为 world 的缩写确实能过滤掉不少噪音,但也容易遗漏其他可能,不能应用在答案不唯一的场景。

用网络爬虫查找会怎样?可以精确筛选出,标题以 w 开头的网站。

4.3 收获:用同类词思考搜索目标的所在

因为题目不是要求你寻找信息(例如 Apple 的所有产品是什么),而是寻找某种东西(例如在家里找钥匙)。该实践用到的方法也因此不是检索,而是联系起一个你熟悉的类似的东西,这里是豆瓣读书,问自己,哪里会有这里东西的目录?直接去这些目录去寻找答案。

4.4 压力测试

如何查找 w 或其他字母开头的某类网站(或某种其他东西)?如何已知少量信息的某类网站(或某种其他东西)?此时,对目标会有一定的认知,也会知道一些类似的东西,或许不是非常类似;思考会收录类似东西的目录有吗?如果有,且搜索目标在该类东西中也是很重要的,那么很有可能会找到目标。

5. 参考文献

ChangeLog

2018-05-04 初稿

results matching ""

    No results matching ""