挖掘 AceMap 和 Altmetric 信息点,以及批量获取
Table of Contents generated with DocToc
0. 摘要
该报告分为两部分:
- 一是对一篇论文的引用数据深入挖掘:借助 Altmetric,从 Twitter 和 Wikipedia 找到可用的信息;借助 AceMap 的 Mentorship 栏目,将论文与已知的学者建立联系。
- 用爬虫抓取 Google Scholar、 AceMap 和 Altmetric 三个网站的引用数据,以便筛选出重要的论文。这里用 Python 获取 Altmetric API 数据,而不是用 R。
1. 背景
ch2 检索实操题:请从查询一本你感兴趣的英文期刊,从 2018 年发表的论文中任选三篇自己感兴趣的,检索它的学术引用和社会引用数据,形成一份信息报告。
2. 分析过程
2.1 思路
- 挑选一本英语期刊中的三篇论文
- 查找学术引用数据,可用 AceMap
- 查找社会引用数据,可用 Almetric
2.2 具体步骤
论文一:Automatic Differentiation in Machine Learning: a Survey
之前从 Google Scholar --> Metrics --> Top publication 获取了 Top 20 Artificial Intelligence Journal List,选择其中的 Journal of Machine Learning Research,Google 之,进入其官网 Journal of Machine Learning Research Homepage。
点击 Papers --> Volume 18,到达页面如下,用Chrome 的插件 chrono 批量下载论文。
选择一篇能读懂摘要的论文:Automatic Differentiation in Machine Learning: a Survey,去Acemap搜索该篇论文的标题,得到搜索结果:
信息不多,而且这篇在 JMLR 2018年发表的论文,在2015年就已经发表了(可见计算机领域,期刊论文会滞后)。去看一下四位作者,一次点击四位作者,其中有两位有较高的 Hindex,分别为23和16。其中一位作者的页面如下图,右侧的合作者关系图能找到该篇论文四位作者中的三位(Acemap也会遗漏信息)。
点击 Mentorship 右侧的 More,进入师徒关系的大图,调整后得到下图,其中一作和三作是四作的学生,是二作的徒孙,而二作是 Hinton 老先生的学生。 Hinton 是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者,领域中的顶级学者。此时将该篇论文归类到 Hinton 门下,我们对它就没那么陌生了。
该论文在 Acemap 的引用数为0,此时没有获取到所需的信息,再去 Google Scholar 查看它的引用数,如图:
在[1502.05767] Automatic differentiation in machine learning: a survey点击 Almetric 书签,页面右上角出现下图,指数为75,有料!
点击 Click for more details,进入详情页,可以看出该论文的影响力蛮强的,排名在前5%-10%。
从详情页的左侧可看到,Twitter 提及该篇论文113次,点开查看。往下拉发现了一个信息点,一群人在转发同一条一条推特,跟 PyTorch 有关,这条推特是 Soumith Chintala 发出的,其关注人数达4万+,应该是重要的人物。
点击进入 Soumith 的推特主页,发现他是 PyTorch 的创始人,该篇论文应该有助于开发 PyTorch 的Automatic Differentiation 功能。
点击进入 Wikipedia 栏目,有一次引用如图。Automatic Differentiation 是评价 Deep Learning Software 的一项重要指标,而 Automatic Differentiation 概念来自气象学等领域, Automatic Differentiation in Machine Learning: a Survey 这篇论文清晰的阐述了机器学习中 the main differentiation techniques and their interrelationships。
论文二:Information-Geometric Optimization Algorithms: A Unifying Picture via Invariance Principles
- 在 acemap 检索标题,获取引用数为 Citations: 18
- 在 Google Scholar 检索标题,获取引用数为 94
- 在论文的 publisher site: PDF for 1106.3708v3,点击 altmetric 书签,获得 Attention Score:9
论文三:Ontology learning from text: A look back and into the future
- 在 acemap 检索标题,查无此论文
- 在 Google Scholar 检索标题,获取引用数为 273
- 在论文的 publisher site: Ontology learning from text,点击 altmetric 书签,获得 Attention Score:4
3. 结论
- Automatic Differentiation 是评价 Deep Learning Software 的一项重要指标,而 Automatic Differentiation 概念来自气象学等领域, Automatic Differentiation in Machine Learning: a Survey 这篇论文清晰的阐述了机器学习中 the main differentiation techniques and their interrelationships。PyTorch 的创始人推荐他的团队关注这篇论文,PyTorch 的 Automatic Differentiation 功能应该与这篇论文有关系。这篇论文的作者是 Hinton 的门徒。
- 从 Zotero 导出论文条目数据,格式为 CSL JSON,用爬虫抓取 Google Scholar、 AceMap 和 Altmetric 三个网站的引用数据(只写了 Jupyter Notebook,待写成脚本),部分结果如下:
publish_year | gs_citation | acemap_citation | altmetric_score | top_all | top_journal | altmetric_url | |
---|---|---|---|---|---|---|---|
title | |||||||
Context based object categorization: a critical survey | 2010 | 281 | 81 | 6 | 0.17 | 0.09 | http://www.altmetric.com/details.php?citation_... |
A review of machine learning for automated planning | 2012 | 42 | 4 | None | None | None | None |
Regret analysis of stochastic and nonstochastic multi-armed bandit problems | 2012 | 909 | None | 3 | 0.27 | 0.81 | http://www.altmetric.com/details.php?citation_... |
Kernels for vector-valued functions: a review | 2011 | 204 | 21 | 4.5 | 0.22 | 0.11 | http://www.altmetric.com/details.php?citation_... |
An introduction to conditional random fields | 2010 | 704 | 61 | 15.7 | 0.07 | 0.02 | http://www.altmetric.com/details.php?citation_... |
Randomized algorithms for matrices and data | 2011 | 440 | 37 | 41.5 | 0.03 | 0.01 | http://www.altmetric.com/details.php?citation_... |
A few useful things to know about machine learning | 2012 | 1045 | 110 | 24.31 | 0.04 | 0.02 | http://www.altmetric.com/details.php?citation_... |
Translation techniques in cross-language information retrieval | 2012 | 45 | 77 | 9.064 | 0.12 | 0.09 | http://www.altmetric.com/details.php? |
4. 讨论
4.1 对结论的讨论
在查找学术引用数据的时候,一开始挺沮丧的,论文引用次数为0。做下去之后,信息越来越丰满,也大致了解了这篇论文在领域中的作用和 Automatic Differentiation 这个知识点,在下也因这些信息记住了这篇论文。下次需要深入理解 Automatic Differentiation 或遇到比较不同的深度学习软件,可以从这篇论文开始。
手动一篇篇去获取引用数据还是比较繁琐,批量获取可节省时间,只需从结果中选择被引数较高的论文,点开查看。不过也有不足的地方,获取 Altmetric 数据要求有唯一编码,Altmetric id、doi、ads、arxiv、pmid 中的一种。
4.2 可优化的环节
步骤2,实践后得知,批量下载再导入 Zotero 的论文, 抓取 PDF 元数据时不能获取年份。更好的做法是获取左下角 RSS 的URL,在 Zotero 新建订阅,再批量添加到 Library 的对应目录下。
4.3 收获:获取论文相关的实践
从 Altmetric,可挖掘出学界以外的人士对论文的反应。一般,有一群人不断转发同一条 Twitter 等的信息,意味着一个团体(可能是一个项目的不同成员)在关注该论文,而这个项目就是一种实践。
5. 参考文献
- GitHub - lnielsen/python-altmetric: Altmetric API v1 wrapper for Python
- Altmetric API Support – Altmetric
- Getting Started | Altmetric API documentation
ChangeLog
2018-05-19 初稿