CiteSeer X 自动引文索引学术论文数字图书馆


CiteSeer是全球第一个使用ACI(Autonomous Citation Indexing)技术,自动在网络搜索爬取(crawl)与信息工程学科领域相关文章的引用文献索引系统并提供免费检索与全文下载服务,在2016年初时已收录超过7百万笔的全文(Wu, Liang, Yang, & Giles, 2016)。该系统主动搜索网路上PostScript和PDF两种格式学术论文(包含预印文献、研究报告、期刊文章与会议论文)将其内容转换为文字,并自文中截取URL、文章篇名、作者、摘要、前言、引用文献、文中引文内容,同时也做全文索引(Giles, Bollacker, & Lawrence, 1998)。CiteSeer在1997年由位于美国纽泽西州普林斯顿的NEC研究机构所开发,2003年则移转至宾夕凡尼亚州立大学(Pennsylvania State University)信息科学学院,由当时亦是NEC研究机构研究成员的Lee Giles教授以计划方式主持,尔后以新世代为喻改以CiteSeer X为名继续提供新的服务(Pennsylvania State University, 2015)。

通过引用文献索引可以检索相关文献群、并由引用情形评估文章良窳与学术影响力、进而分析学科主题发展情形及了解学术发展趋势,不论对数据的检索者或是学术研究者等而言,是相当重要的信息检索与分析工具。引用文献索引最被人所熟知的有SCI、SSCI、A&HCI和Scopus数据库,但这些都是价格高昂的付费数据库且有一定的文献收录范围。CiteSeer X则是提供免费使用的资工领域引用文献索引,并有别于前述引文数据库,CiteSeer X通过算法等技术,在网路上自动搜索讯资工领域学术论文,并不局限于某些特定期刊或受期刊未准时出刊的影响,只要文章在网路上出现即可被索引收录,自动截取文中书目信息,以引用关系串连相关文章,让资工学科领域的学术文章更容易被检索与查阅。

CiteSeer X具有以下特色:

  • 提供文章、作者与文中表格名称三大检索项目。可以用关键字来检索文中表格名称,是其它数据库与Google Scholar所无法提供。
  • 使用作者检索项目,查找结果会列出作者所属机构、著作篇数与书目,并呈现可供评鉴作者学术质与量的H-Index。(H-Index是指作者至少有h篇文章中的每一篇文章至少被引用了h次)
  • 提供进阶查找功能,可由全文、文章题名、作者名、作者所属机构名、期刊名称或会议名称、关键字与摘要等字段来查找,但各栏之间是”AND”的运算关系,另可搭配年代与引用文献最少篇数来限缩查找。(参见图一 CiteSeer X进阶查找页面)
  • 检索结果呈现文章书目信息并可下载全文,列出该篇文章被引用次数与作者自引情形,自动链结文章所引用、被引用、共同引用与相关文章。(参见图二 文章所引用、被引用、共同引用与相关文章)
  • 文章内文与引用文献为全文索引方式,并可通过布尔逻辑、词组与邻近功能来进行检索。
  • 提供由文章的引用文献进一步查看在文中的引文内容。
  • 提供MyCiteSeerX个人化服务,检索者可以免费申请帐号进行文章收录与追踪功能,并可提供个人著作信息。(参见图三 MyCiteSeerX个人化服务)
CiteSeerX_02

图一  CiteSeer X进阶查找页面

CiteSeerX_03

图二  文章所引用、被引用、共同引用与相关文章

CiteSeerX_04

图三  MyCiteSeerX个人化服务

系统在网路上进行相关主题爬取与自动分析数据内容时,会遇到一些来自文献本身既已存在的问题待克服,诸如文献本身有不正确信息,所使用引用格式规范不一或著录格式错误或是引用书目错误,作者姓名与出版品名称/简称不易识别、缺乏著录标准号码以利识别如ISBN、DOI等等(Lee, Kang, Mitra, Giles, & On, 2007)。CiteSeer X以自动网路搜索并推演文章内文与书目数据,无可避免地会有这些棘手的困难,有用户即认为它缺乏高品质书目信息截取结果,可能造成引用关系与引用次数的不正确(Wu, 2014);而自动于网路搜罗文献虽省事及时,但所收录文献是否完全契合学科主题,且网路资源内容良窳不齐,再者由作者可主动提供著作但品质似无严格把关,因此在进行检索后应参考文章被引用次数以及文章作者的H-Index来慎选文献。另有研究发现CiteSeer X简洁的检索列较难精确检索出所需数据(陈薇竹, 2007),查出的篇数太多时无法再行限缩,进阶查找时仅提供各检索字段"AND"的运算关系缺乏弹性。

CiteSeer X不断地试图寻求改进,对于文献书目信息的正确性,除了使用dblp的书目信息来进行校正外,将利用IEEE与Microsoft Academic search的数据来增进书目品质(Caragea et al., 2014),并加强人工智能的语意分析功能(Wu et al., 2016)。此外,有研究者针对CiteSeer X进行优于关键字查找、结合文章作者H-Index值与检索者检索经验与概念的复合式模式(Conceptual Impact-Based Recommender: CIBR)(Labille, Gauch, & Joseph, 2015),希冀可以提供一个有别于传统的理想系统检索方式。

没有一个检索系统是绝对完美的。CiteSeer X的确存在许多问题,不过就其完全开放服务、提供引用关系文献群与引用情形、作者H-Index、可检索文中表格关键字、以及可全文下载的角度来看,CiteSeer X仍是进行广搜资工学科领域研究数据时可以考虑使用的免费学术资源。

参考文献
Caragea, C., Wu, J., Ciobanu, A., Williams, K., Fernández-Ramírez, J., Chen, H.-H., . . . Giles, L. (2014). Citeseer x: A scholarly big dataset. Paper presented at the European Conference on Information Retrieval.
Giles, L., Bollacker, K., & Lawrence, S. (1998). Citeseer: an automatic citation indexing system. Paper presented at the Proceedings of the third ACM conference on Digital libraries.
Labille, K., Gauch, S., & Joseph, A. S. (2015). Conceptual Impact-Based Recommender System for CiteSeerx. http://ceur-ws.org/Vol-1448/paper9.pdf
Lee, D., Kang, J., Mitra, P., Giles, C. L., & On, B.-W. (2007). Are your citations clean? Commun. ACM, 50(12), 33-38. doi:10.1145/1323688.1323690
Pennsylvania State University. (2015). About CiteSeerX.   Retrieved from http://csxstatic.ist.psu.edu/about
Wu, J. (2014). Why People Prefer Google Scholar rather than CiteSeer.   Retrieved from http://fanchyna.wixsite.com/jianwu/single-post/2014/10/01/Why-People-Prefer-Google-Scholar-rather-than-CiteSeer
Wu, J., Liang, C., Yang, H., & Giles, C. L. (2016). CiteSeerX data: semanticizing scholarly papers. Paper presented at the Proceedings of the International Workshop on Semantic Big Data, San Francisco, California. http://delivery.acm.org/10.1145/2930000/2928306/a2-wu.pdf?ip=140.112.113.218&id=2928306&acc=OPEN&key=AF37130DAFA4998B%2EEE7BEA59C98A8EF6%2E4D4702B0C3E38B35%2E6D218144511F3437&CFID=854461668&CFTOKEN=90434668&__acm__=1476931746_b6eb54dce7e90c1d976217f07f567cca
陈薇竹。(2007)。

by 洪翠锚

滚动至顶部