本文将针对其中的 Eigenfactor 与 Article Influence 作较详细的介绍。
Eigenfactor (特征系数,或称特征因素) 由美国华盛顿大学 Carl T .Bergstrom 教授所领导的研究小组提出。其概念与本站先前介绍的SJR非常类似(请参考“SJR─SCOPUS期刊评鉴指针(1)”一文),较传统Impact Factor的主要突破在于“将期刊间的引用给予不同的权重”,意即被声望高的期刊所引用,对声望的提升应较被一般期刊引用来得显著,反之亦然。Eigenfactor以JCR为计算基础,计算之时间区间为5年,意即某期刊2007年的Eigenfactor值,是通过计算其前5年(2002~2006年)间发表的文章,于2007年被引用的次数。Eigenfactor完全排除自我引用,亦即相同期刊内不同文章的互相引用,将不计入该期刊的被引次数中。这三点是与SJR明显不同的前提(SJR以SCOPUS为计算基础,采计的时间区间为3年,且允许33%的自我引用上限)。
Eigenfactor内核概念与Google的PageRank算法的““随机浏览”(random surfer)”相同(请参考延伸阅读“PageRank简介”一文),从随机挑选期刊开始,可选择follow期刊文章引用的任一参考文献阅读下一本期刊,或无视参考文献,随机跳到其他任一本期刊,如此反复不断进行随机阅读,而Eigenfactor就是以计算在这个过程中各期刊被阅读到的机率为主要概念的指针。
Eigenfactor计算可分为以下三大步骤,以下将循序介绍:
- 首先通过期刊间的引用网络建立引用矩阵。
- 以“随机浏览”概念计算出各期刊被阅读到的机率,称之为影响矢量(Influence Vector)。
- 最后将Influence Vector代回原先建立的矩阵算出期刊的最终Eigenfactor。
- 建立引用矩阵
首先将各期刊间的引用关系、与期刊收录文章建立如下的矩阵:
(横轴为引用期刊,纵轴为被引期刊,例如A期刊引用A期刊1次、B期刊3次、C期刊2次、D期刊0次、E期刊8次、F期刊0次,C期刊引用A期刊2次、E期刊3次,以此类推;括弧内为各期刊文章收录数,例如B期刊2篇、C期刊5篇,以此类推)
因为Eigenfactor完全排除自引,因此将对角线的自参数全部归零:
为计算从引用期刊到被引期刊的机率,将原始被参数/引用期刊的总引用数,得到H矩阵如下:
(A期刊总引用13次,因此将B、C、E期刊被A引用的次数都除以13,以此类推)
–
2. 计算Influence Vector(简称IV)
影响矢量(Influence Vector)以前述的“随机浏览”概念,计算各期刊被阅读到的机率。首先将“随机浏览”过程中,follow参考文献挑选下一本阅读期刊的机率订为85%,不follow参考文献而随机跳读任一期刊的机率订为15%。以下说明这两部分应如何计算:
- Follow参考文献(85%):按前述H矩阵的引用比例计算。例如阅读到A期刊,追踪其参考文献,就有3/13的机率会阅读到B期刊、2/13的机率到C期刊、8/13的机率到E期刊,以此类推。这个机率再乘以A期刊被看到的机率,就是B、C、E期刊被看到的机率。
- 不follow参考文献(15%):按各期刊文章数占所有期刊总文章数的比例,推估各期刊机率。以此例而言,6本期刊共有14篇文章,则A期刊被看到的机率为3/14、B期刊为2/14,以此类推。此比例称为Article Vector,如下:
其中需特别注意在Follow参考文献的部分,当遇到没有参考文献的期刊(如B期刊)时,因无法追踪其引文,因此也将会是随机跳读任一期刊的状况,就以前述的Article Vector替换,形成H’矩阵如下:
Influence Vector(简称IV)即是通过以上两部分的运算结果加总,并将加总结果重复代回H’矩阵运算,直至结果收敛为趋近值而得。初始时各期刊被看到的机率均等,因此各期刊IV均为1/6,以A期刊为例,其两部分的计算如下:
- Follow参考文献(85%):A被C、E、F期刊引用,将获得引用期刊的Influence Vector*占该引用期刊之引用比例的机率;另外B期刊因无引用,如前述将按Article Vector分配引用比例,因此在这部分A期刊将获得:(B的IV*A的Article Vector)+( C的IV*A占C的引用比例)+( E的IV*A占E的引用比例)+ (F的IV*A占F的引用比例)=[(1/6)*(3/14)]+ [(1/6)*(2/7)]+ [(1/6)*(4/5)]+ [(1/6)*(3/6)]。
- 不follow参考文献(15%):如前述,按该期刊的Article Vector分配,因此A获得3/14。
将两部分加总,A期刊在第一次运算所获得的IV为:0.85*{[(1/6)*(3/14)]+ [(1/6)*(2/7)]+ [(1/6)*(4/5)]+ [(1/6)*(3/6)]}+0.15*(3/14)=0.2871。各期刊均以此类推,第一次运算的IV结果如下:
运算后的IV,将代回H’矩阵重复运算,直到结果收敛至趋近值。这里的趋近定义为运算后的IV与前一次IV相差在0.00001以内,也就是当所有期刊的IV值均达到此标准,即可确立最终的IV值。以此例而言,在经过16次代回运算之后,将可得到最终的IV值(详细请参考EF与AI运算历程数据):
通过以上的运算,我们可以体会到Influence Vector如何将引用权重的概念落实到实际的演算:
- 当一个期刊被引用得越多,其越容易累积来自引用期刊的IV值,而使自身的IV值提高。
- 被IV值越高的期刊引用,所获得的IV值也将越高。
- 向外引用较少的期刊,其所能贡献给个别引用期刊的IV值将越高。
–
3. 计算Eigenfactor
最后一部分就是将上一阶段计算出的Influence Vector代回原本的H矩阵,计算出Eigenfactor(简称EF)。因为原始的H矩阵并没有将无参考文献的期刊替换为Article Vector,因此计算出的EF将部分流失而总和不为1。为使EF值标准化,会将各期刊的原始EF值除以所有期刊EF值的总和,并将结果乘以100以呈现百分比数值,所得结果即为最终的Eigenfactor值,流程如下:
求得Eigenfactor后,另一项Article Influence指针就呼之欲出了!Article Influence在计算期刊中单篇文章的影响力,将期刊原始的EF值,除以该期刊的Article Vector,也就是除以该期刊文章量于整个母群所有文章量的比例。将此运算后的数据乘以0.01,即为Article Influence。
–
以上为期刊评鉴指针Eigenfactor与Article Influence的运算简介,其发想自PageRank的随机浏览,突破传统Impact Factor单纯计算引用次数而无法反映个别引用“价值”的缺陷,也提供了我们在评价学术期刊时的另一种参考指针。
参考数据:
- Jevin West and Carl T. Bergstrom(2008). Pseudocode for calculating Eigenfactor(TM) Score and Article Influence(TM) Score using data from Thomson-Reuters Journal Citations Reports. https://www.jevinwest.org/papers/West2008JournalEF.pdf
- Eigenfactor官方网站: http://www.eigenfactor.org/
By 张育铭