Eigenfactor与Article Influence介绍─JCR期刊评鉴指针(2)

本文将针对其中的 Eigenfactor 与 Article Influence 作较详细的介绍。

Eigenfactor (特征系数，或称特征因素) 由美国华盛顿大学 Carl T .Bergstrom 教授所领导的研究小组提出。其概念与本站先前介绍的SJR非常类似(请参考“SJR─SCOPUS期刊评鉴指针(1)”一文)，较传统Impact Factor的主要突破在于“将期刊间的引用给予不同的权重”，意即被声望高的期刊所引用，对声望的提升应较被一般期刊引用来得显著，反之亦然。Eigenfactor以JCR为计算基础，计算之时间区间为5年，意即某期刊2007年的Eigenfactor值，是通过计算其前5年(2002~2006年)间发表的文章，于2007年被引用的次数。Eigenfactor完全排除自我引用，亦即相同期刊内不同文章的互相引用，将不计入该期刊的被引次数中。这三点是与SJR明显不同的前提(SJR以SCOPUS为计算基础，采计的时间区间为3年，且允许33%的自我引用上限)。

Eigenfactor内核概念与Google的PageRank算法的““随机浏览”(random surfer)”相同(请参考延伸阅读“PageRank简介”一文)，从随机挑选期刊开始，可选择follow期刊文章引用的任一参考文献阅读下一本期刊，或无视参考文献，随机跳到其他任一本期刊，如此反复不断进行随机阅读，而Eigenfactor就是以计算在这个过程中各期刊被阅读到的机率为主要概念的指针。

Eigenfactor计算可分为以下三大步骤，以下将循序介绍：

首先通过期刊间的引用网络建立引用矩阵。
以“随机浏览”概念计算出各期刊被阅读到的机率，称之为影响矢量(Influence Vector)。
最后将Influence Vector代回原先建立的矩阵算出期刊的最终Eigenfactor。

建立引用矩阵

首先将各期刊间的引用关系、与期刊收录文章建立如下的矩阵：

(横轴为引用期刊，纵轴为被引期刊，例如A期刊引用A期刊1次、B期刊3次、C期刊2次、D期刊0次、E期刊8次、F期刊0次，C期刊引用A期刊2次、E期刊3次，以此类推；括弧内为各期刊文章收录数，例如B期刊2篇、C期刊5篇，以此类推)

因为Eigenfactor完全排除自引，因此将对角线的自参数全部归零：

为计算从引用期刊到被引期刊的机率，将原始被参数/引用期刊的总引用数，得到H矩阵如下：

(A期刊总引用13次，因此将B、C、E期刊被A引用的次数都除以13，以此类推)

–

2. 计算Influence Vector(简称IV)

影响矢量(Influence Vector)以前述的“随机浏览”概念，计算各期刊被阅读到的机率。首先将“随机浏览”过程中，follow参考文献挑选下一本阅读期刊的机率订为85%，不follow参考文献而随机跳读任一期刊的机率订为15%。以下说明这两部分应如何计算：

Follow参考文献(85%)：按前述H矩阵的引用比例计算。例如阅读到A期刊，追踪其参考文献，就有3/13的机率会阅读到B期刊、2/13的机率到C期刊、8/13的机率到E期刊，以此类推。这个机率再乘以A期刊被看到的机率，就是B、C、E期刊被看到的机率。
不follow参考文献(15%)：按各期刊文章数占所有期刊总文章数的比例，推估各期刊机率。以此例而言，6本期刊共有14篇文章，则A期刊被看到的机率为3/14、B期刊为2/14，以此类推。此比例称为Article Vector，如下：

其中需特别注意在Follow参考文献的部分，当遇到没有参考文献的期刊(如B期刊)时，因无法追踪其引文，因此也将会是随机跳读任一期刊的状况，就以前述的Article Vector替换，形成H’矩阵如下：

Influence Vector(简称IV)即是通过以上两部分的运算结果加总，并将加总结果重复代回H’矩阵运算，直至结果收敛为趋近值而得。初始时各期刊被看到的机率均等，因此各期刊IV均为1/6，以A期刊为例，其两部分的计算如下：

Follow参考文献(85%)：A被C、E、F期刊引用，将获得引用期刊的Influence Vector*占该引用期刊之引用比例的机率；另外B期刊因无引用，如前述将按Article Vector分配引用比例，因此在这部分A期刊将获得：(B的IV*A的Article Vector)+( C的IV*A占C的引用比例)+( E的IV*A占E的引用比例)+ (F的IV*A占F的引用比例)=[(1/6)*(3/14)]+ [(1/6)*(2/7)]+ [(1/6)*(4/5)]+ [(1/6)*(3/6)]。

不follow参考文献(15%)：如前述，按该期刊的Article Vector分配，因此A获得3/14。

将两部分加总，A期刊在第一次运算所获得的IV为：0.85*{[(1/6)*(3/14)]+ [(1/6)*(2/7)]+ [(1/6)*(4/5)]+ [(1/6)*(3/6)]}+0.15*(3/14)=0.2871。各期刊均以此类推，第一次运算的IV结果如下：

运算后的IV，将代回H’矩阵重复运算，直到结果收敛至趋近值。这里的趋近定义为运算后的IV与前一次IV相差在0.00001以内，也就是当所有期刊的IV值均达到此标准，即可确立最终的IV值。以此例而言，在经过16次代回运算之后，将可得到最终的IV值(详细请参考EF与AI运算历程数据)：

通过以上的运算，我们可以体会到Influence Vector如何将引用权重的概念落实到实际的演算：

当一个期刊被引用得越多，其越容易累积来自引用期刊的IV值，而使自身的IV值提高。
被IV值越高的期刊引用，所获得的IV值也将越高。
向外引用较少的期刊，其所能贡献给个别引用期刊的IV值将越高。

–

3. 计算Eigenfactor

最后一部分就是将上一阶段计算出的Influence Vector代回原本的H矩阵，计算出Eigenfactor(简称EF)。因为原始的H矩阵并没有将无参考文献的期刊替换为Article Vector，因此计算出的EF将部分流失而总和不为1。为使EF值标准化，会将各期刊的原始EF值除以所有期刊EF值的总和，并将结果乘以100以呈现百分比数值，所得结果即为最终的Eigenfactor值，流程如下：

求得Eigenfactor后，另一项Article Influence指针就呼之欲出了！Article Influence在计算期刊中单篇文章的影响力，将期刊原始的EF值，除以该期刊的Article Vector，也就是除以该期刊文章量于整个母群所有文章量的比例。将此运算后的数据乘以0.01，即为Article Influence。

–

以上为期刊评鉴指针Eigenfactor与Article Influence的运算简介，其发想自PageRank的随机浏览，突破传统Impact Factor单纯计算引用次数而无法反映个别引用“价值”的缺陷，也提供了我们在评价学术期刊时的另一种参考指针。

参考数据：

Jevin West and Carl T. Bergstrom(2008). Pseudocode for calculating Eigenfactor(TM) Score and Article Influence(TM) Score using data from Thomson-Reuters Journal Citations Reports. https://www.jevinwest.org/papers/West2008JournalEF.pdf
Eigenfactor官方网站: http://www.eigenfactor.org/

By 张育铭

Related Posts