矩阵对角线元素之和期刊共被引矩阵对角线问题的实证研究

发布时间:2020-03-07 来源: 日记大全点击：

　　[摘要]在共被引分析中，至关重要的一步是生成共被引矩阵。对共被引矩阵对角线的处理，学术界仍然存在争议。在总结前人几种对角线取值方法的基础上，从社会网络、共被引分析的原理和期刊动态变化的特点三个角度出发，认为期刊共被引矩阵对角线的取值应为该期刊与自身的实际共被引次数，并通过实证数据进行验证。
　　[关键词]期刊共被引　对角线取值　聚类分析　核心-边缘结构分析
　　[分类号]G350
　　
　　1　引　言
　　
　　共被引分析方法是引文分析方法的一种，自从1973年分别由Small和I．V．Marshakova提出后，就备受研究者们关注。根据分析对象的不同，共被引分析方法主要分为文献共被引、作者共被引、期刊共被引和专利共被引等几种。
　　期刊共被引是以期刊为基本单元而建立的共被引关系。期刊共被引分析方法于1991年McCain首先引入并运用于期刊及学科领域的研究以来，理论与方法逐渐发展，运用领域也不断扩大。随着科学知识图谱、可视化技术、社会网络分析等逐渐成为科学计量学研究的热门，期刊共被引分析越来越成为人们关注的热点。
　　期刊共被引分析的步骤，学术界普遍采用1990年McCain对作者共被引技术总结的模式，其归纳为选择作者、检索共被引频次、生成共被引矩阵、转化为Pear.SOil相关系数矩阵、多元分析和解释结果等几个步骤。这几个步骤中，生成共被引矩阵是基础和关键的一步，后面的分析均基于该矩阵。
　　共被引矩阵是个对称矩阵，非对角线上元素表示两两之间共被引的次数(也称共被引强度)，共被引强度越高，则说明关系越密切；然而，对共被引矩阵对角线取值的处理，学术界提出过多种观点，但至今没有统一的定论。由于不同的对角线取值，会造成期刊共被引分析结果的差异，因此有必要对期刊共被引矩阵对角线取值问题进行探究。
　　
　　2　共被引矩阵对角线取值的几种方法
　　
　　2.1　总被引次数
　　对角线上的数值采用文献总被引次数或作者总被引次数(包括了作者自引的次数)，这是学者们对共被引分析对角线取值的最初思考。国内学术界一些早期的研究L2-3]即采用这种观点。这种做法，数据易取，容易操作。但其取值依据明显与共被引理论不一致，造成分析的结果失真严重。因而，用总被引次数填充共被引矩阵对角线的做法，逐渐被其他做法代替。
　　
　　2.2排序前三的共被引频次之和的一半
　　White和Grififth最初是将对角线值定为：排序前三的共被引频次之和的一半。因为，一方面对角线上取作者总被引次数远远高出其他作者间的共被引次数，另一方面是作者同名造成的影响很大。
　　
　　
　　对角线取排序前三的共被引频次之和的一半，部分解决了失真和作者同名的问题，又可突出共被引分析中对角线上数值的相对重要性。这样做能解决对角线取总被引次数的一些问题，但此做法的合理性缺乏有效的证明。并且，现代检索技术的发展，同名的问题已基本得到解决。
　　
　　2.3　缺失值
　　对角线上的取值直接采用默认的缺失值，是Mc.Cain提出的，这也是影响最广泛、目前最普遍的一种对角线确定方法。MeCain提出这种做法，也是为了解决对角线上采用总被引次数造成失真严重的问题，并通过作者共被引的实例证实缺失值的聚类、多维尺度、主成分分析的结果与White和Griffith采用排序前三的一半的做法，结果相差不大。
　　在聚类分析、多维尺度分析中，对角线值缺失的共被引矩阵需要将对角线默认为0，再转化成相关系数矩阵，这样相似矩阵对角线就自动变为1，这种取值方法解决了进一步多元分析中程序的限制问题。从表面看来，在处理数据方面非常方便，但忽略了研究对象的背景与含义。共被引矩阵是考察各对象之间亲疏关系的相似矩阵，撇开对象与自己的关系，孤立地分析对象与对象之间的亲疏关系，存在一定的不合理性。
　　
　　2.4　最大值和最大值+1
　　White在文献[6]中，建议使用期刊被引频次的最大值作为对角线取值。他从Person相关系数矩阵测度相似性的角度出发，并通过实例，说明采用默认值的做法会使分析结果存在一定的人为特定目的。取最大值的做法，比起排序前三的一半的做法，更加凸显对角线的重要性，也方便操作。
　　我国学者邱均平从临近矩阵的角度出发，认为：按照共被引的假设――具有相同的共被引强度意味着具有相同的相似程度，期刊与自身的关系应为最亲近(相似)，建议用最大值+1来凸显期刊与自身的亲密关系，并以编辑出版类期刊群和图书馆学情报学期刊群做了实证分析。
　　采用最大值或最大值+1的做法，从相似性的角度看，存在一定的合理性，而且数据易取，操作简单。但难于解释的一个问题是：为何取最大值或最大值+1，而不是最大值+2、最大值+N?理论依据是什么?另外，“期刊与自身的关系最亲近”这一假设同样存在一定的局限性。在文献(或专利)共被引中，共引意味着文献(或专利)相互引证，文献(或专利)主题存在相似性，共被引强度越大相似程度越大。但，在作者共被引或期刊共被引分析中，作者研究领域的改变、期刊办刊方向的变化等都会造成“期刊与自身关系最亲近”的假设不成立。
　　
　　2.5期刊与自身的实际共被引次数
　　Ahlgren等认为，采用排序前三的共被引频次之和一半和缺失值的做法仅是采用总被引次数的替换。虽然能生成共被引矩阵，但并不是最好的做法。从共被引的原理和统计意义上，应该使用自己与自己实际共被引次数，这样产生的矩阵才是严格意义上的共被引矩阵。此结论是Ahlgren在探讨作者共被引分析时得出的，这种做法由于数据收集困难而很少被采用，更缺乏实证的验证。
　　通过以上分析，本文认为，针对作者、期刊、专利等不同分析对象的特点，对角线取值方式应该有所不同。从社会网络、共被引分析的原理和期刊动态变化的特点三个角度看，期刊共被引矩阵对角线取值采用期刊与自身的实际共被引次数最为合理。
　　首先，从社会网络的角度看，期刊共被引矩阵(网络)是典型的自反网络，即期刊与自身是有关系的；因此，在考察期刊群之间相互关系的过程中，不应该抛开期刊与自身的关系，应对其加以考虑。从这个意义上来说，对角线取缺失值的做法并不合理。
　　其次，期刊共被引关系把众多的期刊按被引证关系联系起来，从期刊所载论文被利用的角度揭示期刊之间的某种学科或专业上的联系。换言之，期刊共被引分析通过期刊所载文献之间的共被引关系揭示期刊的主题、地位上的密切关系，而期刊共被引矩阵是期刊之间密切关系的外在表现。采用自己与自己实际共被引次数作为矩阵对角线的值，形成严格意义上的共被引矩阵，更符合共被引原理。
　　第三，不同于耦合关系，共被引关系所反映的是变化的或暂时的关系，而且期刊共被引是对某一跨度时间内形成的共被引关系进行分析，因而有必要考虑期刊动态变化的特点。造成这种变化可能是期刊季刊、双月刊、月刊、半月刊的改变，也存在期刊载文主题的变化。在这个意义上，“期刊自己与自己的关系最为密切”的假设并不一定成立，共被引矩阵对角线取最大值、最大值+1或其他远大于非对角线的做法的合理性值得商榷。而这几种对角线取值方式中，最能反映期刊动态变化的是实际共被引次数。
　　
　　3　实证研究――以图书情报学期刊群为例
　　
　　3.1　数据的收集和处理方法
　　前面提到，对角线上的数值采用文献总被引次数或作者总被引次数(包括了作者自引的次数)的做法，是共被引分析的最初做法，已逐渐被其他方法完全替代。这里不再对该种做法进行研究。其余几种对角线的处理方法，本文通过实例进行聚类分析和核心一边缘结构分析，对各种对角线取值方式得到的结果进行比较。
　　本文以文献[9]为基础，采用该文选取的期刊群及数据收集的时间段，同样以CNKI为信息源及相关的分析软件(sPSS及UCINET)，并于2009年8月13日对文献[9]中期刊源(29种)的共被引数据进行检索整理，得到如表1所示的共被引矩阵①：
　　
　　3.2　聚类分析和核心-边缘模型分析
　　共被引矩阵的不同会影响分析的结果，而造成共被引矩阵不同的原因是对角线的处理方法。以下是对几种对角线处理方法逐一进行聚类分析和核心一边缘模型分析。
　　3.2.1排序前三的共被引频次之和的一半　图1是采用该种对角线处理方法的聚类分析图。从聚类分析结果，我们可以清楚地看到，采用排序前三的共被引频次之和的一半的做法，将这29种期刊聚类成三大类：第一类包括《图书情报工作》、《中国图书馆学报》等21种(图1中a类)偏图书馆学领域的期刊和《情报理论与实践》、《情报学报》等5种(上图中b类)偏情报学领域的期刊；第二类为《农业图书情报学刊》和《情报探索》；第三类是《中华医学图书情报杂志》。这种对角线取值的方法，第一类包含了29种期刊中的26种，图书馆学领域期刊群和情报学领域期刊群聚成一个大类。
　　图1右边核心边缘结构分析，得到的结果显示数据和理想模型的相关系数能达到0.919。这里得到的期刊核心度数值与邱均平、李俊佩的文献《图书情报学期刊的同被引研究》存在不同，但期刊核心度排名基本一致。
　　3.2.2缺失值对角线默认缺失值是共被引分析最普遍的做法。图2是对角线取缺失值的期刊共被引聚类图和核心边缘结构分析图。聚类结果同样不精确，除《图书情报工作》、《情报理论与实践》与《情报学报》各聚成一类外，其余聚成一个大类。而核心边缘结构分析，得到的结果显示数据和理想模型的相关系数为0.889。
　　3.2.3　最大值和最大值+1最大值和最大值+1得到聚类分析和核心边缘分析结果几乎相同，如图3和
　　聚类分析将29种期刊大致分成四类：第一类包括22种期刊，这些期刊主要以图书馆学领域的文章为主；第二类是以情报学领域的文章为主的期刊，它们都是情报学期刊，并且技术方面的文章占的比例也相对较高；第三类《情报探索》单独成一类；第四类是《中华医学图书情报杂志》单独成一类。
　　核心边缘结构分析显示该取值方法与理想模型的相关系数为0.951。
　　3.2.4期刊与自身的实际共被引次数将期刊与自身的实际共被引次数作为共被引矩阵对角线数值得到的聚类见图5，分为四类：
　　?第一类是研究图书馆学主题为主的23种期刊，包括《图书情报工作》、《中国图书馆学报》等。这23种期刊又分成四个子类：a类全部都是图书馆学的核心期刊；b类包括各地图书馆学期刊，大多不是核心期刊；c类是以情报学为主题较多的期刊；d类是偏应用较多的期刊。
　　?第二类是主题以情报学为主的4种期刊：《情报理论与实践》、《情报学报》、《情报科学》和《现代图书情报技术》。
　　?第三类、第四类分别是独自成一类的《农业图书情报学刊》及《中华医学图书情报杂志》，这两种期刊都是以特定专业领域为主题的期刊。
　　将实际共被引次数作为共被引矩阵对角线数值，进行核心边缘结构分析，显示数据和理想模型的相关系数为0.962，优于其他取值方法得到的结果。
　　
　　3.3对比分析
　　从聚类结果上看，上文中3.2.1、3.2.2聚类结果较为模糊，形成类别少，类内距离很大；3.2.3能聚成四类，但其第一类的组内距离很大；3.2.4最能满足层次聚类法“类内距离小，类间距离大”的条件，聚类结果更为良好。
　　和3.2.3比较，3.2.4除了聚类分类更详细更准确外，还有一个差别，即：《情报资料工作》期刊的归类不同：3.2.3将该刊物聚为情报学期刊子群，3.2.4则归为图书馆学期刊子群。为验证其归属，笔者对《情报资料工作》2002-2007年发表学术论文的关键词进行考察。考虑到关键词是表征论文内容的核心词汇，本文将从对关键词的统计对上述问题给出解释。统计结果显示，2002-2007各年间，《情报资料工作》刊载学术论文的前十位高频关键词(限于篇幅，具体数据略去，有需要可向作者索取)，更多表征的是图书馆学的内容，特别需要一提的是除了2007年排名第二的高频关键词是“知识管理”，其余各年排名第一、第二的高频关键词表征的均是图书馆学的内容。这也从另一个侧面证明了《情报资料工作》归类于图书馆学期刊更为合理。
　　从核心一边缘结构分析结果来看，对角线取值的不同会影响期刊核心度，但对核心度排名的影响不大。就分析结果和理想模型的拟合系数来看，3.2.4能达到0.962，是这几种取值方法中最高的，这也从实证的角度证明对角线取值为“期刊与自身的实际共被引次数”更为合理。
　　
　　4　结语
　　
　　共被引分析是学术界的热点内容之一，共被引矩阵的对角线取值问题也是学术界争议的热点话题。尽管本文从实证的角度，证明了将期刊与自身的共被引频数作为期刊共被引矩阵的对角线取值更加合理，但其统计学的理论意义还有待进一步研究。另一方面，由于共被引数据在时间上有累积效应，因此数据检索的合理时间范围如何确定也是未来的研究内容之一。
　　致谢：感谢中国知网的张玉荣女士对本文数据检索提供的帮助.作者在此表示衷心感谢!

矩阵对角线元素之和 期刊共被引矩阵对角线问题的实证研究

热点文章阅读

矩阵对角线元素之和期刊共被引矩阵对角线问题的实证研究