基于图书借阅的人类行为标度律分析|嫁给非人类 八坂漫画

发布时间:2020-03-07 来源: 历史回眸 点击:

  [摘要]通过研究两所大学图书馆数据库中的真实资料,从群体和个体两个层面分析一次借阅过程中图书的借阅时间和用户连续两次借阅或还回图书的时间间隔等统计特征。结果表明,群体行为与个体行为表现出不同的统计特征,除群体行为的借阅时间表现为指数分布外,其它统计量都服从指数范围为1至3的幂律分布。研究说明,人类行为在群体和个体层面上具有不同的多重标度特性。
  [关键词]人类行为动力学 图书借阅 幂律分布 指数分布
  [分类号]N94
  
  1 引言
  
  千差万别的人类行为驱动着社会经济的发展变化,定量研究人类行为就是为了从复杂纷纭的现象中揭示人类行为的普遍规律,以便有效地控制和预测人类的行为,更好地促进社会和人类自身的发展,维持社会生活的正常秩序。对人类行为的研究吸引了包括社会学、心理学、人类学、数学等多个学科领域学者的共同关注,但由于人类自身的复杂性和多样性,对一切科学的尝试来说都是巨大的挑战。到目前为止,绝大多数命题和结论都是定性描述的。
  早期对人类行为的研究均假设人类行为的发出从总体上看是随机和稳态的。据此,人类行为可以用泊松过程来描述,即相继行为发出的时间间隔是较为均匀的。但是,近年来随着数据库技术的长足发展和应用,有了更多的机会得到记录人类活动历史的大量精确数据,并从中挖掘统计规律,特别是人类行为产生的时间统计特性。Barabasi等人的实证研究和理论分析暗示大量由人类活动驱动的系统具有明显偏离泊松统计的性质:人类行为的发出具有短时间内爆发和长时间内静默并存的特征。这些发现对传统的基于泊松过程的排队论提出了巨大的理论挑战。
  Barabasi等人的工作开创了“人类动力学”的新研究方向。尽管这个方向问世时间很短,但是由于其理论和应用上的双重价值,很快就吸引了国际上许多知名科学家的关注。对现实生活、工作中人类活动的大量实证分析结果相继面世,如商业交易、网页浏览、电影点播、在线游戏、手机短信、邮件通信等,均得到了人类行为发出的时间间隔服从幂律分布的结论,且幂指数大多分布在1至3之间。纵观这些实证分析,大部分是单纯基于群体行为或者个体行为的分析。显然,个体行为无法代表群体行为,群体行为的统计特征也未必适用于每一个个体。因此,本文将从图书借阅行为出发探寻人类群体行为和个体行为之间的关系。
  
  自古以来,图书就是人类获取信息的重要来源,而图书馆是人类精神财富的宝库,是人类精神文明的重要组成部分,是人类取之不尽、用之不竭的知识资源。图书借阅行为是一种重要的人类活动,象征了人类对于信息和知识的追求。分析图书借阅行为有助于理解人类行为特征,进而为图书馆以及图书借阅系统的设计提供理论依据。Vazquez等人对圣母大学全体教工的借阅行为进行了统计分析,得出借阅行为的时间间隔服从指数为1的幂律分布的结论;傅林华等人和洪少春分别建立了图书借阅关系网,分析了度分布和聚类系数,结果各项统计值均服从指数分布N(k)∝ exp(-ck),而不是人类动力学研究中更常见的幂律分布N(k)∝k-1;李楠楠等人建立了图书借阅网的二分图,同样发现项目大小、节点项目度以及节点强度服从指数分布的统计规律。本文将从群体行为和个体行为两个层面上统计一次借阅过程中图书的借阅时间和读者借书、还书的时间间隔,由此进一步考察人类社会系统的标度特征。
  
  2 数据来源与统计方法
  
  本文研究的数据来自国内两所不同大学的图书馆数据库,以其中的真实借阅记录为研究对象。数据库A中的读者包括本科生、研究生和教职工共13 866名,对图书借阅时间和个体用户的借书时间间隔的研究使用数据库中所有的772 504条借阅记录,对个体用户还书时间间隔的研究使用其中的647 048条记录(因为截止数据库的备份时间部分图书尚未还回),对群体的借还书时间间隔分布的研究使用其中的139 606条记录(由于早期记录未能精确到秒)。对于数据库B的分析,则跟踪3 852名05级本科生从入校到毕业四年中的借阅记录,共328 795条,较大的数据量足以反映真实的统计规律。为简便起见,对幂律分布的分析判断采用一元线性回归和最小二乘法得出拟合直线斜率即幂指数,拟合精度满足R2>0.97。
  
  
  3 群体用户借阅行为的统计特征
  
  人和人之间并不是孤立的,而是一个相互联系的整体,他们之间是有着很强的联系性,例如同学、同事或朋友之间会一起聚会、一起探讨问题、相互推荐自己看过的电影、网站和书籍,信息正是在这样的群体环境下传递的。因此用户的群体行为具有更直接的研究意义。
  3.1 群体用户图书借阅时间的概率分布
  这里的“群体用户”指的是不区分读者身份,把所有读者看成一个整体进行研究。“图书借阅时间”指的是一次完整的借阅过程中图书从借出到还回的时间间隔,即借阅过程的持续时间,以天为单位。从排队论角度考虑,若将读者看作服务台,图书看作顾客,则借阅时间可以看作服务时间,对其研究在一定程度上反应了服务台的工作效率和服务强度。双对数坐标下群体用户图书借阅时间的概率分布,如图1所示:
  从整体上看图1中两幅图形都有平缓的头部和庞大的尾部,中段部分可以用斜率分别为-5.4和-6.7的直线近似拟合。但是考虑到图书馆对图书借阅期限的规定,图书的借阅时间最长为90天,因此该图形只有头部是有效的。中部和尾部点的数量虽然众多,但在概率上分别只占到总体的7%和不到1%,因此该曲线的头部能够真实的描述现实情况,如图2所示:进一步对图形的头部进行分析,在双对数坐标中进行曲线拟合,可以发现该概率分布服从指数分布,而不是近年来大量发现的幂律分布,两条拟合的指数函数分别是y=-0.0223e和y=-0.0543e。这说明在群体层面上,读者的图书借阅时间具有随机性和均匀性。两者在指数上的差异也反映了借阅时间分布上的不同特征,如数据库B中借阅时间较短的图书的比例明显高于数据库A,而借阅时间较长的图书的比例则明显低于数据库A。经计算,两个图书馆中图书的平均借阅时间分别是33天和20天,这说明对于图书馆A来说,大多数图书都要办理一次续借,30天的借阅期限略短,而对于图书馆B来说,图书的流通更快,周转期更短。这也和两个图书馆的电子化程度和借阅制度有关,A馆允许读者在网上续借一次,操作十分方便,而B馆则必须在借阅处办理续借,手续较繁琐,因此缩短了借阅时间,但有利于加快流通速度。
  
  图1和图2中都可以在图形主体的上方看到一些高高在上的“特殊”的点,即这些点对应的时间出现的概率要大。经过分析,这些点对应的横坐标都是7的倍数。究其原因是高校师生受作息规律、课程安排的影响,一般只能在每周的若干固定时间访问图书馆借还书,因此图书借阅行为表现出了一定的周期性,这一 现象在下面的研究中同样会出现。
  3.2 群体用户借、还书时间间隔的概率分布
  同类事件之间的时间间隔分布始终是人类行为动力学研究的重点关注对象。把图书馆看作服务台,读者所借的图书看作顾客,则借还书的时间间隔表示顾客到达服务台的时间间隔,即连续两次借书或者还书行为之间的时间间隔。群体用户借书和还书的时间间隔的概率分布,如图3、图4所示:
  
  可以认为,群体用户借书和还书行为的时间间隔数据库分布服从幂律。数据库A的借、还书幂指数几乎相同,数据库B中略大,约为2.0,而数据库B的两个幂指数有一定的差别,且数值较大,达到了2.63和2.92。这样的差别反应了统计规模、读者借阅量及借还书习惯等方面的差异,符合复杂系统和人类动力学的性质。
  笔者从另一个角度分析了群体用户在一定时间内借、还书的累积概率分布(即在一定时间内发生过连续两次借、还书行为的概率)。从图5可以清楚地看出读者连续两次借、还书的时间间隔具有很大的非均匀性,一周之内的连续行为占到了绝大多数的比例(在四组数据中依次是87%、88%、81%和86%),只有极少数读者在一次借、还书之后便很久不再借书。正是时间间隔的极度不均匀性造成了幂律分布的形成。
  
  4 个体用户借阅行为的统计特征
  
  了解了群体用户的行为特征,个体的行为特征是否也具有相同的统计特征呢?下面的分析基于个体,即对每个读者分别进行统计分析。
  4.1 个体用户图书借阅时间的概率分布
  由于数据库A中借阅记录的时间跨度较短,本文只对数据库B中个体的借阅时间进行分析。发现了大大不同于群体行为的统计特征,即个体用户借阅时间的概率近似服从幂律分布,不同个体的幂指数不尽相同,大致集中在1.5附近。如图6所示:
  这说明对于个体读者来说图书的借阅时间分布非常不均匀,少数图书的借阅时间很长而大部分图书借回后在较短时间内即归还给图书馆。这样的实证结果容易用个体读者的实际借阅行为解释,所借阅的图书大部分只需仔细阅读其中的一部分,少数图书才需要长时间的仔细阅读,特别是一些教材、参考书。因此,借阅时间的非均匀性也就造成了借阅时间概率分布的幂律形式。
  本文进一步统计了借阅时间排在前200名的图书,按照中图分类号对这200种图书进行了分类统计。如表1所示:
  
  借阅时间长的图书集中在计算机通信、英语、经济管理和数学类别的工具书、参考书上。F、H、O、T这四个类别的图书的在前200名借阅量中占到总量的70.5%,在总的借阅量中则占到67.5%;若再把借阅时间只有15天的文学类图书考虑进来,这两个比例则分别达到72.5%和81.6%。借阅时间在不同类别图书之间有着明显的不均匀性也导致了概率分布呈现幂律。
  4.2 个体用户借、还书时间间隔的概率分布
  这部分研究的是单个个体连续两次借书或还书之间的时间间隔。每次以读者证号为关键字从图书借阅记录中取出一个用户进行查询,统计其借阅记录,计算两次借书或还书行为之间的时间间隔(见图7)。
  可以认为个体用户借、还书的时间间隔服从幂律分布,不同的个体幂指数有所区别。数据库A中幂指数分布在0.6~1.6之间,线性拟合度高的个体幂指数集中在1.2附近,因此可以认为个体用户借书和还书的时间间隔均服从指数为1.2的幂律分布,而该值在数据库B中约为1.4。
  同时研究发现,幂指数和借阅量有一定的正相关关系,即借阅量大的读者,其借还书时间间隔的幂指数也大。数据库A中部分个体借书的时间间隔的幂指数与借阅量的关系,如图8所示:
  由图8可看出,虽然有波动性,但两者还是表现出了明显的正相关关系。周涛在文献[8]中将一个人从事某种活动的强度定义为“活跃程度”,并指出“在很大的范围内,幂指数和活跃程度之间存在正相关”。本文的研究很好地证明了这一点,因为读者的借阅量也是该读者作为节点在整个图书借阅网络中的活跃程度的体现。
  
  
  5 结语与讨论
  
  关于图书借阅记录已有专家学者从不同角度做了分析研究,本文与前人研究的不同点在于从群体和个体两个层面上对人类行为数据库进行统计分析。实证表明,对于图书借阅时间,群体行为服从指数分布,而个体行为服从幂律分布;对于借还书的间隔时间,群体和个体行为都服从幂律分布,但幂指数有所不同,大致分布在1至3的范围内,但在群体行为和个体行为上表现出明显的区别,即前者的幂指数要大于后者。所有的统计量都表现出了明显的偏离泊松分布的统计特征。可以认为人类行为具有多重标度特性。
  
  对于群体行为的时间间隔分布的幂指数大于个体行为的幂指数,可以从借阅行为发出的时间序列的角度解释:由于群体行为是个体行为的叠加,前者的时间序列有更多的机会被大量个体发出的行为填充,因此也就缩短了时间间隔,即较小的时间间隔出现的几率要远远大过较大的时间间隔。绘图时数据点会更倾向于落在靠近y轴(概率轴)的位置,所得的图形也就更陡峭一些,因而幂指数就更大。
  
  由于对人类行为模式的定量分析是理解社会复杂系统的基础,因此,对人类行为规律的定量研究是十分必要的。图书借阅系统也是一种典型的复杂系统,本文从系统科学的角度对该系统进行分析研究,希望对图书借阅系统的分析设计和信息传播提供有益的帮助。
  

相关热词搜索:标度 借阅 人类 基于图书借阅的人类行为标度律分析 图书情报 图书情报硕士

版权所有 蒲公英文摘 www.zhaoqt.net