[微博客用户行为特征与关系特征实证分析]用户行为特征

发布时间:2020-03-07 来源: 美文摘抄点击：

　　[摘要]微博客是继博客之后迅速发展起来的一种新的社交网络平台。以“新浪微博”为研究样本，较为系统地研究微博客的基本结构、信息传播一般模式，考察微博客用户基本行为特征和关系特征，分析微博客影响力的相关变量，并建立影响力回归方程。
　　[关键词]微博客　影响力　信息传播
　　[分类号]G350
　　1　引　言
　　
　　微博客是博客的一种变体，在维基百科中被描述为“一种允许用户及时更新简短文本并公开发布的博客形式，允许任何人阅读或者只能由用户选择的群组阅读。用户可通过即时通讯工具、网页等终端发布、更新博文”。博客虽已成为一种有效的信息沟通与交流方式，但依然具有进入门槛，而微博客则将门槛降到最低。
　　本文首先分析微博客的运行机制，再以“新浪微博”作为研究对象，提取数据样本，应用社会科学统计软件、表格处理软件和文本自动分类方法，挖掘“新浪微博”中用户行为特征；最后应用社会科学统计软件对表征用户关系的参数进行相关与回归分析，揭露“新浪微博”中用户关系的一般规律。
　　
　　2　微博客网站的运行机制
　　
　　2.1　跟随机制
　　用户之间的沟通交流基于一种“关注与被关注”的跟随机制，即用户可随时“关注”他人，成为他人的“粉丝”，其他用户也可“关注”自己，成为自己的“粉丝”，此过程为双向可逆过程。跟随机制使得用户以最简单的方式订阅信息、广播信息，形成一个个大小不一的传播节点。如图1所示：
　　
　　2.2　信息传播机制
　　用户信息在发布的同时会被传送到跟随用户的接收终端(Pc、PDA、手机等)，跟随者接收后可及时作出评论，也可选择将消息继续转发出去，让更多的用户得以分享。在信息传播过程中，信源与信宿之间是一种“后背对前脸”的信息流动，可以一点对一点，也可以一点对多点，信息像广播一样同时传递给所有跟随者。3数据获取与预处理
　　本文研究样本来自“新浪微博”的“随便看看”板块。“新浪微博”是由新浪公司开发的一款国内主流的微博产品，作为样本具有一定代表性。从2009年11月30日至2009年12月30日，在每天的19点至2l点时段，随机选取该板块100条微博内容。对每条微博内容的处理过程为：提取发布者、发博途径、博文内容、博文转发数、博文评论数五项数据，再通过“发布者”链接至其个人主页，提取个人的关注数、粉丝数、博文数三项数据，上述八项数据组成一条记录。最终得到3000条记录作为样本，将样本记录保存为Excel文件。
　　
　　4　用户行为特征分析
　　
　　4.1　转发与评论行为分析
　　所有记录对应的3000条博文，有1176条被转发，1660条被评论，分别占总数的39.20％和55.33％。有些博文包含一个链接地址，指向新的页面，本文称之为含链博文。在含链博文中，被转发和评论的比例分别为37.30％和53.17％；剩余的不含链接博文，对应比例分别为39.47％和553.64％。如表1所示：
　　
　　上述数据说明不管是否添加链接地址，不管是可直接阅读的博文还是需要打开链接再阅读的博文，被转发率和被评论率基本持平。
　　
　　4.2　发博途径分析
　　超过80％的用户通过新浪网页发布博文，通过手机网页和手机短信发布的用户分别占到11％和7％，另有少量用户借助手机彩信更新内容(见图2)。
　　
　　大部分用户习惯使用较传统的微博网站发布博文，其比例与国外微博网站(如Twitter)差别较大。据加拿大社会化媒体分析公司Sysomos Inc对Twitter网站的调查，有超过一半(55％)的Twitter用户使用工具而不是通过Twitter，com发布信息；Twitter网站创立时间较早，拥有大量客户端插件，用户发博方式多种多样。
　　
　　4.3　博文长度分析
　　由于含链博文是由一个超链地址及少量说明性文字组成，进行博文长度分析的意义不大，因此将含链博文暂时剔除，对剩余的2622条博文进行长度分析。新浪微博规定每条博文最长不超过140个中文字长，每个汉字或中文标点符号为一个字长，每两个数字、字母或英文标点符号为一个字长。以此为标准，利用Ex―cel文本统计函数计算每条博文长度；博文如包含英文单词或数字，以手工方式处理，一个单词或一组数字计一个字长。结果如图3所示：
　　
　　可以看出，包含10-20个字的博文所占比例最高。随着博文包含字数的增加，相应的博文数量逐渐减少，说明微博内容短小精致的特性迎合了大部分用户的需求。多数人发布微博内容远远低于140个字的最高限定。值得注意的是，也有一定数量的微博由140个字组成，表明其用户希望尽可能详细地进行自我表达；如果超出字数限定，他们可能发布含链博文。
　　
　　4.4　发博数量分析
　　约2100人(占样本总数的70％)已发博文数集中在200篇以内，约300人(占样本总数的10％)已发博文数在200到400篇之间。随着微博数量区间不断增大，对应的发博人数不断减小，整体呈现出比较明显的幂律特征。如图4所示：
　　
　　4.5　博文内容分析
　　提取样本中的博文内容生成词频统计分析样本，采用武汉大学ROST WordParser中文分词系统进行切词及词频分析。样本总长度为284988字，切词后得到74304个词语，删去没有实质意义或专指度很低的关键词及其频次，比如“是的”(1181次)、“多少”(105次)、“没有”(160次)、“还是”(118次)、“什么”(140次)等，将剩下关键词的频数阀值设定在20次，将每个词的频次记在表的同一行上，如表2所示：
　　结果分析：①“今天”、“现在”、“昨天”、“最近”、“今年”、明年等词语突出时间概念，这与微博客注重随时沟通与分享的核心价值、注重信息传递过程中的时效性等特征相吻合。②“自己”、“大家”、“我们”、“你们”排序靠前，表明发布者倾向于以第一人称、口语化、较随意的形式进行自我表述。③“中国”、“北京”、“世界”、“上海”、“美国”、“广州”、“台湾”等词语反映的是一些热点城市或国际热点地区。也许因为大量用户来自北京、上海等发达地区，也许是用户更多关注热点地区问题，从目前的信息中无法推测，需要结合其他方法加以验证，这也是今后需进一步探索的内容。④“李宇春”、“哥本哈根”、“小沈阳”等词语的出现，表明可以借助微博客适度挖掘一段时间内的热点词汇或热点问题。
　　
　　5　用户关系特征分析
　　
　　由于“博文转发数”、“博文评论数”、“关注数”、“粉丝数”、“博文数”等数据项不满足正态分布，本文应用Spearman相关系数对上述数据项进行相关性分析及回归分析。Spearman相关系数计算公式如下：
　　
　　
　　5.1　样本二次处理
　　“新浪微博”的商业运作注重名人效应，用户中不乏各界名人，有些名人所发博文甚少，仅靠名人效应能吸引大量粉丝(如著名主持人何炅，博文数为l，粉丝数为17615)，此类记录易对统计分析结果造成干扰。现将包含“名人认证”标识的记录删除，得到新的样本，共2102条记录。
　　
　　
　　5.2　相关分析
　　相关分析是一种基于假设检验的统计分析方法，相关系数表明两变量之间的相关程度。一般情况下，相关系数绝对值≥0.8时，视为高度相关；0.5≤相关系数绝对值

[微博客用户行为特征与关系特征实证分析]用户行为特征

热点文章阅读