社会性人物搜索研究:人的社会性本质

发布时间:2020-03-07 来源: 美文摘抄 点击:

  [摘要]分析社会搜索和社会性人物搜索的相关研究,给出人物搜索和社会性人物搜索的定义、特点及一般流程,对近年来社会性人物搜索的热点事件分析,基于上述研究,进一步给出社会搜索的过程框架和工具软件,并完成第一阶段的软件开发,发布了ROST系列社会性人物搜索工具。
  [关键词]社会搜索 人肉搜索 ROST 情报分析 社会计算
  [分类号]TP393
  
  1 研究背景
  
  社会性搜索引擎由提问者提出搜索目标,通过某种激励机制来发起其他的网友对其进行回答,沉淀的知识形式是针对问题的答案,本质是一个互动问答平台,让人与人之间就各种知识或问题进行沟通,鼓励更多的人参与互助,英文译为Social Search Engine。2007―2008年间共有约29篇英文文献讨论社会性搜索问题,主要分布于计算机、情报学、图书馆学、教育技术、互联网科学等领域,D Bottazzi谈到语义中间件将应用于普适环境的社会网络中,社会搜索将变得至关重要;T Yamakami讨论了移动Web2.0如何从利用社会搜索传统Web以及移动环境吸取新的创新动力;KF White主要谈到了利用社会性搜索进行跨组织的知识共享问题;s Bao研究了利用社会标注改进搜索引擎效果;M Dalai研究了个性化社会性协同搜索;EH Chi和P Pirolli研究了社会信息获取和社会搜索的关系;Jason Calacanis推出Mahalo,其全部搜索结果都是编辑手工挑选产生;Google张智威认为社区是下一代搜索技术的曙光;Marissa认为未来搜索引擎将会共用自动化和人工劳动。在韩国Naver互动问答平台已占据77%搜索引擎市场,而Google只有2%,国内与之类似的有新浪爱问、天涯问答、百度知道和雅虎知识堂。
  
  在社会搜索中存在一种特殊的搜索形式,即社会性人物搜索,俗称人肉搜索。人肉搜索引擎是指利用人工参与来提纯搜索引擎返回信息的一种机制。人肉搜索的理论本质是依据网络跨媒体素材获得少量的人物信息特征,不断调整搜索策略迭代搜索,最终获得搜索对象的全部真实人物信息的包含信息分析的复杂检索过程,英文一般译为Human Search。
  社会性人物搜索诞生于2001年的猫扑论坛,2004年“铜须门事件”进入大众的视野,“社会性人物搜索”是2007年的年度热词之一,“姜岩事件”将社会性人物搜索推到了前所未有的高度,从Google Trends的搜索趋势可以看出,目前每天社会性人物搜索量达到4000次,而2007年仅有200次/日。从社会学角度看社会性人物搜索存在程序正义、侵犯隐私权等问题,存在一个政府不断改善监管调控和网民自组织涌现的过程,随着网络公民搜索意识的进一步增强,社会性人物搜索将会逐渐走向完善,并将最终发展成有效的舆论监督工具,并进一步进入门户网站。大规模社会性人物搜索是中国独有的网络现象,国外只有小规模类似应用,目前未见理论文献对该问题进行研究,因此笔者准备就以上问题展开论述。
  
  2 定义、产生原因及特点
  
  笔者把社会搜索分为两种类型:一种叫作服务器端社会性搜索如Sproose、Mahalo、iRazoo、Bessedt、wikia、百度知道等;一类叫作客户端社会性搜索,典型的如由网友发起的社会性协作式人物搜索,传播范围是Personal→Group→Public Web→统媒体,在某种程度上,随着信息丰富性的增加而加大,逐步向更大面积传播,信息真实性和传播面积成一定正比关系,如图1所示:
  搜索引擎SEO灾难导致搜索引擎返回网页质量的直线下降,同时搜索引擎不能完全解决用户的所有问题,搜索引擎只是返回网页,而用户需要的是某些具体的相关性信息,现有搜索引擎技术还不能在语义层面智能化给用户精确回答,因此,机器搜索结果还不能替代情报分析。对于人物信息精致而准确的需求导致社会性人物搜索的出现,从这个角度讲,互联网的发展将极大促进包含了数据挖掘的情报分析技术的发展。
  
  其特点主要有以下方面:
  ?动机热点化。整个社会性人物搜索发起一般是由于热点事件,所以社会性人物搜索等发起具有一定门槛性。未完成社会性人物搜索时,事件往往在互联网中发酵,一旦完成,该事件才进入传统媒体领域,这是因为传统媒体领域本身非常强调真实性和可追溯性。有影响的社会性人物搜索往往发端于娱乐事件,和时事热点密不可分。
  ?技术高级化。有些信息必须利用高级的搜索引擎技巧和情报分析技术以及社会网络、心理学成果才能找到,然而这些很难被大多数的普通用户所掌握。由于传统搜索引擎检索网页的局限性,所以必须查询穷尽一切可能的搜索引擎及查询手段来进行搜索。在很多时候还需要对跨媒体素材中隐含的线索进行细致的梳理,从而构造出最终能查询到真相的实施策略。
  ?行为的社区化。搜索行为和社交活动相结合,这一变化给个性化搜索带来新的发展方向。用户在搜索过程,不断积累社会关系,从浅关系到弱关系,再到强关系,构建出一个个旨趣各异的圈子或者虚拟群,搜索过程就是人际交往过程。
  ?劳动密集化。社会性人物搜索将是一种劳动密集型行为,今后将出现大量人工编辑的搜索引擎,每个编辑只负责几十到一百个词条,从而返回高度相关的检索网页。这些词条由编辑每天更新索引和决定排序,并且在每个用户查询的同时有若干工作人员为他/她服务,用户最后采纳了谁给出的搜索结果,谁就能获得报酬。而检索次数较少的检索词是以长尾化形式呈现的,此时可以采用现有排序算法进行相关性排序。
  ?虚拟和现实的渗透性。在互联网中有时并不一定能够搜索到所有需要信息,此外,如电话号码、职位之类的易变隐私信息即使检索到了也是无效的。这种虚拟和现实的交互性决定了社会性人物搜索有时呈现出一种跨越地域的网友合作调查形式。
  
  3 社会性人物搜索流程及案例
  
  
  利用Google、百度、有道、搜狗、Yahoo、Live Search、迅雷等搜索引擎,不断调整搜索策略获得不同的返回结果。对于高学历人员,可以搜索文献资源数据库中找到他的导师和同学,从毕业分配办公室或者校友会的网页上也可找到其毕业工作情况,而已删除网页可通过百度快照查询。
  从被搜索者的社会网络入手,例如其朋友或亲人的博客,也可以去校友录网站去找他的求学经历,还可以到论坛、在线购物、求职网站进行搜索,大部分网友都会注册某些论坛。由于人的信息使用惯性,一般会使用相对固定的注册号或者邮箱进行注册,所以可以通过某个注册号,获得他在一系列网站的情况。在这方面今后将可用展现个人网络活动的路线图软件辅助搜索。
  可通过论坛或QQ留下的IP查找被搜索者上网地点,并且识别被搜索者的马甲(泛指同一个人的不同ID)。可以从注册号的注册时间、习惯用词以及活动的 相关性上进行猜测。因此网络用户真实身份识别工具也将逐步出现。
  如果知道对方所在地区,可以利用Google卫星地图、MapABC查到他户外照片的确切所在地。还可以结合现实的社会机构进行查询,在不违反法律情况下,可通过公开的银行、通信服务商、地产中介、网上商城以及手机资料库查询到人物的信息,如电话归属地等。
  在整个搜索过程中最重要的是必须具备一定的逻辑分析能力,整合梳理庞杂信息,整合出可被验证的调查结果。其本质是利用信息分析技术,充分挖掘社会网络,利用社会网络来搜索,表1是目前已经发生较为著名的社会性人物搜索的案例分析。
  从表1可以看出,社会性人物搜索呈现出较大的差异性,处在发展早期,整个互联网都在摸索如何将社会性人物搜索进行完善和改进,显现出一定的自发性和无序性。
  
  4 ROST社会性人物搜索过程框架及工具
  
  依据前面的案例和理论分析可以给出一个社会性人物搜索的整体过程框架(见图2),在这个框架中,利用现有搜索引擎进行分析还需要辅以很多手工工作,例如在各个搜索引擎中的信息集成;灵活调整的搜索策略;需要尽可能多的相关搜索词及搜索策略重写工具,社会网络的深度分析工具,证据保存软件;证据集成和发布一体化工具,语义性相关挖掘工具及群发工具。针对以上各个环节,我们开发了数款适合社会性人物搜索的工具。
  ROST元搜索引擎解析工具,主要实现以下功能:针对Google、百度和Yahoo实现某个搜索词的所有返回结果结构化,把摘要、链接等元组全部解析成一条条的记录字段,存放在一个Excel中,自动把某个搜索词在多个搜索引擎中的相关链接全部抓取出来,以便进行进一步的处理。本版本已经发布互联网的免费版,搜索即可下载。
  ROST搜索策略采集和分析系统,可以针对多个搜索引擎,采集高度相关的搜索策略候选词,目前给出的下载文件是一个高频1万词集,152,027句的相关词句集。
  ROST正文抽取和信息指纹提取工具,针对某个网页进行正文提取,并给出某个人的语言风格。
  ROST BlogGroupTools可以采集某个网站的Blog圈信息,目前已能采集CSDN中所有博客的全部信息,并已成功应用到985项目中。
  
  5 结语
  
  社会搜索引擎大大降低了进入搜索行业的技术壁垒,高妙的搜索排序算法也许不如聘请一个本科水平的专职人员。这种新的搜索模式为发展中国家网络服务商进入发达国家市场提供了机会,方式类似当年印度软件巨头靠低成本打入美国软件外包市场。对全球的搜索引擎市场将产生深远的影响。我们将在社会性搜索工具研发方面进行的研究,同时对社会性搜索协同模式进行更加深入的研究。

相关热词搜索:社会性 人物 研究 社会性人物搜索研究 人物搜索 搜索人物

版权所有 蒲公英文摘 www.zhaoqt.net