大数据时代是什么 [互联网时代的知识隐忧]

发布时间:2020-02-21 来源: 美文摘抄点击：

　　互联网的普及，使知识的形态以及我们获取知识的方式发生了巨大变化，您能具体谈谈这些变化主要表现在哪些方面吗？　　利求同：20世纪中叶，麻省理工学院教授利克莱德（J.C.R. Licklider）提出了“计算机功能分享”的愿景，互联网就是这愿景的实现。互联网的崛起，其实是一场信息革命。不久前，人类储存的信息已高达295EB（Exabyte，百亿亿字节），如果存入光盘，光盘会堆至月球都不止。1986年至2007年, 世界范围计算机能力的年增长率为58％。2002年，数码信息储量首次超过了各类传统载体的总和。五年后，全球约94%的信息“记忆”，已变为数码。大家都受益于这个奇迹，并为之折服。但同时，互联网又带来了全方位的挑战，我们习以为常的知识生产、管理、传播、学习、使用的方法跟习惯，都动摇了。
　　在个人层面上，首先是知识信息的质量变得良莠不齐，难以控制。互联网通过服务器、宽带、超文本等手段集合众多分散独立的信息源，形成两百五十多亿个可标引网页。这庞然大物信奉民主，鄙视内容审查，原则上，任何人都可以实名或匿名，上载下载文献，随时更新内容。在虚拟世界里，正如苏格拉底担心的，知识信息与作者的关系变得松散模糊，文字内容同作者的行为、荣誉及品格不再关联。网上信息的内容“海量”重复，真假难辨。这就要求互联网使用者，如果审慎的话，要对所得信息仔细甄别与筛选。
　　其次，信息保存的难度加大了。现在我们发短信、写电邮、起草文件、分析资讯等等，一切都数码化了，必须使用阅读装置才能处理。但同时，软硬件技术迅速更新，制式标准不断换代，这些数码化记录很快就没法阅读了，除非请专业人士协助“破译”，非常费工，且不安全。这问题让公司和政府部门很头痛，数码信息维护成本高，稍不留意就丢失了。
　　第三，更为严峻的是，“互联网大脑”对深度阅读思维跟创新能力的威胁。面对信息轰炸，我们的大脑容易超负荷运作，无谓地损耗注意力。互联网是个链接世界，读者跟着链接到处浏览，系统而连贯的阅读，就难以延续了。久而久之，养成一种蜻蜓点水、跳跃式的阅读习惯，导致推论、分析、批判、洞察等高级认知行为来不及调动，阅读思考便提前结束。这个倾向令人担忧，会不会阻碍科学探索、知识创新呢？西方学界做了不少研究，详细的讨论，请参阅拙文《互联网大脑，能阅读思考？》（《书城》2011.4)。
　　在社会和历史层面，则是知识管理何去何从的问题。知识管理是知识生产链上至关重要的一个环节。两千三百多年前，埃及托勒密王朝的亚历山大城图书馆，创立了以图书馆为中心的知识管理模式，沿用至今（参见拙文《心智的圣所》和《Pinakes》，载《书城》2010.9 & 11）。图书馆收藏书卷抄本等各样文献，分类著录整理校辑，供学者、科学家和普通读者使用，达到知识传承的目的。传统图书馆是围绕着书籍这一知识载体而运作的。印刷术虽然大大促进了学术交流和教育普及，但书籍的传播范围和速度还是很受限制的。印刷品一般只能在一时一地阅读使用。所以，图书馆要按照社区分布，根据读者的需求收藏复本，才能做到知识分享。而出版物一旦入藏，图书馆就永久拥有其产权，并藉此实现馆藏的管理和借阅流通，形成一个多重子系统、互为后备的分散式组织结构。这技术性功能是看得见、摸得着的。
　　图书馆还有一个更为根本的社会功能，它不仅收藏知识，还要确保知识的公有共享。因此现代图书馆多取非营利的组织形式，无论官办私立。公立图书馆纳入国家、地方政府、学校或研究机构，给予财政预算；私立图书馆，则有专门设立的基金做后盾。这样，不以营利为目标，少受市场动机（包括知识产权）的干扰，在知识四周筑起一道围墙，保证了全社会对知识相对自由的使用，实现公有共享。历史证明这是有效的。
　　互联网的崛起，信息载体和传递方式数码化了，知识管理进入了一片新天地。信息的收藏、整理、传播、使用不再受地域和传统载体的限制，分享可以异地、共时、随机并大规模地实现。比如，在中国偏远地区查阅美国Westlaw的判例文献，已无技术上的障碍。互联网极大地便利了知识共享。相比之下，传统图书馆尽管引入了数码技术，但它代表的知识管理方式在新技术面前显得笨拙，效率低。近年来，世界范围内，图书馆，尤其是研究型图书馆的使用率普遍下滑。据(美加)研究型图书馆学会（ARL）2008年统计：与2005年相比，成员馆的使用率下降了35％－50％；研究型（参考咨询）服务的利用率，则从1996年的顶点下跌了63％。连一流大学也不能幸免，例如耶鲁大学图书馆网络目录的使用率，2008－2009学年较前一学年下滑21％。这一趋势，跟互联网的扩张刚好同步而成反比，显示出人们获取知识的来源和方式变了。图书馆的读者在减少，社会对它提供的知识信息的依赖程度在降低。图书馆作为知识管理核心机构的崇高地位，从技术上被动摇了，面临两千多年来最大的一次危机。
　　
　　互联网对传统图书馆的冲击这么大，您认为会取代后者吗？为什么？
　　利求同：互联网取代图书馆，成为信息储存管理和使用的中心，这在技术上已没有悬念，事实上也正在发生。九年前，埃及的新亚历山大城图书馆开馆，意大利符号学家艾柯先生应邀发表演讲，论及图书馆正在“成为博物馆，保存的是印刷时代的遗产，供人参观”。这个观点有相当的代表性，但我以为不必太悲观。毕竟，知识公有共享的理念已深入人心，而图书馆原是这一理念的体现。只要我们坚持公有共享，追逐利润的互联网公司就难以取代图书馆的传统职能，尤其是公共图书馆。知识是一种非常特殊的财富，不管是谁创造的，都应该而且必须为社会共享，这在全球化的时代尤其重要。
　　也许有人会提出：如何解释知识产权？知识产权给予作者、发明人等权利人的产权和保护，是有期限的，并受到公共利益（言论自由、学术研究、公平竞争、生物品种及文化遗产保护等等）的限制。也可以看作是一种妥协，即知识伦理对私有产权的让步。虽然数码技术给知识共享带来许多便利，但互联网信息服务的“巨鳄”，是谷歌、百度那样的公司。他们日常的营运，便是在市场利润的驱动下，在信息领域圈地，将知识转化为私人财富，即商品。不过有时候，那商品化做得比较隐蔽，如搜索引擎对信息分类排序及收费的商业策略。在不知不觉之中，公共利益就让位于商品交易规则，知识共享成了附加种种条件的商业行为。更让人担心的是，互联网的技术进步使得知识管理领域开始具备自然垄断的经典要素，呈现了规模经济和范围经济的发展趋势。当巨鳄们利用知识产权来阻止市场竞争，假如司法或行政上的反垄断干预不力，后果便是知识共享的终结。谷歌图书计划便是一例。谷歌企图通过与美国出版商和一部分作者达成协议，扫描世界各大图书馆的藏书，建立一个空前绝后的巨无霸数码图书馆。它画了一幅诱人的前景：谷歌图书馆乃是“我们的图书馆”，仿佛公司的目标不是为了赚钱――排除竞争，独家赚钱。
　　幸好，公共图书馆使用率的增长，让我们看到了希望（参见拙文《借图书馆对大萧条说“不”》，载《书城》2011.2)。公共图书馆对社区文化建设、公民教育和民主政治，都是举足轻重的。慈善家卡内基认为：“世上的民主摇篮，非免费公共图书馆莫属。在这个知识理想国里，无论等级官阶还是财富，一概无须考虑。” 正是由于这一理想，虚拟世界还无法取代公共图书馆。哈佛法学院桑斯坦(Cass Sunstein)教授的研究表明，互联网对民主具有一种极端化效应。网上的言论环境可以瞬时汇聚大量用户的意见表达，但这类虚拟“部落”的形成往往有很强的自我选择倾向，造成“人以群分”的局面，多元化视角迅速消失，会扭曲甚至压制言论自由。因此，人们需要有不加选择而相遇的机会，尤其是各种迥异想法和论题之间未必愉快的碰撞，通过理性交流，达成共识。公共图书馆在互联网时代的一大功能，便是提供这样一个真实的社群空间。
　　当然，这次西方的金融危机，公共图书馆的日子也不好过。在英国，政府不得不削减经费，今年年初决定关闭四百多个公共图书馆。公众大哗，2月5日举行全国抗议日，表达对知识公有共享和真实社群空间的理念的坚持。可见，民主政治也是抗衡互联网大公司劫持知识管理的主要力量。
　　
　　那么，图书馆是否可以像以往入藏图书一样，通过购买数据库，继续保存、传布知识呢？
　　利求同：这正是图书馆的一大困境。互联网数据库正在逐步解除图书馆的基本技术功能。在美国，图书馆的收藏，数据库的比例越来越大。据ARL统计，至2007－2008学年的过去十年，成员图书馆电子文库的采购费用，已超过采购总额的50%。但是，购买的数据库并不为图书馆所有，因为商家出售的只是“时间”，即某一时段的若干户头，通常是一年内对数据库的有限使用权。到期不续，使用权作废，数据库即拒绝访问。图书馆的数据库收藏，因此不像入库的传统书籍，只是一份允许访问、查阅、下载和打印文献的使用合同。数据库完全改变了馆藏的意义。图书馆不再是知识的收藏与管理机构，变成了知识管理者和使用者间的服务中介，而这中介的地位，因为知识管理的商业化垄断，也已岌岌可危。互联网为自己制造了高度依赖的使用者，买方的需求弹性很低，卖家的价格弹性也低。比如，荷兰Elsevier公司是全球最大的科技和医学期刊数据库出版商，仅购买它某些产品一年的使用权，我国几大研究型图书馆就花费了两千七百万美元。其中中科院图书馆在过去三年中，为Elsevier数据库支付的费用上涨了48%，而Elsevier未来三年的要价，还要再飙升48%。这是数据库出版商梦寐以求的市场垄断，更是图书馆、科学界和读者的噩梦。
　　谷歌的创始人之一谢尔盖?布林，在谷歌图书计划协议被法庭驳回之后，发表声明说：伟大的亚历山大城图书馆曾经收藏了巨量的人类知识信息，但这些珍贵的文献都毁于天灾人祸了。谷歌不希望悲剧重来，要让全世界的知识都得到安全妥善的保管，而谷歌图书计划就是为了实现这一目标。问题是，我们愿不愿意让一两个追逐私利的公司将知识，尤其是高端知识，转化为商品，替我们保管？这事太重大了，应当由公众通过民主程序来作出选择，而不是“被选择”。
　　
　　除了对图书馆的冲击，互联网时代知识的隐忧还表现在哪些方面？
　　利求同：隐忧是多方面的。有几点需要特别指出。第一，高端知识被剥离出公有领域，对科技和经济的均衡发展，以及公平竞争不利。传媒大亨默多克的新闻集团认为，互联网必须区别对待信息：娱乐、新闻和八卦信息免费开放，财经等领域的深度分析却放在收费墙（paywall）内，实行论价准入。又如，STM（科技和医学）出版物也是商家的赚钱机器，决不会跟不易垄断的低端信息，如大众娱乐、体育评论和新闻报道同一价格。这样，互联网上大家免费或花很少钱即可获得日常生活方面的信息，营造出知识分享的乐园景象；而高端的科技、金融和各领域的竞争信息却日益昂贵，连研究型图书馆都在大叫买不起。对普通百姓来说，高端数据库原本就离他们的生活很远，似乎贵一点不是什么问题。但是，许多发展中国家和地区就处于十分不利的地位，买不起高端知识，教育科研和经济发展都会受阻。
　　全球化的今天，政治与经济自由的保护及文化发展，越来越依靠技术支撑。有数据显示，进入互联网时代，贫富差距或所谓“数码隔阂”正在扩大；尽管电脑、手机日益普及，人们收集处理信息的能力，反而更加不平等了（见《Science》2011.2.10综述）。按理说，高端知识的商业垄断是最不可取的选择。重大科研成果的开发，多数有政府的支持，包括互联网本身就是美国国防研发计划和经费投入的产物。本该公有的知识成果，仅仅由于出版和信息服务商家的收集与组织加工，公众乃至知识创造者群体就不得不接受高价使用，这不能说是合理的社会秩序。
　　至于我国的学界现实，还有另一个隐患：学术期刊出版在向电子版转移。由于人所共知的原因，目前国内学术期刊的信誉不高，学术评价体系基本官僚化了。所以，较为优质的研究成果，作者都会争取在国外期刊上发表。现在的科研奖励政策，似乎也鼓励这么做。而国外学者的论文，一般也不会向中国期刊投稿。于是，高端知识出版物的产权和管理权全部落在了发达国家，主要是英语国家手里，而电子出版使得发达国家对高端知识的控制和导向，变得更加容易。与此相关，另有一个弊病，就是科研人员为了迎合国外期刊的发表导向，必须放弃一些本土所需的研究，而致力于西方的“主流”或“前沿”学术。这就涉及国家的发展战略了。
　　
　　那就需要调整一下科研政策了。
　　利求同：可不是嘛。再比如个人隐私的问题，如今Facebook、微博之类大行其道，用户的网络行踪、个人和家庭资料，都被网络服务商永久保存，随时取用（包括出售、泄漏）。事实上，这些大公司比我们自己、比政府更了解我们，因为掌握了我们的长期行为细节，甚至心理习惯。根据这些细节和习惯，可以量身定做商品推销的广告，当然，保险公司也可以重新计算风险，拒绝我们的商业医疗保险申请。面对互联网，我们毫无隐私可言，只能寄希望于商家的“仁慈”，没有人可以例外。当大公司掌握了政客的私密，公众就很难期待他们为自己说话，代表自己的利益了。
　　再一个宏观隐患，是语言优势。互联网世界是英语主导，别的语言难以匹敌。以谷歌搜索引擎为例，英语文献的搜索结果在排序上优先。所以，好些欧洲国家，包括法国、德国，对此都十分敏感，非常警惕自己的知识信息，乃至语言文化，被英语互联网收编而降格的可能。这方面中文比较特殊，不是拉丁字母，又有跟谷歌竞争的中文搜索引擎，这给汉语文化安了一条屏障。互联网时代，方块字的一个强项，在文化防卫功能。
　　
　　面对这些隐忧，您觉得有什么解决之道吗？
　　利求同：互联网不会消失，将与我们同在，而大公司是进攻型的。因此，公众个人需要提高警觉，注意保护自己的阅读思考能力，及个人和家庭资料安全。全社会则需要认真考虑，决定未来的知识管理模式。无论是否由图书馆继续担当知识管理核心机构的职能，有几个问题不容忽视。首先，互联网“巨鳄”的财力和能量极大，只有“国家”才能与之抗衡。一个服务公众的数码图书馆应该“国有”，即由国家财政来支持。第二，争取实现学术与科技文献的“开放准入”（open access），让高端知识在互联网上免费或低价使用。开放准入将最大限度地实现知识成果的公有共享。这就需要重建学术评价体系，与有力的反垄断法规齐头并进。第三，在技术、经济、立法之外，还应加强对互联网的社会、历史、心理、教育等方面的综合研究，探索这一新科技领域的方方面面，以求消除“数码隔阂”，确保高端知识留在公有领地。
　　亚历山大城图书馆以降，印刷术的发明曾给知识生产和管理带来了勃勃生机。互联网的出现，又是一次巨大的机会和挑战，即重塑人类知识的未来。确实困难重重，但我们非常幸运，能有这样的历史性机遇。
　　（摘自5月8日《东方早报》）

大数据时代是什么 [互联网时代的知识隐忧]

热点文章阅读