论数据挖掘与电子商务的契合:电子商务数据挖掘

发布时间:2020-03-07 来源: 感悟爱情点击：

　　[摘要]指出以6个论题为基础的数据挖掘可以有效地帮助企业优化决策管理、客户关系管理、协同商务管理、营销模式管理、网站维护管理和风险控制管理、确认目标市场，以获得更大的竞争优势。其次通过对电子商务环境下Web挖掘技术的论述，具体分析Web内容挖掘、Web结构挖掘、Web访问挖掘对于电子商务的作用，并对具体技术进行分析与评价。最后介绍国内外电子商务数据挖掘的主要研究内容。
　　[关键词]数据挖掘　电子商务　Web挖掘
　　[分类号]F713 TP393
　　
　　1　引言
　　
　　电子商务最早于20世纪60年代初在美国等国家兴起，但直到20世纪90年代随着互联网的高速发展，以互联网为平台和依托，电子商务才真正意义上发展起来，正在或终将从根本上改变社会经济的运行模式、商务活动的运作方式以及人们的消费模式。它以电子交易为手段，借助计算机和网络等技术快速而有效地完成商品和服务的买卖，实现商务活动的数字化、网络化、自动化、智能化、无纸化和全球化，缩短商品流通时间、强化供需双方联系、减少费用、拓展市场和提高服务质量，达到树立企业形象、增强企业竞争力和提高经济效益的目的。据美国有关机构预测，Internet上的电子贸易额在2010年前后会持续猛增，最后相对稳定在10000亿美元左右。
　　然而，电子商务的健康、有序和迅速发展却存在着一系列十分复杂而又亟待解决的问题。除了要明确我国电子商务的发展战略和运行环境、政府在电子商务中的作用与职能、管理模式、可信赖机构的作用、对传统企业管理模式的变革、良好的信息和安全基础设施之外，还要重点解决与发展与电子商务有关的科学和技术及其应用问题，例如电子商务环境下的数据挖掘。本文即是对电子商务与数据挖掘的契合方式、相关技术及其应用、主要研究内容的系统论述。
　　
　　2　数据挖掘与电子商务契合方式
　　
　　数据挖掘起源于20世纪90年代中期，推动其诞生、发展的众多原因中，对商业数据背后潜在知识的迫切需求和人类分析信息的有限能力之间日益增加的矛盾是其根本动因。利用数据挖掘研究电子商务产生的不确定性海量数据中信息的分布规律，挖掘其中隐含的关系、模式和趋势，进而发现具有规律性的知识，可以帮助企业优化企业决策管理、客户关系管理、协同商务管理、营销模式管理、网站维护管理和风险控制管理，确认目标市场，获得更大的竞争优势。
　　要使上述数据挖掘的效果真正体现出来，理论界和实务界认为迫切需要研究和解决的问题有：①什么样的商务站点可以赢得更多用户的青睐?卖方如何根据用户的嗜好改进自己的商务站点，以吸引更多的潜在买方光临?②卖方如何有效地利用商务站点展开宣传攻势?③卖方如何充分利用用户浏览产生的信息，更好地为潜在买方提供个性化服务?④卖方如何根据自己掌握的有关信息预测客户需求趋势和潜在客户群体?⑤用户如何在浩如沙海的虚拟市场中找到自己需要的商品?⑥如何才能提高客户的满意程度?如何才能知道哪些客户是公司的主要利润来源?⑦如何防止或减少电子支付欺诈，以充分保障银行和买卖双方的利益不受损失?⑧竞争对手和自己网络营销上存在什么样的区别?
　　本文从数据挖掘的角度，将与电子商务的契合方式抽象为如下论题：①论题1：Web页面或资源聚分类研究；②论题2：客户群聚分类研究；③论题3：频繁访问路径挖掘研究；④论题4：交易关联性挖掘研究；⑤论题5：异常客户与异常交易检测研究；⑥论题6：互联网下供应链关系挖掘研究。下文将对这6个论题所涉及的主要技术及其应用、主要研究内容进行阐述。
　　
　　3　电子商务环境下Web数据挖掘的主要技术评述
　　
　　3.1　技术概述
　　电子商务产生的数据具备异构、不确定性、无结构或半结构、动态性和海量性等特点，复杂程度已远远超出了人类目前已有的分析能力。基于Web的数据挖掘与传统的数据挖掘有许多不同之处。上文所述论题的Web数据挖掘主要包括三种数据挖掘任务：
　　3.1.1 对Web内容的挖掘互联网电子商务数据呈指数形式飞速增长，然而当用户(无论买点、卖方或任何商业关联方)面对整个Internet的海量数据时，却感觉很难找到对自己有用的商业数据。例如：当买方在互联网寻找适合自己的商品和服务、比较商品价格和交易条件时，需要尽可能搜集此商品的相关Web页面，即以商品作为Web页面聚类或者分类的依据，以此提高电子商务交易过程尤其是前期交易过程的效率。总的来说为方便客户，应该为他们提供一步到位的查询解决方案，Web页面的自动聚分类方法有助于压缩搜索空间，加快检索速度，提高查询精度，帮助客户快速找到相关信息。
　　3.1.2　对Web结构的挖掘　Web页面是半结构化的，在Web页面不仅有各种内容信息，而且存在特定的结构标记，其中最重要的标记就是超链接。Web页面所包含的知识不仅存在于各个页面的内容中，也存在于页面之间的相互链接中。
　　对于电子商务而言，一个重要的问题是要找到对某个商业主题可以当作核心信息源的一些网站和网页。通过对Web电子商务进行数据挖掘时理解和利用超文本链接结构，可以此核心信息源为基础，优化供应链和虚拟企业产生和运作的效率，有助于网络电子商务社区的发现和利用。
　　3.1.3　对Web访问的挖掘　对Web访问的挖掘是目前研究最深入的Web数据挖掘技术。在Internet电子商务中，电子时空下推拉互动的双向交互信息被记录在Web服务器的日志文件中。Web日志一般可分为访问日志、代理日志和引用日志。
　　对于拓扑结构已知的特定商务站点，尽管用户在不同时期可能有不同的浏览模式，但就长期而言用户行为是有一定的规律及趋势的。通过分析Web日志文件，可以发现其中蕴涵的相似客户群体、相关Web重要页面和有关客户访问模式。以频繁访问路径和相关Web重要页面为依据优化商务站点结构，实现网站自适应；以客户分类为依据为客户提供个性化服务(如电子商品推荐系统)，以挖掘销售数据发现交易关联性为依据提高营销活动效率和强化广告宣传效应。这里部分理论是以市场营销学的市场细分原理为基础，基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
　　
　　3.2　具体评述
　　随着互联网的兴起，数据挖掘技术已开始运用到Web信息系统产生的海量数据上，在客户关系管理、金融工程、信用管理、风险预测、保险等诸多领域均得到广泛应用。
　　电子商务环境下Web数据挖掘技术既包括基于统计学的各类方法，也包括涉及机器学习、数据挖掘、人工智能等理论方法，这其中又以规则归纳、神经网络、案例学习、遗传算法、粗糙集等智能方法最为常见。但需指出目前电子商务环境下Web数据挖掘算法的研究尚处于起步阶段，无论在Web电子商务数据特点的挖掘算法上，还是挖掘结果的经济学与管理学解释和挖掘结果的有效应用方面，均尚未涉及或仍有很大研究余地。
　　3.2.1 Web内容挖掘　文本是存储和交换信息的最自然的方式，文本挖掘具有非常高的商业前景。事实上研究表明即使在企业的电子商务信息中，也有80％的信息保存在文本中，如电子邮件、网页以及报告等。
　　目前Web内容挖掘多数是基于文本挖掘算法的，和通常文本挖掘的功能和算法类似，适用于商务文本的挖掘算法还没有较多的进展。但由于互联网上的数据基本上都是HTML或XML格式的文件数据流，因此可利用文档中的HTML或XML标记来提高Web内容挖掘的性能。
　　但Web内容的动态更新、存储方式的特殊性、Web商务数据以及文本数据本身的特点使得Web内容挖掘在处理下面这些任务中遇到很大困难：①难于处理具有主观、非精确、非确定的数据和检索要求；②现有搜索引擎没有归纳和演绎的能力；③软决策，而不是布尔代数的决策方式；④网页评价，难以按照对于查询的相关性对网页进行评价；⑤个性化，对于电子商务而言个性化的要求是非常重要的，必须根据每个用户历史访问记录等资料进行相关挖掘；⑥互联网上的数据基本上都是HTML或者XML格式的文件数据流，但利用文档中的HTML或XML标记来提高Web内容挖掘性能的研究目前尚少见。
　　3.2.2　Web结构挖掘 Web结构挖掘是从www上的组织结构和链接关系中推导知识，由于超文本文档间的关联关系使得www不仅可以揭示文档中所包含的信息，同时也可以揭示文档问的关联关系所代表的信息。利用这些信息可对页面进行排序，发现重要的页面。Page-Rank法就是利用了文档间链接信息来查找相关的Web页，其基本思想是：一个页面被多次引用，则这个页面很可能是重要的；一个页面尽管没有被多次引用，但被一个重要页面引用，该页面也可能是很重要的。
　　此外，通过挖掘网站结构和页面结构，也可以对同一商业网站内Web页面进行分类和聚类。对Web页内结构的分析，相对于普通文本结构分析，具备一些明显不同的特征：通常没有段落、句子等显要区别、文本中文字属性特征比较丰富、文本中标题性文字较多；因此主要的分类方法为基于特征的分类方法。而对于事先不知道其网络架构的目标网站，则应当运用聚类方法，而主要的聚类方法为分裂分类法。
　　一些研究人员提出了一些模型化Web拓扑结构的算法，如HITS算法和上文所述PageRank算法等。HITS通过给链接结构增加内容信息，同时使用了外层过滤进行改进。这些算法主要用作计算每个网页的质量和相关性，并应用到了Clover和Coogle等系统中。其他的一些应用包括发现Web上的电子商务社区等。Madria讨论了Web结构挖掘在数据仓库中的应用，包括度量同一服务器中局部链接的频率，度量数据仓库中Web文档的重复，从而在特定链接的层次结构中发现信息流对站点设计的影响等。
　　3.2.3　Web使用挖掘　Web服务器上的访问日志数据是Web使用挖掘的最重要的数据源，它明确地记录了站点访问者的浏览行为信息，但须指出其是不完整的数据，如缓存页的访问就不被记录在日志中，目前尚无有效的算法处理此数据不完整性；其次可通过使用远程主体或对现有浏览器代码的修改来实现客户端数据的收集；第三，代理日志，即Proxy数据作为客户端浏览器和Web服务器间的中间层缓存，采用Proxy跟踪可揭示从多个客户到多个服务器的HTTP请求，可用作刻画共享一个Proxy服务器的一组商业客户浏览行为的数据源。
　　常见的基于Web使用挖掘的客户聚分类算法包括基于模糊理论的客户群体聚类算法、K-paths聚类算法、客户群体聚类的hamming聚类算法等；此外商务站点的结构类似有向图，用户的访问行为构成其访问子图，研究该有向子图有利于发现用户兴趣所在。而对基于Web使用挖掘而言的网页聚分类，其挖掘数据的依据是Web的使用记录而不是Web网页的内容信息，其数据范围一般局限在一个或少数网站，这主要是由于很难追踪用户完整的上网访问记录；值得注意的是挖掘过程和Web内容挖掘一样常常需要一些商业背景或领域知识。
　　Web使用挖掘的实例包括两类：学习用户日志文件和用户导航模式。商业信息的提供者希望通过改进站点的设计和了解用户的兴趣和偏好，提供给用户适合的信息。挖掘出的信息可以应用到网页个性化、站点修改、商业智能、信息检索等领域中。
　　Perkowitz通过记录用户访问站点的记录改善站点的设计，帮助用户更快地浏览商业站点。路径遍历模式挖掘则是另一种用户导航模式，在分布环境下当用户寻找感兴趣的信息时，可以通过超链地址从一个对象遍历到另一个对象；很明显理解这种环境下的用户访问模式不仅能提高系统的设计水平，还能促进市场决策判断(比如在适当的地点放一个广告)。
　　
　　4 目前国内外主要研究内容
　　
　　4.1 Web页面聚分类应用研究
　　页面聚分类挖掘结果在电子商务各环节的应用问题；以Web内容挖掘为主结合Web结构挖掘和Web使用挖掘的多智能集成算法的Web页面聚分类模型的研究；如何改进文本聚分类挖掘算法以适合电子商务Web页面聚分类。
　　
　　4.2　客户群聚分类应用研究
　　客户聚分类在电子商务各环节的应用问题，研究对营销机制的影响；以Web访问挖掘为主的多智能集成算法的聚分类模型；电子商务推荐系统的研制与开发。
　　
　　4.3　客户频繁访问路径挖掘应用研究
　　以客户频繁访问路径挖掘结果为基础分析用户访问站点的规律、改进网站的组织结构及其性能，实现网站自适应；客户频繁访问路径挖掘算法。
　　
　　4.4　交易关联性挖掘应用研究
　　以交易关联性挖掘结果为基础研究对企业决策管理、协同商务管理、政府监管等方面的应用问题，研究影响识别交易关联性的关键或主要数据特征；基于多智能算法的交易关联性挖掘模型。
　　
　　4.5 异常客户与异常交易检测应用研究
　　异常监测在电子商务中的基本应用框架，异常交易或者电子欺诈所具备的数据特征，异常交易或电子欺诈的识别算法。
　　
　　4.6　互联网下供应链关系挖掘研究
　　互联网下供应链关系挖掘的研究范畴，电子供应链和虚拟企业形成效率等的关系，电子供应链关系挖掘的基本模型、算法和应用，如何解释和应用电子供应链挖掘结果以有效地优化电子商务供应链。
　　
　　4.7 电子商务数据挖掘的解释问题
　　电子商务数据挖掘涉及管理学、经济学、计算机科学、智能科学、数学等多领域、跨学科的理论知识，因此需研究Web数据挖掘结果的管理理论解释问题和经济理论解释问题中模型的建立机制、步骤和对挖掘结果和解释理论本身的互动影响；主要涉及管理学和经济学理论的选择；解释的立场问题；挖掘所获得新知识对解释理论本身的修正问题。
　　
　　4.8　商务数据挖掘过程改进
　　商务数据挖掘须启动过程改进，当前国内外无成熟的商务数据挖掘的过程研究。研究商务数据挖掘或商务智能项目实施过程，定义企业在该领域的标准过程，研究如何通过企业过程的改进不断提高ERP等商业数据系统的应用价值。
　　
　　4.9 电子商务数据集特征识别
　　必须在Web挖掘算法的挖掘前、挖掘中、挖掘后各阶段充分考虑电子商务数据集所独有的、区别于一般数据集的特征；根据识别出的商务数据特征设计新的数据挖掘算法或对原数据挖掘算法进行改进和优化，即特征结合问题。

论数据挖掘与电子商务的契合:电子商务数据挖掘

热点文章阅读