基于泛域名解析方式的关键词实现技术_关键词匹配方式

发布时间:2020-03-07 来源: 感悟爱情点击：

　　〔摘要〕基于数字图书馆用户的关键词信息查询问题，提出一种泛中文域名与关键词超链接实现方法。通过设立关键词表、利用泛中文域名的解析技术与重定向技术和添加链接算法，实现网页中全中文专业术语、通用词都能点击和按关键词加域名方式直接访问到相应站点、专题、网页或搜索页。本实验通过建立关键词库、完成关键词地址导向、泛中文域名的解析实现、超连接添加技术4个过程实现。
　　〔关键词〕泛域名关键词重定向技术超链接
　　〔分类号〕G230
　　The Implementation Technology of Keyword Based on Wildcard Domain Name Analysis
　　RenHui
　　Ludong University library, Yantai264025
　　〔Abstract〕This paper tries to find a new way about the hyperlinks between wildcard domain name and keyword based on the digital library user"s need in keyword searching. Through setting up keywords table, making use of the technology of wildcard domain name analysis and re-directional technology and adding link algorithm,the Chinese technical terms, general words in web pages can be clicked and visited to correlated websites, Special domains. Web pages or search pages directly by keywords as well as domain name. This experiment can be made through the establishment of keywords table, orientation of keywords address. Analysis of wildcard domain names and additional technology of hyperlinks.
　　〔Keywords〕wildcard domain name keyword re-directional technology hyperlinks
　　超链接是网页中最重要、最根本的元素之一。它能使多个孤立的网页之间产生相互联系，使单独的网页形成一个有机的整体。目前网页上的超链接一般分为三种：①绝对URL的超链接，URL（Uniform Resource Locator）就是统一资源定位符，简单地讲就是网络上的一个站点、网页的完整路径，如http://www.swnu.省略/index.htm ；②相对URL的超链接，将网页上的某一段文字或某标题链接到同一网站的其他网页上面去；③同一网页的超链接，这就要使用到书签的超链接。由于数字图书馆用户信息需求量大，信息组织不能一步到位，一些关键词的导向页面不完备。本实验以关键词的超链接技术实现为例，根据用户信息数据源的语义扩充请求，引入和结合泛中文域名解析思路，能有效解决目前关键词链接中存在的链接不全面问题。
　　
　　1关键词的实现
　　
　　1.1建立关键词库
　　WEB页面中的关键词是直接从文章中抽取出来的自然语言，关键词可以是主题词，也可以是自由词。字、词、短语、词组、专业术语和别名都可作为关键词进行检索。关键词库的建立可以参照《中国分类主题词表》、《汉语主题题表》等专家学者公认的主题词表，也可以根据数字图书馆用户的需要以及工作与科研的需要自己组建关键词库。所有关键词条都应对应到知识点上或某些研究主题。我们以生物信息学为例来说明关键词库的建立，如关键词可以包括纳米技术、生物制药、基因组、药物靶、DNA分子、核苷酸顺序、基因芯片、基因卡、转基因技术、蛋白质结构、生物识别技术、克隆、生物信息学机构组织、人类基因组计划、分子设计、表达谱数据、分子模拟技术等。
　　1.2关键词地址导向
　　每一个关键词都能对应到相应的知识点上，链接导向地址可以是一个站点、子站点、具体的页面、相关专题研究等。为了保证关键词能链接到下一个完整的知识点，我们通过WEB页面查询对关键词的链接进行了信息资源的准确定位，让用户更准确在检索到所需要的生物信息。本实验建立了一个关键词链接检索对照表(见表1) 。
　　另外，还通过关键词的建立导向各高校网站的大量课件，其中都是各生物信息学教师讲课的素材，含有大量的知识信
　　息，最新技术热点。从中能挖掘出其课件内容并加工出大量超链专题。在关键词的建设过程中，一些关键词对应知识点
　　表1关键记号链接检索对照
　　的地址无法确定，或因信息或栏目专题的调整导致某些页面地址（URL）经常变化，常存在关键词条设置不全、无法指向正确页面或已经添加的网页需要重新生成等一系列问题。只有关键词本身是唯一的、确定的、不变的，因此，我们采用泛域名的映射解析技术，将每一个关键词作为二级域名。
　　1.3关键词参照表
　　关键词表用于生成关键词词典文件和泛域名解析和重定向。其中关键词列具唯一索引，参照词用于解决多词一义现象。关键词、BIG5码、IDN编码等列具有索引以提高解析速度。部分列数据冗余以避免嵌套查询或反复编码解码操作。在关键词表管理平台中，实现对BIG5码、IDN编码列和参照词链接地址列的自动维护。关键词表可同时具有优先级别、广告链接等属性(见表2) 。
　　
　　3泛中文域名解析
　　
　　3.省略，之下所设的*.省略全部解析到同一个IP地址上去。比如域名alex.省略就会自已自动解析到与abc.省略一样的页面。
　　泛解析定义为：设已有域名是bizsn.com，将主机名设置为“*”，IP解析到比如：203.88.192.省略之前的所有子域名都将解析到203.88.192.省略sn.省略sn.com都将解析到203.88.192.134。在系统里面如果单独设置一个子域名解析，比如将主机名设置为mail，单独解析到203.88.192.134，那么该解析记录优先。泛域名在实际使用中作用是非常广泛的，比如实现无限二级域名功能，提供免费的url转发，在IDC部门实现自动分配免费网址，在大型企业中实现网址分类管理等等，都发挥了巨大的作用。
　　泛解析目前常用于博客系统，但子域均为英文字母和数字，中文子域名由于编码技术问题易造成无法正常访问，尚少见应用。下面以Windows 2000 server + asp环境下实现的方法为例说明建立泛解析的两种方法：
　　第一种方法是直接在域下建立名为“*”的主机。但实际上在Windows 2000中你使用DNS控制台建立“*”主机时它是不允许你输入这个字符的，因此需要一点小技巧：就是修改c:\winnt\system32\dns\aoom.省略区域下另建一个二级区域，名为“*”，这个是系统允许建立的，然后在*.省略区域下建立一个空主机名的记录就行了。建好DNS后，在区域“abc.com” 上弹出菜单中选择“重新加载”，待刷新后，出现画面如下。您会发现此时多了一个主机名为“*”的记录。
　　3.2 编码转换
　　目前Internet DNS是7位ASCII编码环境，中文域名解析多以PUNYCODE编码进行兼容转换。中文编码格式有国际标准（UTF-8）、国家标准（GB2312,GBK）和工业事实标准（BIG5），经过浏览器提交编码后捕捉到的可能为国际化域名（IDS）或其它标准。如CNNIC的中文域名用户插件、TWNIC的中文通、NETSCAPE7.1以上版本、Mozzilla browser-1.4以上版本。Opera browser7.2以上版本等支持和转换为IDN标准，Internet Explorer\3721网络实名等仍采用UNI-CODE编码或UTF-8标准。
　　对于大量关键词若采用相应汉语拼音或英文作子域名容易重复且不便记忆,直接采用中文关键词本身将很简洁直观，如http://转基因.省略。采用WEB服务器上关键词多编码对照表和子域名捕捉处理程序，泛中文域名的实现可以不涉及更改浏览者客户端设置或DNS服务器调整。针对当前对不同浏览器或安装不同插件的浏览器捕捉到的编码方式差异，我们采用在头饰词表中预先设置好各类编码，即除简体中文外，同时对照有BIG5（繁体中文）、IDN或punycode编码、汉语拼音、英文、拉丁名等字符串，用于兼顾多种标准和辅助解析，并实现对各类子域名如http://转基因.省略；http://转基因.省略；http://zhuanjiyin.省略的同时把持。
　　3.3子域名的重定向
　　
　　 DNS泛域名解析将除明确定义（如WWW）外的主机头均指向到“*”对应IP的WEB站点。WEB中脚本程序（JSP、ASP、ASPX、PHP等）捕捉取到子域名字符串，扫描关键词表，比较子域名字符串与表中各编码，定位到关键词；若有相应链接地址，通过参照词找到和重定向到参照的链接地址；若没有此关键词提示高有开通此域名，或者重定向到某搜索页面。
　　
　　4超链接添加技术
　　
　　4.1实现过程
　　在网页中添加超链接其实就是字符串操作，实现过程分下面4个步骤：
　　4.1.1定位取出正文内容。在制作和发布生成页面时采用WEB标准格式，将内容与表达分离，正文内容用约定标签，网页中其它文字如当前位置、相关文章等在标签之外，以便处理时准确定位。
　　4.1.2保护一些文字和HTML代码。对于种类特殊用途的文字或字符，如HTML代码、已存在的链接文字、图片的alt文字、各DOM对象的title文字等进行保护处理，方法是按规则找到所有需要保护字符存入数组后替换为识别用编号。
　　4.1.3依次扫描关键词库。在构建完整主题词库表和明确泛域名导出链接思路基础上，词库的词条采用近字符长度和优先级别排序，避开语义分析和断词处理的困难。
　　4.1.4对各关键词只对在正文中第一次出现者增加超链接。方法是当某关键词在文中首次出现时将其转换为链接HTML代码记录到中转数组，同时将原正文换为关键词前内容+对应数组的编号符+关键词后内容。当扫描所有词条后，再根据识别用编号从中转数组中还原成添加链接后的正文内容。
　　4.2 添加方式分类
　　关键词的添加方式一共有三种：①手工添加。即由编排人员手工劳动一条一条添加，效率低，一般不采用这种方式。②发布时自动。这是我们采用的方式，这种方式在服务器端完成，速度快，一次性完成，发布后对所有数字图书馆用户一次性有效，利于访问，有利于搜索引擎收录，但当关键词调整后需要重新发布各页面；发布前手工添加，即编辑人员编排信息时人为设定、发布时添加到发布系统，在信息编审完成表态页面后，更新发布服务器前，由添加关键词超链接模块自动完成。③在线添加。为HTML包含的is脚本文体在用户浏览见面时对正文部分分析与实现。网页正文本身汉有超链接代码，用户可选择是否启用此功能，关键词表的调整能实时生效，但词条多时资源消耗较大，适用于各种论坛或博客页面，相对较少采用。
　　4.3Java脚本语言
　　以下是利用Javascript脚本语言将上述实现过程编成的脚本文件，在用户端运行。即可实现所需求的目的，以下是脚本文件的主体描述部分：
　　//获取关键词的正文内容
　　if (typeof ( thelnfoContent )! = "undefined" )
　　｛var obj =docunent.get ElenentByld ( "thelnfo Content" );｝
　　else ｛var obj = document.body; ｝
　　var s = obj.inner HTML;
　　//获取关键词，按顺序排列，用逗号隔开
　　var strwords = “基因组，基因工程，分子设计，蛋白质结构，生物芯片，细胞融合，”
　　var k = strwords.split",";
　　//初始化中间数组
　　Var mArray4 Protect = new Array ( );
　　mArray4 Prorecr［0］=" ";
　　//保护特别标记为添加链接范围外内容，略
　　Special_Content Protect ( );
　　//保护文中已有链接部分
　　Comm_Content Protect ("＜A", " ＜/A＞");
　　//保护各类HTML代码部分
　　Comm_Content Protect ("＜", "＞");
　　//扫描词条，对首次出现的关键词按加链接后代码保护
　　for (var ilinks = 0; iLinks＜= k. length; iLinks ++)｛Link Words2 Protected Array (k[iLinks］,k[iLinks］) ｝
　　//从中间数组依次还原
　　Restore From Protected Array ( );
　　//回写到操作对象
　　obj.inner HTML = s;
　　//保护字符到中间数组，原相应内容换为编号标识
　　function Add2 Protected Array (str4 Protect) ｛var iNext = mArray4 Protect.length; mArray4 Protect［iNext］= str4 Protect;
　　s = s.replace (str4 Protect, "-" + iNext.to String ( )+ "l" ) ｝
　　//将出现关键词以超链接代码记录到中间数组
　　function Link Words2 Protected Array ( strWord, strUrl ) ｛var iPosition = s.index Of (str Word )
　　if ( iPosition= = -1) ｛ return" "｝
　　var iNext = mArray4 Protect.省略"target =" "-blank" cllass = "bl" ＞+strWord + "＜/a＞";
　　var strtemp = "-"+ iNext.to String ( ) + "l"
　　s= s.substr ( 0, iPosition ) + strtemp + s.substring ( iPosition + strWord. Length, s .length) ｝
　　//扫描中间数组将各标识号还原
　　function Restore From Protected Arroy ( )｛for (var larray = marray4Pr - otect.length;iarray＞ = 0; iarray--)｛s = s.replace ("-" + iarray.to String ( ) +"l", marray4 Protect［iarray］) ｝｝
　　//将所有*与*间字符均保护
　　function Comm_ Content Protect (strStart, strEnd ) ｝
　　While ((s. index Of strStart )! = -1&& ( s. index Of (strEnd )! =-1) && ( itimes ＜5000 ) ) ｛
　　var strtemp = s.substring ( s. index Of(strStart ),s. index Of ( strEnd )+ strEnd. Length );
　　itimes++;
　　Add2 Protected Array ( strtemp ) ｝｝
　　
　　5结语
　　
　　通过基于关键词的搜索引擎进行信息的定位和查询，这种方式随着ＷEB上的信息猛增而变得越来越不适应。基于关键词的搜索引擎最大的问题是其忽略了关键词所包含的语义信息而造成查全率和查准率比较低。而设立关键词表、利用泛域名解析技术与重定向技术和添加链接技术能发挥互联网的优势，形成文本超链接、图像超链接、E-mail链接、锚记链接、多媒体文件链接等，为数字图书馆用户提供更高效更准确的服务。
　　
　　参考文献：
　　[1]Li Quanzhong,Moon B.Indexing and query XML data for regular path expressions.// the International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc,2001.361-370
　　[2]WWW Consortium,Xqueryl.0 [2003-11-12]. http://www.省略/TR/xpath20.
　　[3]Ashburner M,Ball C A,Blake J A,et al.Gene ontology:tool for the unification of biology.The Gene Ontology Consortium.Nature Genetics.Nat Genet,2000,(25):25-29.
　　[4]生物信息学. [2006-05-25].http://baike.省略/view/7303.htm.
　　[5]生物信息学讨论组. [2006-08-24].省略bio.org.
　　[6]Foster I,The grid:a new infrastructure for 21st century science.Physics Today,2002,55(2):42-47
　　[7]杜义华.基于泛中文域名的网页关键词超链接功能的探讨与实现.计算机系统应用,2006(10):76-81
　　[8]于欣丽.试论中文域名标准化.世界标准化与质量管理,2000(12):29-31
　　[9]金海峰.谈ASP在实现虚拟域名重定向中的应用.电脑知识与技术,2005(4):38-41
　　[10]成瑜，何洁月.基于本体的生物信息数据源的发现.发现计算机应用技术,2005(1):38-41

基于泛域名解析方式的关键词实现技术_关键词匹配方式

热点文章阅读