XML技术在档案信息化建设中的应用

  本文作者: 林周佳, Lin Zhoujia
  XML技术在档案信息化建,设中的应用林周佳内容摘要本文主要介绍了,重点论述了基最新传奇于XML语言,应用美国国会图书馆与MARC标准工作组联合开发的国际档案界元数据编写标准EAD对档案资源进行描述以及利用数据库技术实现对XML数据的存贮,最后论述了基于XML技术的了化档案馆建设的发展前景及未来需要解决的问题。关键词档案信息化数字档案XMLEAD元数据一、XML简介XML是由W3C于1998年发布的一种框架标准。与HTML一样,XML语言是SGML的一个子集,它将SGML的丰富功能与HTML的易用性结合到web的应用中。XML语言具有良好的数据存贮格式、可扩展性、高度结构化、便于网络传输等主要特点。由于XML具有强大的功能和灵活的特性,使用XML作为信息交换的媒体可以给开发者和用35户带来许多好处。这些好处包括了以下几个方面:(1)XML使用的是人的语言而不是计算机语言,符合大多数人的阅读习惯。XML便于理解,与HTML编码相比,XML的复杂程度并不高。(2)与大多数的高级语言完全兼容,并且完全可以移植到任何平台上,任何可以处理XML的应用程序都可以对所有的XML文档进行处理。(3)可扩展。XML的可扩展性允许它对不同行业、不同类别中的数据进行描述,任何机构、组织或者个人都可以创建自己的标记。这些标记可以使用用户自己的语言并具有用户所需要的特殊属性。xML保留了SGML的可扩展功能,这使XML从根本上有别于HTML。与HTML相比,XML功能更为强大,它不再是固定的标记,而是允许定义数量不限的标记来描述文挡中的资料,具有允许嵌套的信息结构。
  同时,XML较好地解决了HTML不能对数据内容进行描述的缺陷,因此自xML标准提出后就36HTML示例XML示例(出版)中国档案出版社(/出版)(/HTML)(定价)58元(/定价)(/图书)得到了广大设计开发人员的认可。笔者通过以上实例分别使用HTML和XML对图书信息资源进行描述如上。从上面的例子中可以看出,虽然HTML语言简单,但是HTML标记并没有说明任何有关它们内容的东西,所以它并不如XML标记便于理解。事实上,在HTML中标记只是简单的编辑符号,而对于XML来说,标记是从各个领域中抽象出来的概念,其作用不是描述文档的格式,而是描述文档的结构和语义,是语义符号。二、xML在档案信息化建设中的应传奇文章用档案是社会历史的真实记录,其本身就是一个浩大繁杂的资源库,档案信息化建设必然是一个庞大而复杂的工程。档案信息化的主要任务有两个:其一,是档案内容的数字化,即实现对档案资源的元数据描述其二,是基于元数据实现对XML数据的存贮,并在此基础上进行查询检索。目前,档案内容数字化工作中通常的做法是将纸质档案、胶片档案等扫描,然后以一定格式的文件存贮在档案数据库中。虽然这种方法实现简单,但由于扫描可能会带来文件格式不一致的问题,难以实现档案数据库资源的传输和共享。此外,由于只是单纯地扫描和存贮,并没有对档案的内容进行描述和说明,也不利于今后进一步实现数字档案的高级功能,如精确智能检索等。
  因此,我们需要探寻一种新的档案信息化实施方案基于XML技术实现档案内容数字化便是一条可行路线(2002年颁布的《电子文件归档与管理规范》(GB/T188942002)国家标准中也将xML作为推荐文件格式)。
  2.1基于xML的档案资源数字化描述。实现档案资源数字化描述的基础是实现对档案资源的元数据描述。一般认为,最新传奇元数据是关于数据的数据,它是对资源的一种描述方式,是机器可以理解的信息。元数据的基本作用就是管理数据,并在此基础上进一步实现数据的查询、交换和共享等功能。元数据记录由一系列的属性和元素组成,这些组成部分在实现检索时是必不可少的。例如,档案目录系统就是档案管理中一个简单的元数据系统,它包含了一系列含有档案资料和档案目录的数据,如全宗号、案卷号、主题、日期等等,而利用者需要对档案资料或者目录进行检索利用时也必须根据这些数据进行查询。
  元数据的编写是有标准的,为了实现对资源的标准化描述,许多领域都提出了自己的元数据标准,例如医学界的HL7、出版界的DC(DublinCore)、教育界的IMS等等。在档案界一般采用的标准是EAD(EncodingArchivalDescription)。EAD是采用SGML/XML作为编码语言编制的一种元数据描述标准,是适用于档案检索工具的编码规范,由美国国会图书馆与MARC标准工作组联合开发。EAD格式主要用于描述档案和手稿资源,包括文本文档、电子文档、可视材料和声音记录等等。
  最早的EAD格式采用SGML作为其编码语言,后来又发展出XML语言的描述,并使用EADDTD来描述自身的内容与结构。
  EADDTD将EAD元素集合定义为若干层次的元素组合,其中高层元素包括EADHeader(EAD头标)、Frontmatter(前述)和ArchivalDescription(档案描述)3个部分。
  EAD头标描述了档案产生、修订、出版与发行等初始信息,包括EADIdentification(EAD标识符)、FileDescription(文件描述,用于说明标题、版本号等发行信息)、ProfileDescription(概要描述)以及Revisiondescription(修订描述)等等。EAD前述是一个题名页元素,用于说明产生该文件的档案单位。EAD档案描述项用于对档案资源的内容和相互关系等信息进行描述。
  这些信息包括了文件内容、档案内部关系以及可选的备注信息,它们以分层的方式组织在一起,由描述标识符、附属描述资料、管理信息、编排、传记/历史、检索控制、数字档案对象/数字档案对象组、附注、其他描述数据、组织、范围和内容以及附属成分描述等10部分内容组成,元素这游戏这一点真不错内容基本上涵盖了档案的各种可用信息。例如,有以下全宗目录资源需要描述:档案单位:中国第二历史档案馆全宗目录名:南京临时政府全宗号:26形成时间:1912.1一1912.3内容:中华民国临时政府于1912年1月1日在南京成立。
  以孙中山任临时大总统,设陆军、海军、外交、司法、财政、内务、教育、实业、交通9部。(下略)基于xML,采用EAD元数据标准对其描述如下:(?XMLversi。
  n=“1.0”encoding=“GB2312”?)(EAD>37(档案来源)中国第二历史档案馆指南(/档案来源)(档案馆)(档案馆名)中国第二历史档案馆(/档案馆名)(/档案馆)(全宗目录描述)(全宗目录名)南京临时政府(/全宗目录名)(全宗号)26(/全宗号)<全宗形成时间)1912.11912.3(/全宗形成时间)<全宗内容)中华民国l艋时政府于1912年1月1日在南京成立。
  以孙中山任临时大总统,设陆军、海军、外交、司法、财政、内务、教育、实来、交通9部。(下略)(/全宗内容)(/全宗目录描述)(/EAD)从上面的例子中可以看出,一方面,计算机通过识别XML的标识符可以理解字段的意义,从而为实现进一步的智能检索奠定基础另一方面,由于采用了统一规范的元数据标准,对于档案资源的描述也是统一的,可以很容易地实现资源共享。此外,元数据标准并不是一成不变的,各个使用单位、机构可以根据自己的实际情况对标准进行扩展,以最大限度地满足自身需要。2.2XML描述的档案数据资源的存贮。在利用XML对档案资源进行数字化描述后,紧接下来的问题就是实现XML数据的存贮,以构成资源数据库,并在此基础上实现用户查询等操作。早期的XML数据以文档方式存贮,以关键字查询等手段进行信息检索,简单易用。但是由于缺乏系统的存贮和查询机制的支持,查询能力比较低,不能满足复杂条件的查询,也就更谈不上查询优化了。随着数据库技术的不断发展,现在大多数商业数据库系统都扩充了处理XML数据的功能。利用现有数据库成熟的38技术,把XML查询要求转变为数据库查询表达,由查询引擎优化查询表达,然后执行,最后再将查询的结果转变为XML数据。
  目前常见的存贮方式主要有3种:面向对象数据库方式、关系数据库方式和NativexML数据库方式。其中,由于面向对象数据库方式其自身理论尚不完善所以没有被广泛应用,常见的存贮方式是基于关系数据库方式和NativeXML数据库方式。
  关系数据库发展至今,其自身理论和技术发咱们玩家展非常成熟。常见的关系数据库Ac.cess2002、SQLServer2000、DB2、Oracle等都扩展了它们在XML上的功能,其中SQLServer、DB2和Oracle等关系数据库都支持XML的数据库XEDB,其核心均采用xQUERY标准执行查询。由于关系数据库技术的普及性、成熟性,使得基于关系数据库的XML存贮技术被广泛应用。
  利用关系数据库方式来存贮XML文挡,实际上是利用了XML支持模块或中间件来完成xML文档和数据库之间的格式转换工作,减少了开发人员的工作量,但这种做法也有一些缺点:例如,如果一个XML文档的关系结构非常复杂,XEDB常常不能够正确地抽取XML的数据,并把它们正确地组合在一起,通常的错误就是无法再从关系表复原回先前的XML文档,从而导致XML原文档意义的改变。因此,一般认为xEDB适用于对一个以数据为中心的、结构化程度比较好的XML文档进行存取管理。
  NativexML数据库存贮方式是专门针对XML文档特点设计的。与关系数据库不同,NativeXML数据库以文档为基本单位专门用于存贮xML文档并可以保持其完整性。在此基础上,NativexML数据库可以更好地实现对XML数据的操作。NativexML数据库通常适用于xHTML文本、有非常复杂网络结构的数据、半结构化数据等面向文本的数据,具有存贮完整、存贮速度快等特点。但它的特点也是明显的,首先是其理论发展不完善,不像关系数据库有一个完整的理论支持其次是对结构化数据的存贮支持不够,NativeXML数据库不适用于会计、人事系统等一些拥有大量结构化数据的存贮此外,NativexML数据库产品还不成熟,功能不足,缺少一些常见的,如事务处理、数据一致性、多用户访问、触发器等功能。档案资源数字化描述的数据是介于结构化和非结构化之间的一种数据格式,一方面,档案描述数据的格式是标准的,描述的结构是统一的另一方面,档案中往往还会包含一些文本以外的数据(如图片、视频、音频等),对于这些数据的描述往往是非结构化的,但其档案描述数据的结构相对比较简单。考虑到系统的复杂性和通用性,在存贮方式上一般选择关系数据库较为科学。在此基础上,可基于B/S、C/S结构,利用各种高级语言实现各种功能,它们的设计方法与一般的系统设计基本一致。
  参考文献1.TheEADRoundTableoftheSocietyofAmericanArchivists.THEEADC00KB00K一2002Edition,http://www.archivists.org/saagroups/ead/,20022.W3C,ExtensibleMarkupLanguage(XML)1.0(ThirdEdition),http://www.w3.org/TR/2004/RECxml一20040204/,2004,23.王军,杨冬青等:《数字图书馆的体系结构》传奇之,《情报学报》2000年第6期。4.王继成:《基于元数据的Web信息检索技术研究》,《南京大学计算机系博士学位优秀论文》2000年版。5.赵林静,庄夏:《基于语义的馆藏信息检索模型研究》,《现代图书情报技术》,2005年第7期。6.南昌华东交通大学网络中心:《xML数据岛技术及应用》,《微型机与应用》2002年第8期。
  7.刘英梅,刘赛红:《都柏林核心元数据及其应用》,《情报科学》2000年第18卷。
  (作者:林周佳,南京市,中国第二历史档案馆,邮编:210016)。
  本文《XML技术在档案信息化建设中的应用》 --- 作者: 林周佳, Lin Zhoujia

上一篇:在传奇sf版本里添加会复活僵尸
下一篇:XML语言在数据库中的技术应用和实践转换分析

  • 侠客中变195金牛无内功双线-免费闭关泡点www.520jjj.net-1.85国
  • 蚩尤殿飞龙升级版最新增加三套装长期玩家进www.gm55f.com-倚天复
  • 大帝传奇1.76传奇内挂,1.76复古内挂打到裁决能卖8www.lnlm.net-
  • 道士1.85狂战一区,1.85星王合击.散人爱到死.合击1.85www.5920hj.
  • 装备好看1.85独家轻变国战新地图,装备全爆,www.haoex.com-SF征途
  • 牛顿外挂必杀连击真一区,独家更新真正多英雄全3000第一家特别www
  • 圣天一区1.85王者合击,1.85英雄合击王者终极-窗口游戏www.pk906
  • 升级送战意傲视群雄二区,免费闭观装备好爆一键回收重金打www.yq1
  • 激情传奇1.76,1.76合击①区.奉献给骨灰玩家!176.185185cq.cn-傲
  • SF战神终极176.天使之城.终极BOSS场放烟花.蹲真www.200376.com-