数据管理技术的发展
出处:按学科分类—工业技术 企业管理出版社《工程师手册》第907页(7496字)
20世纪40年代中期,第一台电子计算机的问世,只能说是给数据处理进入全自动化的电子数据处理创造了条件。计算机问世后的头十年中,它仍以数值计算为主,即主要用于解决科学研究和工程设计中的计算问题。但到了50年代后期,计算机开始应用于事务管理,用来解决数据处理的非数值计算问题。例如人事管理、工资管理、库存管理、辅助教学等。自70年代以来,计算机一方面朝着高速(数亿次/秒)、大容量和智能化的巨型计算机方向发展;另一方面又研制了品种繁多、功能很强的微型计算机系统,这也更为数据处理提供了有利条件。
随着科学技术的发展,计算机作为信息处理的先进技术,其优越性愈来愈明显。计算机能存储大量数据并能长期保存。这是任何其他工具所无法比拟的。它处理数据的速度快,能够为生产管理部门提供大量即时信息,以便及时地作出判断来控制或解决生产中发生的问题;辅助企业管理人员管理企业,提高数据处理效率;支持企业管理的重大决策,以提高企业管理水平及经济效益。目前,在应用方面几乎遍及国民经济的各个领域。各行业都在利用计算机高速度、高效率地处理信息,并取得了很大成就,例如,对国民经济和管理,对资源、人口、环境、通信、教育、科技、工农业等方面的预测和决策,均取得了引人注目的好成就。
计算机数据管理技术的发展,大致可以分为自由管理阶段、文件系统管理阶段和数据库管理阶段。
1.自由管理阶段
这一阶段是用计算机进行数据管理的初级阶段,因为当时计算机着重用于科技数值计算,所以数据处理的性质只是使用计算机代替手工劳动,如用于计算工资、会计帐目等。此阶段的计算机硬件功能较弱,输入输出设备简单,所建立的系统大多数是以穿孔卡片为输入输出的卡片系统,也有的使用磁带作为输入输出系统。
在软件方面无操作系统及对数据进行管理的系统软件,也没有文件管理功能。软件只能处理简单的输入输出操作。
这一阶段的基本特征是数据不独立,它只是程序的组成部分,数据和程序完全结合在一起才成为一个整体。所以它的传输和使用是由程序控制完成的,也不保存数据,使用时数据随程序一起全部送入内存,用完后就全部撤出计算机。
数据面向应用,一组数据对应于一个程序。由于数据之间是相互独立且彼此无关的,程序之间也是相互独立的,所以数据不能共享,从而使程序之间出现重复数据。
这种管理方式,使程序设计员必须在应用程序中包含有自己设计数据的数据结构,一旦计算机存储结构或外存储设备发生变化,相应的数据应用程序也需随之重新修改、编译和调试。
这一阶段的前半阶段基本上没有文件概念。到60年代初期,出现了初等的文件系统。但也只是一种简单的顺序组织方式。数据的物理结构基本上和其逻辑结构相同,文件中存在着大量的数据冗余。
数据处理方式一般是用人工方式收集数据,然后把一批数据记录在存储介质上,再送入计算机处理,这种处理方式称为批处理。因为这种方式不具有实时存取功能,在通常不要求立即处理数据时,也可以用这种批处理方式。
2.文件系统管理阶段
1965年~1970年是文件系统管理阶段。
到了60年代中后期,文件系统得到了进一步的发展。在这一阶段,计算机不仅用于科学计算而且也开始大量用于数据管理。
在硬件方面,外存储装置有了很大发展。60年代前半期主要使用磁带作为输入输出装置或主存储装置的辅助存储装置。到后半期,磁盘(大容量的磁盘组和灵活的软磁盘)成为一种主要的辅助存储装置,这也就大大增强了输入输出功能。
软件方面出现了操作系统,其中包含有文件管理系统,从而具有了文件管理和一定的数据管理功能。
这一阶段的基本特征是:数据不再是程序的组成部分,而是按一定结构、有组织地构成了文件形式,由操作系统的文件系统自动存放在磁带或磁盘上,并可为各个文件起一个名字以便标识。在应用程序中通过文件名对数据进行内、外交换,以达到使用相应文件中的数据之目的,而且修改数据结构和改换存储设备时也不必再修改应用程序。
文件管理系统是应用程序和数据文件之间的一个接口,应用程序必须通过文件管理系统才能建立和存储文件;反之,应用程序只有在文件管理系统的支持下才能检索数据文件中的数据。
在数据管理上,通过文件管理系统对数据文件实行统一管理,是数据管理技术的一个重大进步。不过,数据文件还是面向应用的,它基本上对应于一个或几个特定的应用程序。文件与应用程序之间存在着密切的相互依赖关系,文件一旦离开了它所依附的程序便会失去存在的价值。数据文件之间彼此独立存在,即文件只能反映现实世界中客观存在的事物及其特征,却不能反映出各种事物之间的客观存在的本质联系。因而各数据文件中同一数据的重复出现就不可避免,浪费存储空间,且文件之间会产生不相容性。此外,由于每次输入输出的存取单位是文件记录,因此文件系统的操作还不能用到记录中的字段,也不能使不同数据文件之间的记录产生联系,必须在数据处理应用程序中对此作出安排。
文件存取的方式:既可以是顺序方式,也可以是随机方式,其处理方式可以是批处理方式,也可以是联机实时处理方式。
尽管数据的逻辑结构不同于物理结构,它们之间也有了一定的交换形式,但其之间的相互关系仍然是相当简单的。
文件管理方式具有以下弱点:
(1)尽管数据以文件方式独立存放,但程序与数据紧密相关,一旦数据文件离开了使用它的应用程序,便失去了存在的价值。
(2)由于不同应用程序建立各自相应的数据文件,造成了数据冗余,就大大地降低了空间的利用率。
(3)由于同一数据存放在不同的数据文件中,很容易造成数据的不一致性。
(4)文件管理方式不能反映信息之间的联系。
正是为了克服文件管理方式的上述弱点,才产生了数据库系统方式,推动了数据处理的发展。
3.文件系统数据库阶段
自1970年到现在,是文件系统数据库阶段。
上述数据管理方式存在着一系统缺点:各数据文件之间存在着重复数据,应用程序仍依赖于数据,增加了程序的维护工作。由于更新重复数据而产生数据的不一致性,不但需要使用专用程序来检查数据,增加了工作量,而且当各数据文件集中在一起构成一个数据整体时,又存在着如何保持各数据文件的匹配及保密性问题,同时在要求信息的及时性方面也有一定的限制。
进入70年代后,数据库技术得到了迅速发展和广泛的应用。数据库方式的出现,一方面是由于社会对于数据管理技术发展的需要,另一方面也是因为计算机技术的迅速发展,为它提供了充分的条件。在此阶段,已完全使用大容量和快速存取的磁盘作为存储装置,有很强的输入输出能力。在软件方面出现了面向数据管理的数据管理系统。
数据库是一个通用化的综合性数据集合,数据库管理系统则是数据库的支撑软件。它不仅提供了用户对数据管理方面的服务,而且由于计算机的共享一般是并发的,即许多用户同时使用数据库,因此该系统还提供了对数据的多种维护能力,如安全性、完整性和并发控制等,提高了应用程序的生产效率,给用户带来极大的方便。
可以说从1970年到1981年为数据库发展时期,而从1981年开始,数据库技术进入成熟时期。十多年来。数据库技术作为计算机学科中的一个分支得到了惊人的发展。在微型计算机系统中,也出现了数据库管理系统,如dBASEⅡ、dBASEⅢ、FoxBASE等,近年来又出现了FoxPro。
4.数据库基本工作方式
三个发展阶段形成了三种基本的工作方式。
第一阶段是批处理方式,是它的初级阶段。
在第二阶段,已逐渐形成了一种计算技术与通信技术相结合的崭新的处理方式,即联机方式。远距离的信息通过数据传输线和终端设备直接送入计算机,经过加工处理后又直接返回终端用户。联机系统能将信息情报集中管理,并随时快速地回答用户提出的查询及预约。在70年代初,联机系统在国际上已获得广泛应用,如飞机与火车订票、银行存取款及图书管理等。
第三阶段是集中使用了数据库及进行实时处理的计算机网络。同时随着小型机和微型机的发展,又出现了分布式数据库系统。具有分布数据库管理系统和分布通信网络的分布系统,可以进行分布处理,以减轻集中处理系统的开销和通信负担。
我国数据库技术起步较晚,70年代后期才开始引进数据库管理系统,但发展十分迅速,取得了丰硕成果。特别是关系型数据库在我国最为流行,应用也最广,深为人知的dBASEⅡ、dBASEⅢ、FoxBASE+、FoxPro都是最典型的代表。
由于计算机科学的迅猛发展,特别是微型计算机的出现和普及,为数据库技术的应用提供了广阔的舞台。微型计算机冲破了计算机神秘世界高墙深院,进入了社会的各个角落乃至千家万户。微机数据库受到人们的普遍重视,应用水平也是不断提高,FoxPro就是这方面的最新成果。
5.信息
所谓信息泛指通过各种方式传播的、可被感受的声音、文字、图像、符号等所表征的某一特定事物的消息、情报或知识。换句话说,信息是对客观事物的反映,是为某一特定目的而提供的决策依据。
在现实世界中,人们经常接触各种各样的信息,并根据这些信息作出决策,例如,人们根据汛情通报决定防汛措施;当我们走进商店欲购买某种商品时,首先要了解该商品的价格、款式或花色,根据这些信息决定是否购买;人们根据电视节目预告来决定收看哪个电视台的节目;要想知道工厂生产的商品是否对路,就必须了解市场动态和社会需求,然后根据这些信息和自身的实际情况决定生产哪些畅销对路的产品,等等。
总之,现实世界是一个充满信息的世界,当然,在处理某一实际问题时,人们只需要关心对其有用的信息。
6.数据和数据处理
(1)数据
所谓数据是指表达信息的某种符号,是信息的一种量化表示。数据反映信息,而信息依靠数据来表达,表达信息的符号可以是数字,文字和图形。
计算机只能存放数据。因此,必须人为地把信息转换成可以被计算机接受的数据,但不管是什么数据,都是以二进制形式存储在计算机内并被计算机所加工处理。
(2)数据处理
所谓数据处理泛指对原始数据进行收集、整理、存储、分类、排序、检索、维护、加工、统计和传输等一系列活动的总称。数据处理的目的是获得我们所需要的资料和提取有用的数据成份作为决策的依据。
当今的时代是一个信息“爆炸”的时代,宏大的数据流单靠手工和简单的工具已无法进行处理,更远远赶不上社会的实际需要。电子计算机的出现使数据处理发生了划时代的变革,而数据库技术的发展,使数据处理跨入了一个崭新的阶段。在数据处理中,数据的管理技术是重要的组成部分。
7.现实世界的数据描述
信息从客观事物出发,流经数据库,通过控制决策机构(由人或自动控制系统组成),最后又返回以控制客观事物。信息的这一循环经历三个不同的领域:现实世界、观念世界(信息世界)和数据世界(计算机世界)。
(1)现实世界
现实世界是存在于人们头脑之外的客观世界,事物及其相互联系就处在这个世界之中。现实世界的事物反映到人的头脑中来,人的大脑对于这些事物有个认识过程,经过选择和加工,将有意义的对象进行命名及分类之后,进入观念世界。所以信息世界就是现实世界的录像。
数据世界是观念世界中信息的数据。信息是用数字、文字、符号、图像或声音表示的。如路标用符号表示,所以信息交付计算机处理之前必须先把它们数字化。这一工作是由软件完成的,如编译系统,汉字输入输出等。
(2)观念世界
①实体 观念世界的主要对象是实体,它是客观存在并可相互区别的事物。我们所说的这个“事物”可以是实际的东西,如一个人、一本书、一个零件;也可指抽象的事物,如一次订货,一次借书等;还可以指“事物”与“事物”之间的联系。对同一个对象,从不同的角度出发可以是两个实体。例如某一个人在学校中为教师,而在家庭中是居民,这是两个不同的概念。实体可以分成“对象”与“属性”两大类。如人、车、学校、工厂和机关等属于“对象”范畴;姓名、性别、民族等属于“属性”范畴。实体又可分为两级:个体与总体。个体是指单个的能互相区别的具体的实体,如张三、李四等;总体泛指一类个体组成的集合,如“人”,泛指张三、李四等个体组成的集合。
②实体集 在现实世界中,把组合在一起的同类事物称为事物类或范围。相应地在观念世界中有一个实体集与之对应。性质相同的同类实体的集合叫实体集。如所有“课程”,所有的“男学生”,所有“可征订的”杂志,所有的“杂志”等。这里“同类”的含义是指同一实体集合中的每一个实体具有相同的特征要求。如当需要处理可征订的杂志时,就将可征订的杂志与一般杂志建立为两个实体集合。
③实体的属性 现实世界中的事物,由它的性质来表征。在相应的观念世界中,用来表示对象(实体)某一方面的特性叫属性。例如一个人的姓名、性别、年龄、职务、专长等表示了对象“人”的五个方面的特性,特性是对同类的限定,我们可以根据需要选择其中的某些特征、甚至赋予新的特性(如职工编号)来表示对象。例如把人作为财务管理的对象,可用职工编号、姓名、性别、年龄、职务等特性描述。实体是通过它的属性来体现的,因此实体是一批相关属性的组合。例如:编号/1001、姓名/陈颖、基本工资/120.00、工龄工资/12.00、水电/3.4、房租/5.00、实发工资/135.54等属性的组合表示“陈颖的工资清单”这样一个实体。
④实体标识符 实体是千差万别的,即使是同类实体也各不相同,因而不可能有两个实体在所有的属性上都是相同的。实体集合的属性中有一个或一组特殊的属性,能够唯一地标识实体集合中的每一个实体。能将一个实体与其它实体区别开来的属性集叫实体标识符。例如在“工资清单”这个实体中,职工编号可作为实体标识符。
(3)数据世界
下面是职工档案表的几个典型项:
①字段(数据项) 描述实体属性的符号集(数据集)叫字段或数据项(如上面的职工编号、姓名、性别、职称、工资等)。它是可以命名的最小信息单位,又叫做数据元素。一般常采用属性名作为描述它的字段(数据项)名。
②记录 字段的有序集叫记录。记录是描述对象的,所以它又可定义为完整地描述一个对象的符号集(数据集)。由于一个对象具有若干个属性,所以一个记录亦可由若干个数据项组成。例如上述档案中的一行,一本书的情况等都是一个记录。
③文件 同类记录的集合叫文件。文件是描述实体集的,所以又可定义为描述一个实体集的所有符号集。例如所有的干部登记表是一个干部档案文件,所有的定货单是货单文件。上面给出的是一个档案文件。
④关键字 能唯一标识一个记录的字段叫关键字。它用于描述实体标识符。例如零件号、职工编号等。