数据库
出处:按学科分类—工业技术 企业管理出版社《工程师手册》第1249页(2233字)
建立数据库是实现计算机检索必不可少的一环,机检服务质量的高低,在很大程度上取决于系统数据库的质量和数量。这里所谓数据库就是二次文献资料档的总体。英文叫做Bibliographic Data Bases,译成汉文为“文献数据库或文献目录数据库”。以磁带为载体的数据库,多数通过市场出售或者直接提供。如CA Condensates磁带,INSPEC磁带,JICST磁带等。
大型计算机的检索系统中存在着许多数据库,每个数据库都是一定专业领域的情报的集合。数据库由一个个记录组成。在文献目录型的数据库中,一个记录是一篇文献的题录或文摘。不同数据库记录的格式和项目大同小异,下面是INSPEC数据库[相应的印刷本即“科学文摘”(Science Abstracts)]中的一个记录例子:
存取号——82C031585 INSPECJournal paper 82C31585
题目(TI)——Database searching in chemical engineering
作者(AU)——Fries,J.R.
Felderg Library,Hanover,NH USA
出处——Chem.Eng.(USA),Vol.88,no.26,p71-4,1981
文摘
分类号(CC)——Classification codes:C7250/C7540/C3350g
标引主题词
记录中的着录项目叫字段,重要的字段有题目(TI)、作者(AU)、文摘(AB)、分类号(CC)、标引主题词(受控词CT,非受控词UT)、化学文摘数据库中的CA登记号(RN)和分子式(MF)等。这些字段中的几乎每一个词和代码都是可以检索的。检索时从终端机上输入一个或几个检索词,计算机在数据库中扫描,把包含有这些检索词的记录全部划出来,输入检索词时,如果指定字段,计算机将在指定的字段中查词;如果不指定字段,则计算机一般在题目,文摘和标引主题词字段中查词。
目前数据库中比较常用的有以下几种结构的资料档。
1.顺排档。顺排档是按照文献的编号顺序排列的文档。它以文献为单位来组织,文献号按递增的顺序排列。
顺排档结构如表6.1.3-1表示。
表6.1.3-1 顺排档
顺排档文献在检索时需要按顺序查找。例如,按文献号顺序在文献档中查找有关“计算机”方面的文献时,当提问“计算机”、与文献的某一主题词一致时,便输出这些文献(001、002、004号)的着录内容。这种按顺序查找的方法,其主要缺点是检索时间比较长。
2.倒排档。它是将顺排档中的主题词抽出,按一定顺序排列而成。
倒排档结构如表6.1.3-2表所示。
表6.1.3-2 倒排档
这种资料档收录的是主题词及其文献号(或者文献号码档地址的指示字)。例如查找有关“计算机”时,先按照主题词的顺序(当然还可采用其他查词方法)查找倒排档,找到“计算机”,抽出文献号码001、002、004(或者通过指示字由文献号码档抽出文献号码),再将文献号码作为地址,从顺排档抽出文献的着录项目。在许多情报检索系统中,倒排档多作为辅助手段,与顺排档配合使用。这种资料档的主要优点是检索时间短,但资料档的编制与更新比较困难。
3.树型结构资料档。它是一种按照树型结构排列主题词的资料档,是倒排档的一种变形,例如情报处理、情报理论、情报检索系统、情报检索程序设计等词的树型结构图6.1.3-1所示。它们在树型结构资料档中的存贮形式如表6.1.3-3所示。
图6.1.3-1 词的树型结构图
表6.1.3-3 树型结构资料档表
词的查找过程是:提问词与资料档中的主题词逐字比较,一致时转入T1所示的地址,当与提问词的所有字比较完毕时,即为所查主题词(当T1为*时)。取出文献地址。在比较过程中,当提问词的字与资料档主题词的字不一致时,则转入T2所指示的地址。以此类推,直至找到为止。存贮载体一般是随机存贮器。