计算机文献检索的基本方法与策略 计算机信息检索,实质上由计算机将输入的检索策略与系统中存贮的文献特征标识及其逻辑组配关系进行类比、匹配的过程。
由于信息需求本身具有不确定性,加之对数据库中的文献特征标识不能充分了解,以及系统功能的某些限制,都会不同程度地影响检索效果。
但是只要遵循一定的检索步骤,制定良好的检索策略,便可以减少各种不利因素的影响,尽可能地使检索提问标识与信息需求和检索系统保持良好的一致性,从而在系统中检索出满足用户需求的信。
1.检索步骤 (1)弄清信息需求,明确检索目的 信息需求是人们客观上或主观上对各种情报信息的一种需求。
这种需求是人们索取情报信息的出发点,也是联机信息检索时选择数据库、确定检索策略以及评价检索效果的依据。
不同类型的课题,其信息需求的范围和程度也不尽相同。
例如,申请发明、申报成果奖励、鉴定及立项类的查新课题,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查、追溯的特点,应着眼于查全;而对于科研、生产中为解决某一特定问题的攻关课题,往往只要求检出的信息对自己的研究有所帮助,而对查找的文献范围不需要很广。
因此,这类课题则要求查准。
如何对信息需求进行正确的分析呢?不妨从信息需求的形式和内容两方面来分析。
有关信息的形式需求要明确的问题有: ①明确检索目的。
检索是为了申报成果,还是为了了解学科的最新进展等等,据此以制定出符合查全或查准要求的检索策略。
②明确所需的文献量。
规定所需文献数量的上限,对以后确定检索策略和控制检索费用是一个很重要的参数;同时还需对检索课题可能有的相关文献量做出估计。
③明确所需文献的语种、年代范围、类型、作者或其他外表特征,这对限定检索范围也很重要。
关于信息的内容需求要明确的主要问题有: ①明确检索课题内容涉及的主要学科范围,这对以后选择合适的数据库很重要。
②分析检索课题的主要内容,用自然语言来表达这些内容要求,这是联机检索中较为重要的环节。
(2)选择数据库,确定检索途径 分析了信息需求后,可根据已知的条件来选择合适的数据库,这一步隐含了检索系统的选择。
如欲检索国外专利文献,则可以检索国内的BDSIRS系统的GWZL库。
但其提供的检索途径及报道最新专利文献方面不及美国的DIALOG系统的WPI库,当检索要求较高时,仍常选用美国的DIALOG系统。
选择数据库时,首先应了解: ①数据库收录的信息所涉及的学科领域; ②收录的文献类型,最好能进一步了解文献的主要来源; ③收录的时间范围; ④数据库的基本索引及辅助索引,它们提供的检索途径及检索标识的特点; ⑤数据库的检索费用,包括机时费和每篇记录的打印费。
数据库选定之后,其提供的检索途径也随之确定,并可根据已知的条件来确定某一个或几个检索途径。
由于计算机存贮容量大和运算速度快,又对比较多的字段建立了索引,它不仅可以从手检中常用的主题词、分类号及作者等途径检索,而且可以从篇名、文摘的自由词、文献类型、期刊名称等途径进行检索,并且还能利用各种途径的组配进行交叉检索,这些都是手工检索所不及的。
(3)确定课题的概念组面和检索标识 弄清信息需求,了解了检索课题的主要内容后,确定其概念组面和检索标识是重要的一步。
当检索课题包含较复杂的主题内容时,应明确组成课题内容的几个概念组面,并通过一定的逻辑组配形成一定的复合概念或概念关系来表达用户的信息需求。
确定了课题的概念组面,还须将概念组面转换成相应的为系统所识别的检索标识,检索标识的表示应符合两方面的要求,一是切题性,即检索标识反映信息需求;二是匹配性,即检索标识和检索系统的存贮特征标识相一致。
检索标识一般有如下三种形式: ①规范词: 从待检数据库的叙词表或主题词表中选取规范化的词或词组,因为词表是数据库标引和检索必须共同遵循使用的检索语言。
为了使检索提问标识与文献特征标识相一致,获得最佳的检索效果,应优先选用规范词。
②规范化的代码: 索引代码是数据库系统为某些主题范畴或主题概念规定的索引单元。
这类单元有很好的专指性,是一种有较好检索效果的文献特征标识。
如国际专利分类号IC=,PTS数据库的产品代码PC=,标准工业代码SC=等等。
③自由词:使用自由词检索能够充分利用系统的全文查找功能。
规范词或代码的选择需利用词表或分类表等进行自然语言到规范语言的转换,而标引人员和检索人员的思路不一致时也会影响检索效果。
此时,用自由词在篇名、文摘甚至全文中查找显露出一定优越性,自由词直接、简明是科技人员易为接受、较为常用的一种方法。
④拟定检索提问式,确定具体的查找程序 检索提问式,是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。
从某种意义上讲,检索式是检索策略的具体体现,它的质量好坏,将关系到检索策略的成败。
检索标识确定后,接下来就是用一定的组配关系把各个检索标识联接起来组成检索提问式,并表达各种复杂的概念关系,以准确地表达信息需求。
要注意各种逻辑运算符、位置算符、截词符等的使用方法,如位置算符的松紧程度及先后次序,还要考虑各个检索项的限定要求及输入的次序,以及根据反馈信息对检索式进行调整等,参见检索策略部分。
2.检索策略 (1)检索策略的概念 所谓检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以及查找步骤等。
检索策略考虑得是否周全,直接影响文献的查全率和查准率。
(2)制定检索策略的步骤 制定检索策略的前提条件是明确数据库及整个检索系统的基本性能。
不同数据库收藏内容、标引方法和检索方法是不同的,不同检索系统配备不同的技术性能和操作符。
在制定检索策略之前对数据库有几条检索途径,这些途径的标引所遵循的规则都必须有比较清醒的认识。
如果在提问式中列出系统没有的检索点,是不可能检出文献的。
(3)制定检索策略的基础是弄清检索课题的内容要求和检索目的。
在这一基础上,才能对检索课题进行概念分析,如果课题属单一概念就用单个检索词表达,若课题概念复杂,就把复杂概念分解为若于个概念单元,再用逻辑运算符把表达概念单元的检索词组配起来。
将概念单元转换为检索词时,应尽量选用规范化词。
检索新课题、边缘学科或是比较含糊的概念时,应特别小心,因为这些词往往没有收入系统,这里应从专业范畴出发选用本学科内具有检索意义的关键词即自由词,不然就会带来误检或漏检。
(4)检索策略构成的关键是正确地选词和配备逻辑符。
(5)调整检索策略。
在计算机中检索中,常常会出现文献资料过少甚至为零,或文献资料过多的情况。
作为检索人员,应与用户进行分析,及时调整检索策略,以使检索达到令人满意的效果。
文献资源过多或过少,均可通过增加检索项,运用布尔逻辑的组配,以增加或缩小检索范围,达到减少或增加命中文献的目的。
通常来说,逻辑与总是缩小检索范围,达到查准的目的;逻辑或总是扩大检索范围,达到查全的目的。
而逻辑非总是排它检索,缩小检索范围,达到查准的目的。
3.检索效率 检索效率就是利用检索系统(或工具)开展检索服务时产生的有效结果。
它直接反映检索系统的性能,影响系统在信息市场上的竞争能力和用户的利益。
检索效率包括技术效果和社会经济效果两个方面。
技术效果主要指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。
社会经济效果是指系统怎样经济有效地满足用户需要,使用户或系统本身获得一定的社会效益和经济效益。
我们以下讨论的主要是系统技术效果的评价问题。
在检索中最理想的是查全率和查准率都达到100%,就是数据库中收录的全部相关文献都被检索出来,而且检索出来的文献全部都是相关文献。
但事实上,检索中有许多因素使这个指标很难达到,总存在一定的误差。
那么就出现了两个评价误差的指标漏检率和误检率。
在评价工作中,最常用的是查全率和查准率,而且应同时使用,否则就难以反映检索系统的功能及检索结果的效率。
查准率和查全率结合起来,描述了系统的检索成功率、查全率和查准率之间有着互逆的关系,就是说查全率提高,查准率就下降,反之亦然。
在计算机检索中,一般认为查准率为60—70%、查全率为40—60%是较为理想的。
系统的收录范围、索引语言、标引和检索等都是影响查全率和查准率的因素,这里就不再一一细讲。
4.提高检索效率的措施 (1)提高文献库的编辑质量,使它的收录范围更全面、更切合相应学科或专业的需要,著录内容更详细准确。
(2)提高标引质量,标引前后要一致,用词要恰当,组配要合理,努力做到:正确揭示主题一不错标;全面反映主题一不漏标;简练地使用标识一不滥标。
(3)提高索引语言的专指性和词表质量。
加强对索引词汇的控制,完善词表的结构及其参照关系,使索引语言既有利于族性索引,又有利于特性检索。
词表结构要完善,词与词之间关系正确,正确控制同义词和多义词,及时反映新学科新技术的术语等。
(4)提高检索人员的工作水平和能力,了解数据库收集的内容和加深对词表结构的理解,正确做出主题分析,选择合适的检索文档,选择恰当的检索词表达查找主题内容,进行恰当的逻辑组配,找出最佳检索途径,从而制定出最优的检索策略。
(5)调整查全率和查准率。
在实际的检索中可合理地调节查全率和查准率,根据不同的检索要求,使检索的结果最大限度地满足检索的要求。
在实际检索中,有时对查全率要求很高,希望不遗漏任何一篇有关的文献,而查准率低一点也行;而有时只需测览一些新的重要文章,不全部要,这里就要求较高的查准率,查全率低一点也行。
总之,在检索时要合理地调节查全率和查准率,从而达到最佳的检索效果。