文章导读
文献论文写作信息检索效果评价2.13.1概述信息检索过程是一个复杂的过程,从表象上看,信息检索过程是信息检索提问式与信息集合标识之间的匹配运算,但实际的机理问题却要复杂得多,它不仅涉及以用户认知结构为基础的信息需求唤醒、提问表达与转换、检索标识的
文献论文写作信息检索效果评价
2 . 13 . 1 概述
信息检索过程是 一个复杂的过程 ,从表象上看 ,信息检索过程是信息检索提问式与信息 集合标识之间的匹配运算 ,但实际的机理问题却要复杂得多 ,它不仅涉及以用户认知结构为 基础的信息需求唤醒 、提问表达与转换、检索标识的形成和检索结构的相关性与适用性判 断 ,而且还涉及对检出信息的理解与吸收利用 。信息检索过程是系列过程组成的综合体系 , 其各个阶段 和环节都可能产生不确定性 。信息检索的不确定性是指由于忽 略次要因素 、相 关性不确切或不完全 、知识不成熟 、证据本身可能错误 ,或是仅注重对 物的研究而对信息传 递主体与信息接收客体的 关注不够等原因 而产生的检索过程的模糊认识 。信息检索过程中 不确定性的产生机制已经成为信息检索研究中的重要课题 。信息检索的不确定性是由于人们对信息和信息检索过程认识的类属不清 、状态不明造 成的 ,用户与文献作者之间知识结构的差距是导致信息检索失败的主要原因 。因而作为情 报系统来说 ,必须能够响应用户带有 一定缺陷的知识结构 ,反映和支持用户在信息需求 表达 中所利用的领域知识和语 言知识。有关信息检索的不确定性研究是将检索过程建立在 一种理想化的假设之上 ,即从需求 唤醒到提出问题再到情报吸收 、利用的一系列检索过程能在用户与系统的交互作用中顺利 进行。计算机检索时 ,首先要由用户向计算机信息检索系统提交查询表达式 ,系统经过查询匹 配后把检索结果输出给用 户 ,再 由用户进行判断是否满足 向 己 的信息需求 。可见计算机检 索的相关性判断有两个环节 :一是系统相关性判断 ,即系统自动对相关度 进行计算 ,并输出 检索结果 ;二是用户相关性判断,即用户在选择系统 、拟定检索表达式及在系统命中的结果 中进行取舍时所做出的 主观判断。
1. 系统相关性
系统相关性指的是文档标识与用户提问之间的相符程度 ,其量化指标为相关度 。检索 系统的输出结果一般按照相关度从大到小排列 。相关度的算法因系统而异 ,是决定系统检 索性能优劣的主要因素 。各检索系统评判结果是否相关及相关程度的方法虽有不同 ,但归 纳起来主要有词频方法 、位置方法 、引用率方法 、大众单击率方法 、分类或聚类方法等 。
2. 用户相关性
用户相关性是 一个灵活 、相对的概念 ,它表示的不是检索出的文档与用户检索表达式之 间的一致性 ,它衡量的是文档与用户需求的 一致性 。当用户不知道某些相关信息的存在或 对检索课题不甚了解从而不能形成完整的信息需求表达时 ,某些与用户的信息需求相符的文档却可能与检索提问不符 。反之 ,检巾的文档与检索提问相符却不一定能满足用户的需 求 。系统相关不一定意味着用户相关 。用户相关性由用户本人来判断 ,它具有强烈的即时 性和明显的个性化特征 :用户对于文献相关与否 的判断会因条件 、时间的不同而有所变化 , 还会因用户知识背 景 、知识结构 、兴趣爱好不同 而有所不同 。
2 . 13. 2 信息检索的效果评价
检索效果是指检索结果的有效程度 ,反映了检索系统的检索性能和检索能力 。评价检 索效果的目的是为了准确地掌握检索系统的各种性能和水平 ,找出影响检索效果的各种因 素 ,为检索策略的改进调整提供依据 ,才能够快速 、全面、准确地查找出所需要的文献信息。 对计算机检索系统来说 ,通过对检索效果的评价 ,以便改进系统的检索性能 ,提高系统的服 务质量 。
任何检索系统都有存储和检索两个功能 。就存储而言 ,保证某一学科或专业领域信息 收集全面并不十分困难 ;而对于检索来说,从系统中输出全部相关信息 ,排除所有无关信息 则比较难以实现 。通常情况下 ,在查找信息时 ,不可避免地会带来 一些无关信息 ,而漏掉一 部分相关信息 。在 网络检索系统中 ,这种情况尤为突出 。其主要原因是系统相关性匹配算 法的机械性 ,用户提问的模糊性及其与信息需求的偏差等 。
根据 F. W. Lancast er 的阐述 ,判定一个检索系统的优劣 ,主要从质量、费用和时间三 个方面来衡量 。因此,对计算机信息检索的效果评价也应该从这三个方面进行考量 。质量 标准主要通过查全率与 查准率进行评价 ;费用标准 即检索费用 ,是指用户为检索课题所投 入的费用 ;时间标准是指花费的时间 ,包括检索准备时 间、检索过程时间 、获取文献时间等 。 在这三个方面中 ,查全率和查准率是评价检索效果的主要指标 ,也是用户在实际检索时最关 心的问题 。下面对目前采用最为普遍的检索效果量化评价指标 查全率 、查准率 、漏检 率 、误检率进行简单介绍。通常使用 2 ×2 表格对这 4 个指标进行描述 ,如表 2. 3 所示 。
表 2.3 检索结果评价指标
主
相关文献
非相关文献 . 总计
被检出文献 a ( 命中) b ( 噪声) a十b
未检出文献 c ( 漏检) d ( 合理拒绝) c十d
合计 a+c b+d a +b十c十d
1 . 检索结果评价 指标
中 ,查全率是对所需信息被检出程度的量度 ,用来表示信息系统能满足用户需求的完 备程度 ;查准率是衡量信息系统拒绝非相关信息 的能力的量度 ;查全率的误差即是漏检 率 ;查准率的误差即是误检率 。其数学表达式分别如下 。
查全率 CR ) 被检出相关文献数 /系统中的相关文献 ×lOO % = C a/ Cα 十c) ) ×100% 漏检率( 0) 未检出相关文献数 /系统中的相关文献 ×lOO % = C c/ Cα +c) ) ×100 % 查准率 C P) 被检出相关文献数 /被检出文献总数 ×100% (α/(α十的) ×100%I误检率( N ) 被检出不相关文献数 /被检出文献总数 ×lOO % = (b/(α +b) ) ×100%查全率和查准率是评价检索效果的两个重要指标 ,查全率 、查准率越高,说明检索效果 越好 ,但在实际检索中 ,查全率和查准率是不可能同时达到 100% 的。克莱夫登通过克 兰菲 尔德实验证明 ,在同一个信息检索中 ,当查全率和查 准率达 到一定的阔值 ,即查全率为 60 % 70 % 、查准率为 40 % 50 % 后 ,二者呈互逆关系 ,即查全率与查准率在某种程度上成 反比例关系 ,一方的提高往往导致另一方的降低 ,偏重哪一方都是不妥当的 。在检索实践 中,需要根据课题的具体要求 ,合理调节查全率和查准率 ,找到最优平衡点 ,保证适度的查准 率和查全率 。因此 ,在检索过 程中 ,可以从以下几点考虑 。
( 1 ) 作为检索人员 ,要确定自己是对查全率更关心 ,还是对查准率更感兴趣 。据此选 择 不同的检索策略 。
( 2 ) 了解检索系统和数据库的特点和规模 。对专业性强 、规模小的数据库 ,要注意提高 查全率 ;对数据量较大的系统 ,如网络搜索引擎 ,由于其结果输出量比较大 ,保证查准率则 显得更为重要 。
2 . 调整查全率和查准率 的方法
影响查全率的因素从文献信息存储来看主要有 :数据库收录文献不全 ;索引词汇缺乏 控制和专指性 ;词表结构不完整 ;词间关系模糊或不准确;标引不详;标引前后不一致 ;标 引人员遗漏了原文的重要概念或用词不恰当等 。从信息检索来看主要有 :检索策略过于简 单 ;选词和进行逻辑组配不当 ;检索途径和方法太少;检索人员业务不熟悉和缺乏耐心 ; 检索’ 系统不具备截词功能和反馈功能 ;检索时不能全面地描述检索要求等。
提高查全率 ,即进行扩检 ,可以按照如下方法调整检索提问式 。
( 1 ) 选全同义词并以“ or”的方式与原词连接后加入到检索式中 。
( 2 ) 降低检索词的专指度 ,从词表或检出的文献中选择 一些上位词或相关词 。
( 3 ) 采用分类号进行检索 。1
( 4 ) 删除某个不甚重要的概念组面 ,减少“a nd”运算 。
( 5 ) 取消某些过严的限制符 ,如字段限制符等 。
( 6 ) 调整位置算符 。
影响查准率的因素从文献信息存储来看主要有 :索引词不能准确描述信息主题和检索 要求 ;组配规则不严密;标引过于详尽;检索系统不具备逻辑“非”功能和反馈功能;检索 式中允许容纳的词数量有限 。从信息检索来看主要有 :选词及词间关系不正确 ;组配错 误 ;检索时所用检索词(或检索式)专指度不够 ,检索面宽于检索要求 ;截词部位不当;检索 式中使用逻辑“或”不当等 。
若要提高查准率 ,即进行缩检 ,可按如下方法调整检索提问式 。
( 1 ) 提高检索词的专指度 ,增加或换用下位词和专指性较强的自由词 。
( 2 ) 增加概念组面 ,用“and ”连接一些进一步限定主题概念的相关检索项 。
( 3 ) 限制检索词出现的可检字段 ,如限定在篇名字段和主题字段中进行检索等 。
( 4 ) 利用文献的外表特征限制 ,如文献类型 、出版年代 、语种 、作者等 。
( 5 ) 用逻辑非“ not”来排除一些无关的检索项 。
( 6 ) 调整位置算符 。
3. 其他评价指标
( 1 ) 用户负担 :即检索工具的用户友好性及用户在使用该工具时的方便和易用程度。
( 2 ) 新颖率 z 从检索系统中检索出来的对用户而言含有新颖信息的文献数量与文档中 总相关文献数之比 。
( 3 ) 覆盖率 :在某一特定时间里 ,从某 一检索系统中检索到的涉及特定主题领域的所 有文献数与该主题领域相关的实有文献总数之比 。
( 4 ) 检索结果的满意度 :包括检索结果相关命中数、重复链接数 、死链接等 。
( 5 ) 响应时间 :即完成一个检索要求所用的时间 。
( 6 ) 相关性排序 :即将输出结果根据与检索词的相关度进行排序。
( 7 ) 输出数量选择 :即限定或改变输出量。
( 8 ) 输出方式 :标题的有无、类目位置 、网页文本大小等 。
( 9 ) 检索界面 :用户界面的易用性情况 ,包括是否含有检索说明文档 、是否有帮助文 件 、是否有查询举例 等。
Tag:
检索(9)信息(5)
点此返回栏目查看更多>>>代写职称论文