信息管理学基础-考研笔记

发布时间 : 星期六 文章信息管理学基础-考研笔记更新完毕开始阅读

D.超媒体方式 用超媒体方式来组织网络信息资源,就是将网上所能获得的各种媒体(文本、图像、声音、视频、文件、网页、超文本连接网、数据库等)的相关信息资源利用超文本技术有机地编织在一起。每一个媒体信息为一个节点(node)或基本单位(unit),节点间以链路(link)相连,将信息资源组织为某种网状结构,用户可以从任意节点开始,自由跳转,浏览和查询信息。

优点:以符合人们跳跃性思维习惯的非线性的方式组织信息,具有良好的包容性和可扩充性,超越了媒体类型对信息组织与检索的限制,实现了链接浏览的搜寻方式,避免了检索语言的复杂性。

缺点:采用浏览的方式进行信息搜寻,当超媒体网络过于庞大时,很难迅速而准确地定位,且很难保存浏览过程中所有的历史记录,难以避免所谓的迷航现象。

四十一、知识组织(descriptiue definition)——信息组织的发展方向

信息是知识的原料或半成品,知识是经过整序和提炼的信息,是系统化的信息。

1.定义:知识组织是揭示知识单元(包括显性知识因子和隐形知识因子),挖掘知识关联的过程或行为,最为快捷地为用户提供有效的知识或信息。狭义的知识组织是指文献的分类、标引、编目、文摘、索引等一系列整序。广义的知识组织是针对知识的两要素进行的,是知识因子的有序化和知识关联的网络化。

2.特征:

1)自动化:采用自动化的方法组织信息、知识。

2)集成化(integration):在知识组织中一个很重要的工具——数据仓库发挥了很大的作用,它将整个机构内的数据以统一形式集成存贮在一起,便于针对一定的主题的、集成的、时变的、非破坏性的数据进行集中分析。 3)智能化:指对象具备灵敏准确的感知功能、正确的思维与判断功能,行使有效的执行功能。联机分析处理是一种友好而灵活的工具,它允许用户以交互方式浏览数据仓库,对其中的数据进行多维分析,及时地从数据中提出与企业经营活动有关的信息。

3.知识组织的目标不仅在于对知识存贮进行整序和提供知识,而且在于整合分析、归纳、推理等方法来实现

知识挖掘的知识表示过程。

4.知识表示:是指把知识客体中的知识因子和知识关联表示出来,以便人们识别和理解知识。知识表示是知识组织的基础与前提,任何知识组织方法都要建立在知识表示的基础上。知识表示有主观知识的表示和客观知识的表示两种。

1) 主观知识表示:表现为复杂的人脑神经生理与心理过程。专家系统的核心是知识库系统。知识库中的知识存贮方式及其推理规则,即为专家系统的知识表示方法。专家系统对专家知识的表示主要采取以下五种方式:逻辑表示法;产生式规则表示法;语义网络表示法;框架表示法;面向对象的知识表示

2)客观知识表示:就是把文献中的知识因子和知识关联用一定方式表示出来即可。目前普通采用的是分类标引法和主题标引法。

5. 知识组织技术与方法

1)分类法和主题法是客观知识组织的基本工具:一方面,分类法和主题法是信息组织的基本方法,另一方面,由上述对客观知识表示的分析可知,分类法和主题法自然而然地成为了客观知识组织的基本工具。分类法和主题法在结构和功能上就模拟了公共知识结构,但角度不同,前者以公共知识的层次聚类为基础,后者以公共知识的概念网络为基础。

2)数据仓库和知识挖掘(knowledge mining/discovery)是主体知识组织的工具:

A. 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据仓库的组织过程是:数据的抽取——数据的存贮和管理——数据表现。数据的数据进入仓库的入口中。数据的存贮和管理方式是知识组织的关键。并行处理技术是数据仓库组织管理的重要方面。数据表现是数据仓库的门面,主要集中在多维分析、数理统计和数据挖掘三个方面。

B. 知识挖掘技术主要包括联机分析处理(OLAP)、知识发现(KDD)和数据挖掘(DM)

联机分析处理:是共享多维信息的快速分析,其特征在于快速性、可分析性、多维性和信息性。知识发现的研

第 25 页 共 47 页

究内容是能自动地处理数据库中大量的原始数据,从中挖掘、搜索出具有必然性的、富有意义的模式。主要对象是关系数据库。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,是从海量数据库中挖掘信息的技术。

四十二、信息检索

信息组织是按照一定的规则来描述信息资源或信息对象,以便于能被需要它的人高效利用。信息组织使信息有序化和系统化,把有价值的信息按照一定的编排方式进行存贮。而信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。可以说,信息组织和信息检索是一对互逆的过程。

1.定义:信息检索是根据特定的需求,运用某种检索工具,按照一定的方法,从大量文献中查出所需要的资料或信息的过程。通常将满足信息用户的信息需求而建立的,存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人或检索工作单位),统称为信息检索系统(Information Retrieval System, 简称 IRS)。即人、检索工具和信息资料是信息检索系统的三个基本要素。

2.信息检索的类型

1)按存贮和检索的内容划分

①文献检索:回答的是诸如“关于铁路大桥有哪些文献”之类的问题。通常存贮的是二次文献,故检索输出的也是文献的线索,再根据线索查找出原文。

②数据检索—回答诸如“世界上最长的铁路大桥有多长”之类的问题。(数据型)检索系统通过一定的运算推导能力反馈给用户经过核实、整理或加工过的数值信息。

③事实检索—回答诸如“世界上最长的铁路大桥是哪条”之类的问题。(非数据型)它是数值信息和系统数据信息的混合。一般需要从系统中检索出所需信息后,再加以逻辑推理给出结论。

2)按检索系统中信息的组织方式划分:①全文检索 ②多媒体检索 ③超媒体检索(检索结果是逻辑连接链) 3)按检索性质划分:①定期检索—又称为SDI检索,是查找有关特定主题最新信息的检索。 ②回溯检索—也称为追溯检索,是查找一段时期内有关特定主题信息的检索。 4)按检索要求划分:①强相关检索—强调查准率 ②弱相关检索—强调查全率

3.信息检索需要满足的特性

1)信息检索的相关性:信息检索系统针对用户的查询,从文档中检出的文档与查询之间的一种匹配关系。国内信息界认为,相关性表明用户是否认为一文献与一提问吻合。

2)信息检索的不确定性:语言本身的特性决定了在标引和检索词的选用中都存在不确定性。信息检索系统并没有直接处理原始信息和原始用户需求,它提供的只是信息表示和查询表示之间的关系,这就涉及到标引和检索词选用的准确度问题。

3)信息检索的逻辑性:信息检索作为信息管理的核心,具有非常强的逻辑性。在检索语言方面,检索词作为检索语言的典据性文本,其自身编排具有很强的逻辑性;在检索策略的研究方面逻辑性表现的更为明显。其中系统与用户之间交互的接口功能与检索策略的逻辑性更是关键。

4.信息检索的发展历程

1)手工检索阶段(1876-1954):信息检索源于参考查询、文摘索引工作,较正式的参考咨询工作是由美国图书馆和高校图书馆与19世纪下半叶发展起来的。到20世纪40年代,咨询工作的内容又进一步,包括事实性咨询、文摘、专题文献检索、提供文献代译等。检索从此成为一项独立的用户服务工作,并逐渐向专业化方向发展。 2)机械信息检索阶段:是20世纪50年代开始的用各种机械装置进行信息检索的机械系统,是手工检索向现代信息检索的过渡阶段。主要包括两种基本类型:A.机电信息检索系统 B.光电信息检索系统。机械信息检索系统利用当时先进的机械装置改进了信息的存贮和检索方式,通过控制机械动作,借助机械信息处理机的数据识别功能代替部分人脑,促进了信息检索的自动化。但它并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。 3)计算机信息检索阶段:可以划分为以下三个阶段 A.1971年以前建立的信息检索系统,是传统的批处理检索方式。这一阶段的数据存取与数据通信能力都比较差。 B.1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。这一阶段的特

第 26 页 共 47 页

点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。特征:远程时时检索,多种数据库是联机检索的主要优点,联机检索是计算机信息处理技术和现代通信技术三者的有机结合。

C.20世纪90年代以来,产生并发展的网络信息检索阶段。以互联网的出现为标志,系统大多采用分布式的网络化管理,其信息资源的主要特点是以数字形式表达,以多媒体和多载体的形式出现,内容覆盖全社会领域,且分布无序、难于规范化和结构化、用户界面要求高等。

5. 目前信息检索技术正向两个方面发展:一是传统信息检索向全文文本、多媒体、多载体、多原理等新

型信息检索的发展,在深度上提高管理和组织信息的能力。二是信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。

四十三、信息检索的模型

信息集、用户提问集、信息集与用户提问集的相似性匹配是信息检索模型的三要素。

1.基本原理:信息概念的中心问题是建立用户需求和文档的表示,及他们之间的相关度(relevance)计算模型

(IR moder),简单的说即给定一定查询,将所有文档安排和该查寻相关度的大小进行排序后返回给用户。面向文本的信息检索系统化称为文本检索模型,到目前为止,人们已经提出若干检索模型并在实际中得到了广泛应用,包括布尔逻辑模型和概率检索模型。

2.信息检索模型类型包括:

1)布尔逻辑模型(Boolean Retrieval Model,简称BRM):逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,主要有“与”(AND*)、“或”(OR+)、“非”(NOT-)。 2)概率检索模型(Probability Retrieval Model,简称PRM):概率检索模型是在布尔逻辑模型基础上为解决检索中存在的不确定性。它建立在相关性理论基础上,当文件按相关概率递减原则排列时可以获得最大的检索性能。相关性原理及排序原理是概率检索模型的理论核心,有关概率的计算及其数据来源是PRM的技术难点。 3)向量空间检索模型(Vector Retrieval Model,简称VRM): 其基本思想是文档和检索请求(Retrieval Query)都可以用向量表示,检索过程就可看成是计算文档向量与检索请求向量间的相似度,可以根据相似度值的不同,对检索结果进行排序,可以根据检索结果做进一步相关反馈结果。将文献与查询的匹配问题转化成为一个关于向量空间的计算问题。

4)模糊检索模型(Fuzzy Retrieval Model,简称FRM):它是建立在模糊集合论、模糊逻辑及可能性理论基础上来处理各种不确定性的一类模型。

5)目前,人们对信息检索的过程也进行了研究,从而得到信息检索主体在检索过程中的认知模型。人们可根据自己的认知思维所得到的检索结论,改造自己的检索观念模型来适应不同检索系统,进而可根据自己的检索结论来评价和改造检索理论,创造出新的信息检索理论以及信息检索系统。对信息检索的认知模型的研究有助于提高检索主体在检索过程中的自觉性和创造性,使检索思维和行动更加明确有效,同时也是对检索理论的进一步完善。

四十四、信息检索语言的职能

1.定义:信息检索语言是根据信息检索需要创制的一种人工语言,又称检索语言、信息检索标识、标识系统等等。信息检索语言由词汇和语法组成。词汇是指登记在分类表、词表中的全部标识,一个标识(分类号、检索词、代码)就是它的一个语词,而分类表、词表则是它的词典;语法是指如何创造和运用那些标识(单个标识或几个标识的组合)来正确表达文献内容和情报需要,以有效地实现情报检索的一整套规则。

2.分类:

1)从反映信息特征的角度来看,可分为代表了信息外表特征的信息检索标识(作者名、题名、报告号、专利号等);代表信息内容特征的信息检索语言(类号、叙词、标题词和关键词等)

2)从信息检索标识规范化的角度来看,可分为自然语言检索标识和规范语言检索标识。

3.职能:

1)信息检索语言可以表示文献内容、数据或其他信息形式,为了满足不用信息用户的需要,信息检索语言能够根据不同的信息需求,表达不同的类型。

2)有专用概念表示用户的信息提问。信息检索不单纯是字面上的组合,而是一种概念上的匹配。

第 27 页 共 47 页

3)能够指示计算机执行查询与检索。检索者用语言项概念表达了信息提问后,要根据检索系统的功能编写成检索策略,使检索系统能顺利、快速地查到信息提问所需要的信息。

四十五、信息检索策略

1.定义:信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的检准率和检全率。

2.常用的信息检索策略包括:分块概念组配检索策略、逐步组配检索策略、对偶组配检索策略、增长组配检索策略等。

3.信息检索策略的研究重点:检索策略失误分析;降低检索费用的研究;用户检索行为及用户培训;现代信息技术在检索策略制定中的应用。

4.随着智能信息检索系统研究的不断深入,将来的检索策略将由智能信息检索系统承担。

四十六、信息检索效率的评价

检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。主要通过检全率、检准率、漏检率和误检率四个评价指标进行评价。 若想提高检全率,则检准率会降低;而欲提高检准率,则检全率会降低。

四十七、信息检索的程序

1.分析研究信息检索的课题:是确定信息检索策略的根本出发点,也是信息检索效率高低和成败的关键。包括:

1)明确信息检索课题所涉及的领域和范围 2)明确所需信息的内容及其内容特征

3)明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及语种、有关著者及机构等 4)明确信息检索课题对查新、查准和查全的指标要求

2.选择信息检索工具:信息检索工具是人们为了充分、准确、有效地利用已有的信息资源而加工编制的用来报道、揭示、存贮和查找信息资源的卡片、表册、计算机信息系统和特定出版物。

需要选择那些与主题相关的、符合时间要求的、质量高的信息检索工具。可以先利用本单位已有的信息检索工

具,再选择单位以外的信息检索工具,在与信息检索主题内容对口的信息检索工具中选择高质量的检索工具 3.确定信息检索方法:常用的信息检索方法有顺查法、倒查法、抽查法、追溯法、循环法等,每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快捷、准确地完成信息检索任务,实现预期的目标。

4.掌握获取原始信息的线索:在获取信息线索时需要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。

5.获取原始信息:是信息检索的最后一步,主要工作包括:判断文献的出版类型;整理文献出处;根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上应该按由近及远的顺序逐步扩大查找馆藏的范围;尽可能多渠道、多方式地获取原始信息。

四十八、机检检全率和检准率均低于手检的主要原因

在于索引、标题和文献有误差,对于同一类出版物索引,不同的数据库的编制方法有所不同,不同数据库所容纳的特定主题的信息资源相关悬殊,以及关键词不可能完全覆盖某一课题所设计的全部内容等等。因此,手工检索尽管费时费力,由于较高的质量和一次文献获得率,仍是今后信息检索的重要方式之一。

四十九、手工信息检索的技术与方法

1.手工信息检索工具:

1)目录:是图书或其他单独出版物规律化、系统化的记载,主要用于检索出版单位或藏书单位是否拥有信息检索者所需要的书刊。目录是历史上最早出现的信息检索工具。

第 28 页 共 47 页

联系合同范文客服:xxxxx#qq.com(#替换为@)