信息管理学基础-考研笔记

发布时间 : 星期六 文章信息管理学基础-考研笔记更新完毕开始阅读

户访问资源。

C. 检索(Search/Retrieval)—通过在描述数据中提供检索点,便于用户对资源的检索和利用。传统检索系统一般需要在描述记录的基础上确定检索点,组织相应的检索工具,提供各种基本的检索途径;在电子检索系统中,一般可以利用描述数据和各种特征进行检索。

D. 选择—通过记录信息资源的特征,诸如主题、作者、类型、物理形式、层次和日期等,供用户对信息资源的使用价值进行判断,决定是否使用该资源。

3.信息著录

1)定义:著录是在编制文献目录时,对文献内容和形式特征进行分析、选择和记录的过程。著录的结果是款目,它是反映文献内容和形式特征的著录项目的组合。将一批款目按照一定的次序编排而成的一种文献报道和检索工具是目录。

2)标目:所谓标目,是从文献内容和形式的某一特征指引排检线索的著录项目。标目的作用在于决定款目的性质,确定款目在目录中的排列位置,向读者提供文献的某一主要特征,从而获得排检途径。 3)文献著录标准化:是指在国家或国际范围内,对文献著录的原则、内容、格式等作出具有一定约束力的规范。著录的标准化有利于提高目录的质量,生产机读目录,便于通过使用计算机实现编目和检索的网络化,从而进一步促进文献的交流和充分利用。[注:国际标准书目著录—International Standard Bibliographic Description

简称ISBD;国际图书馆协会联合会—International Federation of Library Association 简称 IFLA;英美编目条例第2版—Anglo-American Cataloging Rules:2 简称AACR2 ]

4.信息标引

1)定义:指分析文献的内容属性(特征)及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予文献检索标识的过程。文献标引就是用特定检索标识揭示文献内容。

2)标引过程:一般包括两个环节:

A.主题分析:既在了解和确定文献的内容属性及帮助揭示内容的某些外表属性之后,将这些属性概括为主题,并用自然语言表述,同时分析主题概念之间或主要概念因素之间的结构关系。 B.转换标示:即用专门的主要概念或概念因素,构成一定形式的检索标识。

3)标引语言:是表达文献主题概念和检索需求主题概念的简明性、单义性和关联性的概念标识系统,是根据标引和检索需要而编制的人工语言。从用途来讲,标引语言又称检索语言、索引语言;相对于自然语言,标引语言又称受控语言、规范语言。标引语言与自然语言或其他人工语言一样,有自己词汇和语法。词汇是指用于表达主题概念的全部标识。语法是指构造和使用标识,以正确表达主题概念的一整套规则。 4)标引的类型:取决于表达文献内容的标引语言的种类。

根据构成原理—分类语言、主题语言、代码语言[分类语言和主题语言是最主要的两类标引语言]; A.分类语言:也称分类法,它是用分类号表达主题概念,依据知识分类将主题概念组织、排列成类目体系,主要以类目体系的自身结构显示概念之间关系的标引语言。以学科、专业为中心的系统性是其主要特点。 B.主题语言:也称主题法,它是一种由受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,主要用参照显示概念之间关系的标引语言。以事物为中心的直接性是其主要特点。 按标识组合时间的前后—先组式语言、后组式语言、散组式语言

5)标引的种类最主要的是分类标引和主题标引

A.分类标引:是指对文献进行主题分析,用分类语言表达分析出的主题,赋予文献分类检索标识(分类号)的过程。文献分类,是指根据文献内容及其他相关属性,以分类语言(分类法)为工具,分门别类地系统揭示和组织文献的过程和方法。

B.主题标引:是指对文献进行主题分析,用主题语言(主题法)表达分析出的主题,赋予文献主题检索标识(标题词、叙词等)的过程。

三十八、网络信息资源描述的相关标准

1. MARC(Machine Readable Catalogue)标准:

1) MARC,机器可读目录,它是计算机能够识别和阅读的一种目录。MARC起源于美国国会图书馆于1965年1月提出的“标准机器可读目录记录款式的建议”。

第 21 页 共 47 页

2) MARC主要特点:

①共包括001~999个字段,其中999字段为用户自定义的字段②字段内容著录详尽,字段下又设子字段以及重复字段③字段作用强化,可检索的字段多④每条MARC记录可分为头标区、目次区、数据区。

3) 典型MARC标准:①USMARC(美国国会图书馆机读目录通信格式)广泛应用于书目记录数据;②UNIMARC(国际机读目录通信格式)是IFLA于1976年主持制定的③CNMARC(中国机读目录格式)由记录头标、地址目次区、数据字段、记录分隔符组成。

2. 都柏林核心集(Dublin Core Element Set):

1)由OCLC等组织于1995年提出,1996年12月最终定型。是描述网络信息资源的一种简单元数据,是文献链接的客体。其目的是提供一种internet资源的描述规范,以便于发掘西文电子资源。

2)分为15种标记元素,其中每一个标记元素都可重复使用或者有选择地使用,每一个元数据元素都可以有子类型或子模式。

3)主要特点:①简单易懂:15个标记元素通俗易懂。②运用灵活:它既可以用于规范资源描述领域,也可以用于非专业领域。③国际通用:已有10余种不同语种的版本。④可扩展性:不仅15个标记元素和子元素可以扩展,还可以与其他元数据元素连接使用。

3.VRA核心类目格式:由美国视觉资料协会1995年制定的。

三十九、通用标记语言及相关标准

1.通用置标语言标准SGML:

是一种元语言,是用来描述置标语言的语言,适用于电子文档交换、文档管理和文档发布。利用SGML可以定

义各种各样的置标语言,定义一种置标语言的方法是根据SGML的规则制定DTD文档,DTD文档规定了这类文档可能出现的置标及其组合规则。这种标记不依赖于任何软件和硬件,同时具有极好的扩展性。但其复杂度太高,不适合网络的日常应用,加上开发成本高,不被主流浏览器所支持等原因。

2.超文本置标语言HTML:

HTML提供了一种文本结构和格式,使其能够在浏览器上呈现给访问它的用户。它是WEB上的通用语言。可以方便的制作网页、建立链接、使数据信息由线性组织转化成网状组织。

功能:出版在线的文档;通过超链接检索在线的信息;为获取远程服务而设计表单,可用于检索信息、订购产品等;在文档中直接包含电子表格、视频剪辑、声音剪辑等。 缺点:扩展性差,因其格式固定;交互性差;语义性差;

3.可扩展的置标语言XML

它将SGML的丰富功能与HTML的易用性结合到WEB的应用中,以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。这样所组织的数据对于应用程

序和用户都是友好的、可操作的。它着重描述的是WEB页面的内容,提供了一个直接处理WEB数据的通用方法,允许网页开发人员定义标签。

特点:XML文档是纯文本,从文本编辑器到可视化开发环境的任何工具都可以对其进行创建和编辑,使程序更

简单;基于内容的数据标识;可格式化;具有很强的链接能力;易于处理。

4.HTML和XML的比较

HTML提供了查看数据的通用方法;XML提供了直接在数据上工作的通用方法。XML的威力在于将用户界面和结构化数据相分离,允许不同来源的数据无缝集成以及对同一数据的多种处理。从数据描述语言的角度看,XML灵活、可扩展、有良好的结构和约束;从数据处理的角度看,它足够简单且易于阅读。

四十、信息组织的技术与方法(信息组织的分类)

凡是能将信息按一定的规律进行有序排列的方法,都称为信息的有序组织方法。可分为文献型信息组织方法和网络信息的组织方法。

1. 文献型信息组织(方法)

文献信息都是一定的知识记录在一定的物质载体上的信息形态。每一份文献信息都有它的外部特征和内容特征。 外部特征指文献的书名、著者、出版者、出版地、版次、刊期、引文及各种编号等。

第 22 页 共 47 页

按照文献的外部特征来组织信息,各种引用法、索引法、目录法用得较多,它们主要用于按已知文献的某些特

定要素来查找文献。

按文献的内容特征来组织信息,常用的是分类法、主题法、文摘法等,它们主要用于未知信息的查找,有着更

明确的选择意义。

传统的图书目录学主要以文献为单位来组织信息,而信息学则更深入到以文献的每一信息知识单元来组织信息。 分类:

1)分类组织法:

文献分类是根据文献所反映的内容性质、形式题材和用户用途,分门别类地系统组织文献的一种方法。文献的体系分类法是以科学分类为基础,运用概念划分的方法,按照知识门类的逻辑关系,从总到分,从一般到具体,层层划分逐级展开的层累制号码表示的组织文献的方法。根据这种方法编排的目录称为分类目录。

文献分类包括分类和归类。文献分类即是建立文献分类体系。归类是运用文献分类体系来类分文献。分类与归类是互逆的过程,是一个事物的两个方面。

特点:A.从事物的某一方面出发,按表达事物概念的层累制号码排列,同一学科内容的资料都集中在一起,可

以体现学科的系统性,反映事物的从属派生关系,便于按学科体系进行族性检索。B.按分类号组织分类目录,简单方便。

缺陷:A.以人工语言(数码、字母为代号)作为标志符号,不直观,较难记忆。B.分类体系固定,增补新类目

不及时。C.组配方式机械,较难满足多元检索的要求。

文献分类是按体系分类表来组织的。文献分类表是类分文献的工具,它通常由编制说明、大纲、简表、详表、辅助表、索引和附录七部分组成。

在我国信息系统中,目前多采用《中国图书资料分类法》,国际上多采用《国际十进分类法》(UDC)和《杜威十进分类法》(DDC)。

2)主题组织法

也称词汇控制组织法,是以语言为基础,用表达概念的词或词组来揭示文献内容的一种方法。这种方法直接用语词作为表达主题概念的标识,并用字顺排列标识和参照系统等方法来间接表达各种概念之间的相互关系。 分类:

A.标题法:它是用规范化了的语词来标引文献主题,并按字顺排列标识的方法。它按主题(事物)集中文献。用标题参照系统来显示它们表达的概念的相互关系。

优点:因为标题之间的顺序关系是预先组配好的,先组配式的标题在标引和检索时直接使用,不易混乱;因为标题法以事物为中心来集中与该事物有关的文献,适合于从主题出发进行检索,易于查全一项事件的文献;直观、易掌握,检索速度快,对新事物、范围细小的问题容易反映出来,补充修改也比较容易。 缺陷:很难查全一门学科或具有某一属性事物的文献;使用不灵活,不能满足多途径检索。

B.单元词法:就是用规范化了的单元词(概念上不能再分的最小的语词单位)来表示文献主题的方法。其构成原理是一种组配原理。单元词法具有极大的灵活性,能够提供多途径检索。目前已演变成叙词法。

C.关键词法:关键词指从文献的题目、正文或摘要中抽出的能表征文献主题内容的具有实质意义的语词。关键词法是将描述主题内容的关键词抽出,不加或加以少量规范化处理,按字顺排列提供检索的方法。

包括:题外关键词索引;题内关键词索引;单纯关键词索引。

缺点:关键词法由于对语词不加或少加规范,所以相当粗糙,漏检率和误检率极高。但正由于它不加规范,所以标引容易,迅速,能保证报道的及时性。

D.叙词法:叙词法是在单元词法等多种检索语言的基础上,以叙词作为标识符号,标引和检索文献信息的一种检索方法。所谓叙词,是一些以概念为基础的、经过规范化的、具有组配性能、显示词间语义关系和动态性的词和词组。 特点:直观性,它直接以规范化了自然语言作为标识符号;专指性,直接从文献论述和研究的具体对象和问题出发进行选词;适应性强,对不断出现的新事物等,可随时加以增删和修改;迅速准确,主要采取字顺排列方式,因此查找方便,迅速准确;后组式,采用后组式概念组配的方法,具有较大的灵活性;多维检索,对同一主题的文献,可以多种途径检索得到;网络结构,主要体现于叙词表中的叙词字顺索引的参照系统等,揭示了事物及其概念在各个学科领域、各个方面的内在联系,加强了叙词法的学科系统性和族性检索作用。

第 23 页 共 47 页

3)引用组织法

科学文献的显著特点之一,是作者一般都在文章最后附上所引用的各种参考文献。利用文献的引用和被引用的规律也可以组织信息。

利用引用法来组织信息的工具:美国的《科学引文索引》—Science Citation Index 简称SCI。 4)文献型信息的宏观组织

只有把文献信息看做一个特定的整体,从大量的统计资料分析综合,来寻求文献信息的概率分布和利用规律,才能科学地组织信息,这就是信息宏观组织方法。可利用布拉德福定律、齐夫定律、洛特卡定律等。另外,对信息进行分析研究,将大量的信息浓缩、提纯而成的综述、年鉴、手册等三次文献的方法,也是信息宏观组织方法。因为信息的分析研究同样不是仅仅对单份文献信息进行剖析、研究,而是建立在对大量信息资料的分析、对比、归纳、综合、概括基础之上的,它是更高层次的信息组织方法,即信息宏观组织法。

2. 网络信息组织

主题法、分类法仍然是网络信息组织从语义角度的基本组织方法,引用法则是网络环境下主题树方法和超媒体方法的思想基础。

1)网络信息组织的特点:

①信息组织的对象从各种类型的数据发展到更加丰富多彩的信息、信息链,甚至知识; ②信息组织的范围从文献内外部特征深入到信息单元、知识单元; ③信息组织的结果从静态的文本格式发展到动态的多模式连接;

④信息组织的形式从数据结构发展到知识表示,即要求信息组织的透明化、易用性;

⑤信息组织的技术从手工单一发展到半自动化、自动化、智能化,即要求信息组织的标准化、兼容化 2)网络信息组织的方法: A.文件方式

文件是计算机保存处理结果的基本单位,很自然的成为网络信息资源组织的一种方式,也是一种较为古老的信息组织方式。

优点:a.简单方便b.是贮存非结构化信息的天然单位

缺点:a.难以平衡网络负载与文件数量的关系b.对结构化信息组织显得软弱无力c.文件本身可看作信息单元,需要作为对象来管理

地位:文件方式常作为网络信息资源管理的辅助形式,作为其他信息组织方式的补充。 B.数据库方式 所谓数据库组织方式,是将所有已获得的网络信息资源以固定的记录格式存储,用户通过关键词及其相关组配查询,就可以找到所需要的信息线索(及相关站点链接),并通过信息线索直接连接到相应的网络信息资源。 优点:利用数据模型对信息进行规范化处理,大大提高了数据操作的灵活性,实现了数据管理与应用程序的完全分离,大大降低了网络传输的负载,特别是多媒体数据库和半结构化数据库的发展,为非机构化信息的组织提供了良方,便于INTERNET信息资源的充分共享和有效传播。

缺陷:不能提供数据信息之间的知识关联;对用户和数据库服务端都提出了较高的要求。

地位:数据库处理海量信息的能力和优势,使之成为组织网络环境中堆积如山的信息资源的重要方式 C.主题树方式 所谓主题树组织方式,就是将信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直至找到所需要的信息线索(即相关站点链接),并通过信息线索直接找到相应的网络信息资源.

优点:简单易用,提供了一种基于树形浏览方式,简单易用的网络信息检索和利用界面;信息检索按照一定的范畴分类体系,逐次查看,对于用户而言,目的性强,查准率高;采用树形目录结构组织信息资源,具有良好的可扩充性和严密的系统性。

缺陷:必须事先建立一套完整的范畴体系,用户必须对相应的范畴体系有一个较全面的了解;要保证主题树的结构清晰性和资源可用性,主题范畴体系的结构不能过于复杂,条目也不宜过多,降低了其所能容纳的网络信息资源的数量。不适合建立综合性的大型网络信息资源系统,只适用于建立专业性的或示范性的网络信息资源体系。

第 24 页 共 47 页

联系合同范文客服:xxxxx#qq.com(#替换为@)