《多语言网络学术信息挖掘与检索》对多语言网络学术信息资源的利用进行了以下四个方面的理论与实践研究:(1)多语言网络学术信息用户需求与行为研究。就两类网络学术信息资源--数字图书馆和新型网络学术信息资源,展开多语言用户需求与行为调查。(2)多语言网络学术信息表示与规范方法研究。对能够提供学术信息的新型网站,包括图书标注系统、学术论文标注系统、学术博客等的社会标签与主题词表的进行比较实验。(3)多语言网络学术信息翻译与测评技术研究。以图书情报领域为例,构建了两个图书情报领域的语义词典和一套图书情报领域多语言学术信息检索测评体系。(4)多语言网络学术信息检索系统实现与实验研究。开发了一个多语言网络学术信息检索系统Milk-Tea,并进一步进行了跨语言信息检索实验。
更多科学出版社服务,请扫码获取。
吴丹编写的《多语言网络学术信息挖掘与检索》围绕数字图书馆和新型网络学术资源,进行了用户需求与行为调查。
从三类新型网络学术资源上抽取中英文标签,探讨了网络学术信息表示的规范性,并通过挖掘这些标签构建了多种翻译资源组合模式,及一套图书情报领域跨语言学术信息检索测评体系;开发了一个图书情报领域中英文跨语言学术信息检索系统,进行了自动和用户信息检索实验分析。
本书适合高校图书馆、情报与档案管理专业,管理科学与工程专业及相关专业的教学科研人员和学生阅读,也可供工作范围涉及该领域的工程技术人员参考。
对网络学术信息进行准确的表示与描述,从而无缝地获取各种学术信息资源,是科研工作者和信息服务机构亟待解决的一个问题。目前,网络学术信息资源的特点表现为:数量庞大,数字图书馆等网络资源的建设使得大量文本资源转化成更宜传播的数字资源;来源丰富,学术信息不再仅存在于结构化的数据库中,更多的学者或普通用户通过网页、论坛、博客、百科、问答系统等多种方式贡献或获取有价值的学术信息;语种多样,随着世界范围学术交流活动的日益频繁,越来越多的科研工作者需要了解和获取多语种学术资源;信息表示由受控标记发展为自由标记,用户不再仅是网络信息资源的消费者,同时也是创造者、描述者、组织者;无缝智能获取,网络学术信息的发展趋势是用户超越时空限制、跨越语言障碍而无缝智能地获取学术信息,形成信息高度共享。
据统计,目前网上学术信息按语言分布的情况是:英语大约占7。%,法语、德语分别占6%,而汉语仅占网上学术信息总量的3%左右。这个数据说明,仅对汉语学术信息的单一表达处理,网络发挥的学术效益只占网络效益的3%左右。要提高学术信息获取效率,实现无缝获取,必须进行多语言网络学术信息的挖掘与检索创新研究。
从国内外的研究情况可以看出,采用协同标注对多语言学术信息资源进行描述、分类、组织、检索的过程中存在着信息描述精确度不高、标签组织混乱、同一领域不同用户的表示结果差异较大等缺陷。因此,我们需要对网络学术信息的多语言标签进行规范控制。同时,还需充分考虑对已有的网络学术信息的标签进行挖掘和有效利用,形成高质量的领域翻译资源。信息表示的目的是为了信息获取,利用良好的多语言学术信息标签去提高多语言学术信息检索的效率,这种模式对于深度开发网络信息资源是十分重要的。
本书对多语言网络学术信息资源进行了以下四个方面的理论与实践研究。
(1)多语言网络学术信息用户需求与行为研究。通过对两类网络学术信息资源——数字图书馆和新型网络学术信息资源,展开多语言用户需求与行为调查。结果显示:对于数字图书馆而言,用户对多语言学术信息有较强的需求,不同类型用户对数字图书馆提供的多语言学术信息服务有不同程度的要求。对于新型网络学术信息资源而言,大学生普遍认为新型网络学术信息资源比较重要,且不同国家的用户对网络信息资源使用的偏好也不同,这些新型网络学术信息资源的质量有待提高。
(2)多语言网络学术信息标签规范与挖掘研究。通过对能够提供学术信息的新型网站,包括图书标注系统、学术论文标注系统、学术博客等的社会标签与主题词表的比较实验发现,尽管标签与词表的重合度并不高,且中文网站与英文网站的表示方法也存在异同,但是从新型网络学术资源网站中抽取出来的社会标签对多语言网络学术信息的检索具有一定的帮助作用,可以用来形成翻译资源。
(3)多语言网络学术信息翻译与测评技术研究。为了支持多语言网络学术信息检索,一方面,我们以图书情报领域为例,构建了两个图书情报领域的语义词典:一是由网络学术信息资源作者提供或自动抽取术语形成的专业词典,二是由网络学术信息资源用户提供的社会标签所形成的标注词典。另一方面,我们构建了一套图书情报领域多语言学术信息检索测评体系。
……
吴丹,女,1978年生,博士,现为武汉大学信息管理学院副教授,珞珈青年学者。2008年毕业于北京大学情报学专业,获管理学博士学位。2006年至2007年公派赴美国匹兹堡大学从事跨语言信息检索研究。近年先后在国内外发表学术论文60余篇,其中被SCI和SSCI检索4篇,参编著作8部,主持国家级、省部级、校级科研课题10项。主要研究领域为跨语言信息检索、语言处理技术、数字图书馆、知识组织等。
目录CONTENTS
序言 i
前言 v
第一章 网络学术信息概述 1
第一节 网络学术交流方式 2
一、正式的网络学术信息交流方式 2
二、半正式的网络学术信息交流方式 3
三、非正式的网络学术信息交流方式 4
第二节 网络学术信息的特点 6
第三节 网络学术信息的组织 7
一、数据库 8
二、学术搜索引擎 8
三、数字图书馆 8
四、用户标注 9
第四节 未来网络学术信息的无缝获取——cyberscholarship 9
第五节 多语言网络学术信息研究述评 10
本章参考文献 13
第二章 多语言网络学术信息用户需求与行为调查 16
第一节 网络学术信息的用户研究 16
一、用户使用信息资源的类型 17
二、不同国家用户的信息行为 18
三、大学生的信息行为 18
四、团队的信息行为 19
第二节 数字图书馆用户的多语言信息需求与期望调查 20
一、调查目的 20
二、问卷设计 21
三、调查对象 22
四、问卷信度和效度测试 23
五、问卷结果统计分析 24
第三节 用户与新型网络学术信息资源的交互行为调查 34
一、调查目的 34
二、问卷设计 35
三、调查对象 36
四、问卷结果统计分析 37
第四节 用户对多语言网络学术信息的需求与行为分析 45
一、用户对多语言网络学术信息的需求 45
二、用户对多语言网络学术信息的行为 47
第五节 本章小结 48
本章参考文献 49
第三章 多语言网络学术信息标签规范与挖掘 53
第一节 Web2.0环境下的网络学术信息资源 53
一、图书标注系统 53
二、学术论文标注系统 55
三、学术博客 57
第二节 社会标签——网络学术信息表示的新方法 58
一、社会标签在网络学术信息表示中的作用 59
二、社会标注与主题标引的比较 61
第三节 中英文学术资源网站的社会标签规范性测评实验——以图书情报领域为例 63
一、图书标注的规范性测评 63
二、学术论文标注的规范性测评 76
三、学术博客标注的规范性测评 81
第四节 网络学术信息表示的规范控制方法 85
一、图书标注规范性控制 86
二、学术论文标注规范性 87
三、学术博客标注规范性 89
第五节 本章小结 90
本章参考文献 90
第四章 多语言网络学术信息翻译资源与测评体系构建 93
第一节 多语言网络学术信息检索的关键技术 93
一、跨语言信息检索技术 93
二、机器翻译技术 97
三、跨语言信息检索评价体系 98
第二节 翻译资源及其构建方法 100
一、双语词典 100
二、双语语料库 102
三、机器翻译系统 103
四、多语叙词表 104
五、多语本体 105
第三节 图书情报领域多语言学术信息的翻译资源构建 107
一、专业术语翻译的特点 107
二、图书情报领域中英文专业词典构建 108
三、图书情报领域中英文标注词典构建 112
四、词典构建的特点 113
第四节 图书情报领域多语言学术信息的检索测评体系构建 114
一、测试文档集建立 114
二、检索主题设计 117
三、标准答案集构建 122
四、该测评体系的特点 126
第五节 本章小结 126
本章参考文献 127
第五章 多语言网络学术信息检索系统实现 130
第一节 系统实现的流程与环境 130
一、系统实现的流程 131
二、系统的 132
第二节 系统相关资源与算法 132
一、系统语料 132
二、翻译资源 132
三、查询翻译 134
四、检索模块 134
五、检索结果翻译 136
第三节 系统主要功能及界面 137
一、用户管理 137
二、图书情报领域多语言学术信息检索测评 140
三、图书情报领域跨语言学术信息检索 140
第四节 本章小结 145
本章参考文献 145
第六章 多语言网络学术信息检索实验 146
第一节 自动检索实验设计 146
一、实验目的 146
二、评价指标 147
第二节 自动检索实验结果分析 148
一、短查询实验结果 148
二、长查询实验结果 151
第三节 用户检索实验设计 153
一、实验目的 153
二、检索主题选择 154
三、系统界面及参数设置 154
四、实验用户确定 155
五、实验步骤 157
第四节 用户检索实验结果分析——系统检索性能 157
一、平均NDCG值 158
二、最佳NDCG值 160
三、用户实验的NDCG值与自动实验的比较 163
第五节 用户检索实验结果分析——用户评价 166
一、用户背景 167
二、用户对每次检索的评价 168
三、用户对Milk-Tea的综合评价 170
第六节 用户检索实验结果分析——用户行为 171
一、针对每个检索主题的用户行为分析 171
二、针对每个查询式的用户行为分析 174
第七节 实验结论 177
一、自动检索实验结论 177
二、用户检索实验结论 178
本章参考文献 178
附录 180
附录1 数字图书馆用户的多语言信息需求与期望调查问卷(中文版)180
附录2 数字图书馆用户的多语言信息需求与期望调查问卷(英文版)185
附录3 用户与新型网络学术信息资源的交互行为调查问卷(中文版)191
附录4 用户与新网络学术信息资源的交互行为调查问卷(英文版)194
附录5用于“中英文学术资源网站的社会标签规范性测评实验”的图书情报领域中英文检索词 198
附录6 50个图书情报领域检索主题的部分字段(中文)199
附录7 50个图书情报领域检索主题的部分字段(英文)207
附录8 用于用户检索实验的10个图书情报领域检索主题的全部字段(中文)218
附录9 Milk-Tea用户检索实验调查问卷 223
后记 229
第一节 网络学术交流方式
网络学术发轫于20世纪90年代兴起的网络文学,2l世纪以后发展迅猛。它不仅改变了传统学术交流的方式,也改变了传统学术交流的生态。其作用表现为知识创造方式、研究方式的变化,信息获取方式的变化,研究成果的发布,评价、传播方式的变化,以及出版物形态与出版模式的变化等。网络学术突破了传统学术的局限性,拓展了学术信息交流的空间,丰富了学术研究的内容和形式,对学术思想和学术研究的重要性日益突出,越来越成为现代信息用户学术信息交流的重要选择。
网络环境下,学术信息交流向立体化、多层面发展,学术交流的“正式”与“非正式”界限逐步淡化,呈现出多种交流方式并存的局面。一、正式的网络学术信息交流方式
正式的学术信息交流是指借助于公开发表的文献进行的学术信息交流过程。在纸质载体时代,公开发表的文献主要是指印刷型图书、学术期刊、科技报告等。网络环境下的正式交流过程可以被看做是纸质载体时代的正式交流在互联网上的延伸,主要分为网络出版物、网络上的数字化文献及开放存取期刊
三种。
(一)网络出版物
网络出版又称互联网出版,是指具有合法出版资格的出版机构,以互联网为载体和流通渠道,出版并销售数字出版物的行为。与传统出版相比,网络出版具有快速、便捷、低定价、低成本、无需仓储、无需运输等优势。在资源利用上,它不需要纸张、不需要油墨等,是一种纯粹的环保、绿色产品。这些优点给网络出版的发展开拓了更广阔的空间。网络出版物主要有互联网图书、互联网报纸、互联网杂志、互联网音像出版物等。
(二)网络上的数字化文献
在印刷出版时代,出版商建立了以学术专著和学术期刊为基础的科学信息交流系统,网络环境下,许多出版商将传统的印刷版文献数字化处理,主要表现为:电子期刊、电子图书、电子版工具书、标准、专利等。相比印刷版文献,这类经过数字化处理并放到互联网上的正式出版物更易于获取和使用。
……