应用层可聚合性分析
(1)语种/国别的分布。各国别构建的机构知识库往往采用本国官方语言,为实现统一检索,聚合系统需要借助跨语言查询的相关技术,通常采用通用的大型语料库,形成跨语种概念映射,而由于系统资源和人力资源的限制,往往只能够选择相对主流的语种。那么,调查目前机构知识库中信息资源对象主要的语种和国别分布用于定位可聚合内容是必要的。
世界范围来看,图情学科中,美国、德国、英国居于机构知识库建设的前三位。从单个国家或地区所建设的机构知识库数量来看,同样是美、德、英在数量上占有较大的优势,亚洲的主要建设国家为日本和中国(包括港澳台)。从语言分布来看,英语为主的机构知识库占绝大多数,同时德国、法国、印度等国的机构知识库大部分有英语版本。在OpenDOAR中注册的中文机构知识库数量共有5个,建设机构分别来自中国台湾(3个)、中国内地(2个),其中台湾地区的机构知识库均由高校建设,只有1个持续更新,中国内地的机构知识库分别由中国科学院和北京大学建设,均在持续更新当中。可见,图情领域机构知识库中最为主流的英语占35%左右,如中文、日语等,不超过5%。那么,在聚合过程中,处理跨语言聚合最有效率的就是英语及本国语言。