一、數(shù)字圖書館技術在信息資源的管理與開發(fā)利用中的地位

 ?。ㄒ唬﹪鴥韧鈹?shù)字圖書館建設情況

  20世紀90年代初,美國科學家首先提出了Digital Library的概念,可以翻譯為數(shù)字圖書館,也可以理解為數(shù)字化資源庫。數(shù)字圖書館是一個數(shù)字信息資源系統(tǒng),它通過現(xiàn)代信息網(wǎng)絡技術體系,將有價值的圖像、文本、音頻、視頻、軟件等各種多媒體信息進行收集、組織、規(guī)范和再加工,最終向用戶提供一個多庫連接的信息存取服務。

  自數(shù)字圖書館概念提出之后,各國都在積極推進數(shù)字圖書館研究和建設。美國是全球數(shù)字圖書館建設的領導者,其數(shù)字圖書館項目納入了國家信息基礎設施虛擬圖書館中,列在美國全球資源項目下。美國現(xiàn)有分布于各地的八個數(shù)字圖書館研究中心,六個國家級數(shù)字圖書館試驗基地,很多90年代開始計劃的數(shù)字圖書館規(guī)劃目前已都完成。美國往事(American Memory)項目是美國國會圖書館數(shù)字圖書館建設的主要項目,其數(shù)字館藏的對象主要是美國的歷史文獻,包括歷史照片、手稿、歷史檔案和其他文獻等,該項目已在2001年起向全球用戶開放;由美國科學基金會(NSF)、美國國防高級研究計劃署(DAROA)、美國宇航局(NASA)發(fā)起并資助的美國“數(shù)字圖書館首倡計劃”(DLI,Digital Library Initiative)于1994年啟動,該數(shù)字圖書館的內容主要是有關地球與空間技術的科學資料,一、二期工程已分別于1998年、2003年完成;美國國家基金會發(fā)起的美國國家科學數(shù)字圖書館(NSDL)也已完成,其目的是向各種層次的學生和教師提供高質量的科學、數(shù)學、工程與技術等教育資料。此外,美國很多地區(qū)和大學也都建立了自己的數(shù)字圖書館。

  法國國家數(shù)字圖書館工程建設的數(shù)字資源達3000GB以上,書目數(shù)據(jù)記錄830萬條;德國“1996-2000年信息技術發(fā)展計劃”的中心內容是建立全球數(shù)字圖書館;英國“國家圖書館存儲創(chuàng)新倡議”共有20個項目,目前大多已完成,并在互聯(lián)網(wǎng)上提供服務;“俄羅斯往事”項目包含了俄羅斯歷史文化精華,它的電子圖書館項目包含了29個子項目;日本投入了15億日元開發(fā)日文文獻數(shù)據(jù)庫,還投資4億美元興建“日本國會圖書館關西館工程”。此外,很多全球性的數(shù)字圖書館項目也已建成,如“G8全球信息社會電子圖書館”是由美、法、英、日、德、加、意、俄8個國家的國家圖書館共同參加的項目,已于2000年完成,其內容涵蓋了各國的歷史文化精華。

  國際上數(shù)字圖書館及相關概念出現(xiàn)后,中國國內很多單位也開展了相應的技術研究和開發(fā)工作。1997年中國實驗型數(shù)字圖書館啟動,經過三年多的工作,建成了分布于全國7個地區(qū)的數(shù)字資源庫群,資源內容包括中國法律法規(guī)、文化旅游、名人和軍事博覽4個主題的30多個資源庫。1998年國家圖書館啟動了“中國數(shù)字圖書館工程”,其目標是建成超大規(guī)模的、高質量的分布式中文數(shù)字資源庫并提供網(wǎng)上等多種服務,該項目目前還在建設中。2001年中國科學院啟動了國家科學數(shù)字圖書館,目標是建成一個能夠直接有效支持科研用戶信息獲取和知識創(chuàng)新活動的數(shù)字信息服務體系。此外,一些地方和大學根據(jù)自身的資源特點,也都在建個性化的數(shù)字圖書館。

 ?。ǘ?shù)字圖書館技術在信息資源的管理與開發(fā)中處于領先地位

  隨著信息技術的不斷發(fā)展,數(shù)字化信息資源越來越多,如何采集、組織和管理這些海量信息資源,并通過再加工、信息共享、整合等增值服務,以滿足各種用戶的多樣性需求,就成為了信息資源管理與開發(fā)的重要內容。

  數(shù)字圖書館研究和開發(fā)起步較早,它將計算機網(wǎng)絡環(huán)境下的信息資源的收藏、管理、使用和增值服務集成在一起,以支持數(shù)字化資源整個生命周期的活動,與其他領域的信息資源管理與開發(fā)具有相同的內容。因而,數(shù)字圖書館建設中所開發(fā)的很多技術、標準都可以被直接用于其他領域的信息資源管理與開發(fā)。目前,由于在全球范圍內數(shù)字圖書館建設的快速發(fā)展,大大促進了相應技術的提升,如數(shù)字化技術、存儲技術、信息資源描述技術、互操作技術、互聯(lián)網(wǎng)查詢檢索技術等等,為其他領域的信息資源管理與開發(fā)提供了技術儲備。

  不僅是數(shù)字圖書館建設中開發(fā)的各種技術、標準可以為其他領域使用,數(shù)字圖書館還可以直接作為其他領域的基礎設施被使用,如電子政務、電子商務等領域??梢?,數(shù)字圖書館開發(fā)和建設在現(xiàn)代信息資源管理與開發(fā)中起著龍頭和基礎作用。

  二、數(shù)字圖書館技術的最新發(fā)展

  根據(jù)數(shù)字圖書館建設業(yè)務的流程,數(shù)字圖書館技術體系大致可分為四個部分:(1)資源采集和移植,包括傳統(tǒng)信息資源采集和電子信息采集兩個方面。傳統(tǒng)信息資源采集使用的技術主要有掃描、縮微、光學字符識別、語音識別、人工智能等,電子信息采集包括文本、圖像、視頻、音頻的處理技術。(2)資源描述。資源描述技術主要是標準的制定和規(guī)范,目前主要有MARC機讀目錄、元數(shù)據(jù)標準和標識語言標準。(3)資源組織,包括海量信息存儲、加工、管理等技術。(4)資源存取,包括信息檢索和互操作技術等。此外,資源安全技術在數(shù)字圖書館建設中也被廣泛應用,包括網(wǎng)絡安全、信息加密等。

數(shù)字圖書館技術及其對組織機構代碼管理的借鑒

圖2-1 數(shù)字圖書館技術體系

  數(shù)字圖書館建設的快速發(fā)展,極大地促進了數(shù)字圖書館技術的提升。從近一段時間的發(fā)展來看,數(shù)字圖書館技術研究和應用的主要著眼點有兩個:一是資源描述技術;二是資源的互操作技術。前者主要從標準出發(fā),規(guī)范數(shù)字圖書館資源的格式,以便于管理和用戶使用。后者主要從用戶應用出發(fā),實現(xiàn)具有異構性的不同數(shù)字圖書館之間的共享。

  數(shù)字圖書館系統(tǒng)是開放的數(shù)字信息系統(tǒng),其提供的資源與服務必須適應多樣化、分布、甚至是動態(tài)的用戶需求。互聯(lián)網(wǎng)上為數(shù)眾多的數(shù)字圖書館信息建設模式的差異造成了今天數(shù)字圖書館之間信息和服務共享的困境。如何將這些已有的資源整合起來以滿足用戶的多樣性需求,是目前數(shù)字圖書館建設的一個重點。推倒并按統(tǒng)一的模式重來顯然是不現(xiàn)實也不經濟的,因而互操作技術就成為了數(shù)字圖書館建設中的研究和發(fā)展焦點。而網(wǎng)格技術的出現(xiàn),也正好滿足了數(shù)字圖書館間的互操作要求。

  (一)互操作技術

  由于數(shù)字圖書館建設的主體不同,對數(shù)字圖書館的理解不同,并使用不同的標準、技術等,致使各個數(shù)字圖書館體系結構不同,限制了數(shù)字圖書館的服務范圍。制約數(shù)字圖書館互操作的因素主要有兩類,一類是應用層面的,如軟硬件系統(tǒng)互不支持;另一類是基礎層面的,主要是數(shù)字資源的組織和描述方面,如采用不同的元數(shù)據(jù)標準、不同的存儲格式等。

  目前,主要有三種實現(xiàn)數(shù)字圖書館的互操作技術:分布式搜索技術、基于中間件的互操作技術和基于協(xié)議的互操作技術。除此之外,針對目前數(shù)字圖書館建設中元數(shù)據(jù)格式眾多的局面,還專門提出了基于RDF框架的資源描述機制(這部分內容將在標準中詳細闡述),為不同元數(shù)據(jù)之間的相互變通提供了可能性。

  1、分布式搜索技術

  該機制將用戶提交的查詢請求,轉換成每一個數(shù)字圖書館都可接收的形式,分別傳輸?shù)蕉鄠€數(shù)字圖書館站點執(zhí)行,并收集每個返回的結果,綜合整理后交給用戶。分布式搜索機制可以分為兩類:基于標準的方法和基于數(shù)據(jù)驅動的方法。

 ?。?)基于標準的方法

  該方法也可稱為系統(tǒng)的方法,即所有參與互操作的數(shù)字圖書館構成一個系統(tǒng),在系統(tǒng)內部制定一系列的協(xié)議和規(guī)范,要求所有成員都遵守協(xié)議,并按照公共的規(guī)范提供服務;要求所有組織都使用相同的平臺和軟件,并統(tǒng)一調度。網(wǎng)上計算機科學技術報告圖書館NCSTRL(Networked Computer Science Technical Reference Library)就是采用了這種方法。NCSTRL是一個擁有100多個機構加盟的系統(tǒng)數(shù)字圖書館,它借助分布式搜索技術在系統(tǒng)內的各個數(shù)字圖書館之間實現(xiàn)資源共享。

  由于嚴格按照統(tǒng)一的標準來建立數(shù)字圖書館系統(tǒng)及館藏資源,因此該種方法能夠提供較好的、全面的互操作。但這種方法對成員圖書館的要求較高,所以難以形成大規(guī)模的系統(tǒng)。

 ?。?)基于數(shù)據(jù)驅動的方法

  該方法對成員數(shù)字圖書館的要求比較低,既不需要變動已有的數(shù)字圖書館的結構,也不要求各成員遵從某種互操作協(xié)議,而是通過收集數(shù)字圖書館可公開訪問信息的途徑獲得最基本的互操作。這種方法通常提供統(tǒng)一的用戶界面,用戶輸入查詢請求,系統(tǒng)執(zhí)行分布式搜索,并將合并后的查詢結果返回給用戶。

  該種方法的典型代表是Old Dominion大學在InterOp項目中提出的LFDL(Lightweight Federated Digital Libraries)結構。該結構中,統(tǒng)一的搜索界面被定義成基本的交互中間層,要求使用數(shù)字圖書館描述語言,以描述各個資源的特征、能力、交互信息,并將這些信息登記到注冊服務器中。當用戶通過聯(lián)邦數(shù)字圖書館查詢時,聯(lián)邦圖書館根據(jù)注冊服務器中保存的信息,選擇出最適合的成員圖書館執(zhí)行用戶的查詢,并收集這些成員圖書館返回的結果,合并整理后提供給用戶。

  基于數(shù)據(jù)驅動方法是在傳統(tǒng)的搜索服務之上提供一個抽象層,使其利用收集方法建立聯(lián)邦數(shù)字圖書館,對成員沒有任何要求,可操作性強。但正是由于其簡便的特點,使得其互操作性的精密度較差,難以滿足需要密切合作成員的要求。

責任編輯:admin