2011年8月11日 星期四

方廣錩、朱雷:談敦煌遺書數據庫

2

以下引自《豆瓣網》

http://www.douban.com/group/topic/20806344/

2011-06-30 23:28:39 来自: 靜升(琴將秋水彈明月 茶得春山試白雲)

〈談敦煌遺書數據庫〉

方廣錩 朱 雷
(方按:原文有數據庫各種界面照片近30張,不知怎麼拷貝上來時,統統丟了。只好就這樣了。)

一、導言
全世界所藏漢文敦煌遺書的總數為58000餘號,至今缺乏一個完整、翔實、實用的總目錄。敦煌遺書兼具文物、文獻、文字三方面的研究價值,蘊藏的研究信息極為龐大。敦煌遺書的形態極其複雜,所蘊藏的研究信息的形態也極其複雜。以上兩點,為全面著錄敦煌遺書、進行編目帶來極大的困難。現代數據庫技術的發展,使利用數據庫進行敦煌遺書編目成為可能,但如何建設一個符合敦煌遺書實際情況的數據庫,依然是我們面臨的重大課題。2005年,國際敦煌學界曾經齊集在上海師範大學,專題討論有關建設「敦煌知識庫」的問題。會議論文結集為《敦煌學知識庫學術論文集》,2006年由上海古籍出版社出版。會議的召開,說明建設數據庫進行敦煌遺書編目與研究已經成為敦煌學界的共識。

筆者長期從事敦煌遺書的調查與編目,80年代後半期,曾經將黃永武《敦煌遺書最新目錄》輸入電腦,編撰為《敦煌遺書索引》。這個索引,類似於後來釋禪叡編纂的《敦煌寶藏遺書索引》[①]。眾所周知,80年代後半期電腦漢字字庫的數量有限,故當時不少字只好用符號替代,加上其他一些原因,那個《敦煌遺書索引》的內容比較簡單,只有典籍名稱與卷號兩項,只能滿足簡單的檢索。所以完成以後沒有公開發表,僅供個人參考使用。其後,隨著數據庫技術的日益發展,筆者開始設想利用數據庫從事敦煌遺書編目。第一個數據庫開發於90年代末,到2003年升級為4.2版本。版本雖然升到4.2,結構與功能卻始終比較簡單,只能從事一些簡單的比較與查詢,嚴格地講,還不能算是一個真正的數據庫,所以命名為「敦煌目錄索引程序」。2005年的敦煌知識庫國際學術研討會上,曾以〈敦煌遺書編目所用數據庫及數據資料〉為題進行介紹,論文也已收入會議論文集。本文擬介紹筆者近年開發的第二個敦煌遺書數據庫。這個數據庫從2006年底開始設計,經過一年的醞釀,2007年底正式啟動,現在已經完成第一期工程。這個數據庫的功能比前一個數據庫大為增強,包括按照各種條件輸入、加工、檢索、輸出敦煌遺書中的各種數據資料。由於它已經基本具備數據庫的功能,故命名為「敦煌遺書數據庫」。目前正在完善第一期工程的數據建設,規劃開發第二期工程。計劃最終將這個數據庫建設成敦煌學研究的實用平臺。

本文簡單介紹「敦煌遺書數據庫」已經完成的第一期工程的現狀。包括它的各種工作界面、所容納的信息類別、各種功能、以及怎樣利用該數據庫加工、查閱資料、輸出相關數據等。

二、敦煌遺書數據庫簡介
「敦煌遺書數據庫」分爲兩期完成。第一期的開發目的是為編纂《敦煌遺書總目錄》服務。所輸入與儲存的數據為從文物、文獻、文字等三個方面對敦煌遺書所作的各項著錄,編目時參考的各種相關照片及研究資料。可提供各種在庫數據的修訂、檢索、查詢功能。至於數據的輸出,目前預設為編纂、出版大型圖錄《國家圖書館藏敦煌遺書》所需的條記目錄、卷首目錄、標版目錄,以及編纂《敦煌遺書總目錄》所需的流水目錄、分類解說目錄及各種索引,但也可以根據需要輸出其他各種數據。第二期將擴展為敦煌學研究平臺,屆時擬進一步完善圖片數據與文字數據的鏈接、加入敦煌遺書研究數據、並開發各種專題研究平臺乃至與研究者的互動平臺等。

目前第一期中的數據庫架構已基本完成,數據的完善還在進行。已經可以進行敦煌遺書原始數據的導入、改錯與刪除。可在數據庫中按照各種預設條件查看數據及照片,進行數據的修訂。可以設定各種條件並進行資料的檢索、查詢。可以按照預設要求自動為各種文獻進行加工,諸如加上分類號並對文獻進行分類。可按照預設要求採集各種詞語以製作索引,並可在各被索引詞語間建立起相互關係。可以進行敦煌遺書綴殘的提示,並在人工綴殘的基礎上,進一步進行多號殘卷的綴殘。可以按照不同的要求,將各類數據按照一定的格式輸出為滿足不同研究需要的文本式或表格式的word文件。

「敦煌遺書數據庫」主界面如下:

主界面上邊列有主菜單,共有八項:文件、數據導入、數據查看、綴殘處理、索引處理、相關數據、系統、退出。數據庫現有的各項功能均以主菜單為基礎展開。

三、敦煌遺書數據庫的有關功能
(一)原始數據的導入、改錯與刪除

所謂「原始數據」,分為基礎數據與補充數據等兩種形式。

基礎數據指按照規定格式編纂,以word文本存檔,且未作内容刪節的敦煌遺書條記目錄。按照目前的著錄體例,該條記目錄從1.1項到14.3項,共設定為 14個大項、37個小項[②],全面著錄每件敦煌遺書的文物、文獻、文字等三個方面乃至流傳、研究的各種資料。實際著錄時采取有則著錄,無則空缺的原則,故每件遺書未必都具備37項[③]。
補充數據指按照規定格式編纂,以word文本存檔,僅包含部分特定項目的敦煌遺書條記目錄。

所以產生上述兩種不同的原始數據,原因在於現行的編目方式。目前的編目工作,有的依據原卷進行,這時可以詳細著錄各種數據,包括遺書的文物、文獻、文字等三方面數據。有的依據圖錄進行,這時衹能著錄遺書的文獻、文字數據。有時限於各種條件,甚至衹能著錄關於文獻、文字的部分數據。這樣,不同的遺書,有時存在數據缺失問題。這些缺失的數據,衹能等將來有條件時,再行補入。即使按照原卷進行著錄的遺書,有時候也需要將部份項目,比如錄文等暫且放一放,待另行完成後補入;或者先做一個草稿,待修訂以後重新輸入。由此產生較為完整的基礎數據與待後輸入的補充數據這樣兩種不同的原始數據。

基礎數據可以一次性輸入,補充數據則往往需要以後再輸入,乃至多次輸入。後期輸入的補充數據,不能衝擊已經存於數據庫的基礎數據,而應與基礎數據合為一體。爲了達到上述目的,設計了「全部條目導入」、「部分條目導入」等兩種數據導入方式。

點擊主界面上「數據導入」,出現「全部條目導入」與「部分條目導入」兩個選項。下面是「原始著錄數據導入-全部條目」的界面,可以進行基礎數據的導入、改錯與刪除。

導入方法:在上述界面左邊的兩個窗口中,選擇需要導入的關聯word文件,點擊「增加」按鈕,這一文件便加入右邊窗口。然後點擊「數據整理」按鈕即可。

在這一界面所進行的「改錯」,實際並不涉及原始數據本身的對錯,而是指原始數據的格式不符合數據庫的輸入規範,需要修改。

雖然1984年剛開始從事敦煌遺書編目,我已經意識到將來有利用電腦進行數據加工的可能,因此在設計著錄體例時,採用條記目錄的方式,並規定了必要的著錄格式。但隨著對敦煌遺書及其編目工作認識的不斷深化,著錄體例也在不斷修訂。加之原始數據最初由人工完成,且多人常年參加編目,每個人、某個人的不同時間對體例的理解不一定完全正確與一致,原稿的體例就難免會有差異。手寫原稿完成幾年後,纔請人將之錄入電腦,移錄過程中難免出現魚魯之訛。又過了幾年,才設計出數據庫,並將電腦稿輸入數據庫。如此等等,現有的原始數據,頗有著錄格式不符合現有數據庫要求的情況。就數據庫而言,凡是格式不合要求的數據,如果項號無誤,數據庫還可以識別並讀入;如果項號有誤,則數據庫無法識別並讀入。為了解決這一問題,我們這樣設計:無論數據庫能否識別該數據,如果格式有錯誤,數據庫一律記錄下來。每一個關聯的word文件讀入以後,只要點擊「出錯記錄」按鈕,數據庫將給出錯誤提示。這樣,可以按照錯誤提示逐一修訂,直到所有的原始數據都符合數據庫輸入規範,全部輸入數據庫為止。

敦煌遺書編目往往會遇到這種情況:某件遺書原來作為一號著錄,但後來經過研究,發現該遺書實際包含兩個文獻,應該分作兩號。或者相反,原來作為兩號著錄的遺書,後來發現應該歸倂為一號。這時,需要在數據庫中增加或刪除一號。為此設計了單獨增加某條數據或刪除某條數據的功能。這個功能在「數據查看」界面中實現,這裡不介紹。

所謂「刪除」,包括刪除提供原始數據的word文件與刪除數據庫中的數據兩種功能。

以前設計第一個數據庫時,編目工作以word文件為主,數據庫本身只起輔助功能。所以關聯的word文件不能隨便刪除,一旦刪除,數據庫無法運作。不僅如此,關聯的word文件也不能隨便改動,略微有所改動,就需要將文件重新讀入數據庫,數據庫才能正常運作。而第二個數據庫思路相反,編目工作以數據庫為主,數據庫可以隨時依據不同需要生成各種新的word文件。所以,作為提供原始數據的word文件一旦讀入數據庫,除了備查之外,已經喪失作用,隨時可以刪除。關聯word文件的刪除,不妨礙數據庫的正常運行。

數據庫中的數據可以批量刪除,也可以單條或單項刪除。

批量刪除的方法有兩種:
第一種,在上述界面右邊的窗口中,用光標定義需要刪除的關聯word文件,點擊「刪除」按鈕,便可以將該文件所涉及卷號的所有數據一併刪除。亦即不僅將關聯的word文件提供的原始數據全部刪除,並將數據庫在這些原始數據基礎上所做的修訂一併刪除。

第二種,編纂新的關聯的word文件,文件名與路徑與原文件相同,即覆蓋原文件。在上述界面右邊的窗口中,用光標定義該文件,然後點擊「數據整理」按鈕,此時數據庫重新讀入關聯的word文件,並用新數據覆蓋全部舊數據。

單條數據及單項數據的刪除,也在「數據查看」界面實現,這裡不介紹。

下面是「原始著錄數據導入-部份條目」的界面,可以進行補充數據的導入、改錯與刪除。

補充數據導入、改錯與刪除的操作方式與「原始著錄數據導入-全部條目」的界面基本相同,此不贅述。

(二)數據的查看與修訂

點擊主界面上「數據查看」按鈕,可進入「查看原始目錄數據」界面。

該界面上邊有16個按鈕:刷新、刪除、關閉、查看全部、條件查詢、查看修改、導出到word、條件導出、批量更新、現數據清回車、現首尾對照規範、現數據切分、全部數據切分、首尾對照錯誤導出、現數據分類號處理、看圖;此外,在「條件查詢」與「查看修改」按鈕之間,還有一個下拉式菜單;以上總計17項,分別承擔各種功能。比如數據讀入之後,首先需要進行「現數據清回車」、「現數據切分」、「現首尾對照規範」等三項預備性操作,纔能正確地查看與修訂數據。

按鈕下為一長條計數條。統計下面表格共列出多少條數據,當前為第幾條。

計數條下為每號敦煌遺書的表列數據。表列數據共有48項:編號、分類號、經名卷本卷次、(卷次)、參考號1、參考號2、參考號3、參考號4、參考號5、總體數據、每紙數據、外觀性描述、(裝幀形式)、(首尾存況)、多主體著錄、多主體關係、首部文字對照、(首對照-存況)、(首對照-對照本)、(首對照- 對照細節)、尾部文字對照、(尾對照-存況)、(尾對照-對照本)、(尾對照-對照細節)、錄文、說明、首題、尾題、異同、首綴接、尾綴接、首集合、尾集合、題記、印章、雜寫、護首扉頁、年代、二次加工、收藏鑑賞、圖版、揭裱互見、備註、格式、問題、資料、更新時間。實際是上述14個大項、37個小項的擴展。其中帶括弧者為重復項,供數據切分及檢索用。這48項數據,均可順序或逆序進行排序。框格的長度、寬度都可以根據需要調節。

由於表列數據項目很多,一屏無法顯示。可利用滾動條顯示,也可點擊左下小三角前的豎杠,把表格分爲N個界面來回拖動,進行數據的對照。

如果點擊「查看全部」,可以查看數據庫中儲存的所有數據。也可以點擊「條件查詢」,按照設定查看自己需要的數據。下面是點擊「條件查詢」後出現的「設定查詢條件」界面:

選項共有八種,可以單獨使用,也可以匹配使用;其中七種附有下拉式菜單,可利用下拉式菜單選擇,也可以自行填寫。

(1)、收藏單位:不選擇「收藏單位」,則默認全部數據。
(2)、編號範圍:前後兩個框,可以選擇某一段編號,即查詢某一編號段的敦煌遺書;也可以為同一個編號,即查詢某一號敦煌遺書。如均不選擇,則默認全部編號。
(3)、分類號:前後兩個框,使用方法與編號同。
(4)、文獻名:輸入文獻名後,可利用「包含」、「精確」、「排除」等選項,進行查找。如不選擇,則默認全部文獻。
(5)、年代:前後兩個框,使用方法與編號同。
(6)、更新時間:「更新時間」指數據更新時間。前後兩個框,使用方法與編號同。
(7)、參考號:「參考號」,可通貫5個參考號,模糊查找所需遺書。如果限定在某個參考號,則應該用「指定條目」。
(8)、指定條目:“指定條目”是個用處最爲廣泛的工具,所指定條目範圍涵蓋全部14個大項、37個小項。選定條目後,在下面的框中輸入檢索條件,並可利用「包含」、「精確」、「排除」等選項,在指定的範圍內進行檢索、查詢。爲了更好地發揮「指定條目」的檢索功能,設定1到8個復選框,可以匹配使用。

條件設定完畢,點擊「確認查詢」,就可以查看所需數據。

如設定查找北京圖書館藏《金剛般若波羅蜜經》中首尾完整的寫卷,可作如下設定:
點擊「確認查詢」,結果為13條:

這裡的「首尾均全」,「首全」指的是該文獻有首題,著錄時,即使首題殘破,亦算首全;「尾全」指有尾題,或雖然沒有尾題,但卷尾經文已經抄完。實際上,北圖共有《金剛經》1400餘號,但首尾均全的僅有上述13號,不足1%。這還是僅從文獻角度統計。如果考慮遺書的文物因素,按照卷軸裝的規範,把前有護首、後有尾軸的遺書才算首尾均全的話,檢索結果為0,即一號也不存在。

我們可以檢索北圖藏敦煌遺書的卷軸裝中首尾均全、且同時具有護首及尾軸的遺書數量:
結果如下,共16號:

在查詢某類遺書後,如擬查看某號遺書的具體數據,可將光標指向該號遺書,並確認下拉式菜單處在「全部條目」的位置:

然後點擊「查看修改」即可彈出如下界面:

在此界面點擊「編輯」,可以進行數據的修訂、養護。爲了方便修訂,其中大部分框格,均可雙擊放大。對於帶有普遍特徵的錯誤,則可以利用批量更新方法一次性修改。
數據庫中存放了一些照片,如果在“查看原始目錄數據”界面光標指向某條數據時,「看圖」按鈕變紅,表示該號有照片存放。

此時點擊「看圖」,會彈出照片窗口。 並可以放大查看。

(三)敦煌遺書分類
計劃中的《敦煌遺書總目錄》是一個分類解說目錄,分類法在拙作《敦煌漢文遺書分類法(草案)附說明》[④]設計的分類法基礎上,吸收各方意見修訂而成。爲了讓電腦自動給不同文獻賦予相應的分類號,特意編制了輔助文件《諸經起訖》。

在「查看原始目錄數據」界面,點擊「現數據分類號處理」,數據庫會按照《諸經起訖》中的預先設定,對符合經名卷本條件者給予分類號或者更改錯誤分類號,遇到《諸經起訖》中沒有的經名卷本,則納入《諸經起訖》。這樣,通過不斷維護、更新《諸經起訖》,可使所有的文獻都有一個與之相應的分類號,最終完成敦煌遺書的分類。

(四)索引
詳實、便利的索引是一部學術性目錄的重要組成部分。《敦煌遺書總目錄》計劃編纂十來個索引,為了完成這一任務,必須先完成所索引詞語的采集。因此,除了可直接利用14個大項、37個小項完成的索引外,計劃從外觀、錄文、説明、異同、題記、印章、雜寫、護首、今人題跋、備註、格式、問題、資料等諸項中採集可以成為索引對象的人名、地名(含寺院名)、職官名(含僧官名)、書名、年號、器物、糧油、藥材、牲畜、工藝、社會組織、服飾、術語、印章、非漢文、繪畫、神名等17種詞語,編為索引。並努力在所索引的詞語中建立溝通相應的關係,以期打破諸知識點之間傳統的平面關聯,建立立體的因陀羅網狀結構,以備將來的深入研究。

下面是從BD00062號背2的錄文項采集索引詞語的界面:

索引詞語的採集,採用半自動方法。部分工作由數據庫自動完成,主要工作還要靠人工進行。但是,隨著採集量的增大,自動化程度將越來越高。不過詞語之間相互聯繫,依然要靠人工分析、建立。

詞語採集以後,點擊主界面「索引處理」中的「索引數據查詢」,可以得到如下界面:

點擊「全部數據」按鈕,得到已經被採集的全部索引數據:
點擊「條件查詢」按鈕,在新的窗口輸入自己需要的查詢信息,如下設定,乃要求檢索那些經生參與抄寫《無量壽宗要經》:
點擊「確認查詢」,結果如下:
點擊「導出到WORD」,可以將上述結果輸出為WORD文件。
考慮到數據庫中的數據正在不斷完善。所以設計「更新經名年代」功能。如果遺書的名稱、年代有修訂,點擊「更新經名年代」按鈕,索引界面中的所有遺書的經名與年代,一律按照最新著錄,予以更新。

(五)數據輸出
如前所述,第一期工程的數據輸出首先設定為編纂《敦煌遺書總目錄》及編纂大型圖錄《國家圖書館藏敦煌遺書》的需要。

就《敦煌遺書總目錄》而言,需要輸出的數據為館藏流水目錄、分類目錄與索引。

輸出館藏流水目錄、分類目錄,點擊主菜單上「條件導出」按鈕,在下面的界面即可完成:

這個界面輸出功能比較強大。
如果在左邊第二豎欄上方選擇「全選」,可以輸出全部14個大項、37個小項的數據。捨去其中的「格式」、「問題」、「資料」三項,輸出以後即為《敦煌遺書總目錄》所需要的的館藏流水目錄。如捨去其中的「分類號」、「首集合」、「尾集合」、「格式」、「問題」、「資料」等項,輸出以後即為目前大型圖錄《國家圖書館藏敦煌遺書》所附的條記目錄。

如在上方小框中設定收藏單位、分類號等,點擊「分類目錄輸出」,即可以輸出分類目錄。

此外,利用上述界面還可以輸出《國家圖書館藏敦煌遺書》所需要的卷首目錄(衹包括編號與文獻名等)、標版目錄,乃至各種專題目錄。此外,還可以在14個大項、37個小項中任意選擇所需要項目、組合起來,自由編排次序以後輸出。輸出的格式也可以自由設定。

索引輸出中,一般詞語的輸出,前面已經介紹。此外,還可以點擊「索引處理」中的「典籍名稱索引」,出現如下界面,輸入所要求的選項,生成各種典籍名稱索引。

(六)敦煌遺書綴殘
敦煌遺書為敦煌古代寺院的棄藏,絕大多數均為殘卷。現存58000號漢文遺書中,約有一半為較小殘片。這些殘卷與殘片,不少相互可以綴接。敦煌遺書的綴接,以往是一件難度相當高的工作,人們往往在諸多殘片、殘卷的檢索中無意得之。現在,由於我們把敦煌遺書作為一個整體看待,基本掌握了綴殘的規律,亦即綴殘必然在相同文獻的相同位置進行。且由於我們已經為絕大多數文獻找到了相應的對照本,在對照本中確定了敦煌遺書殘卷首尾相應的位置,這樣,就可以讓數據庫按照上述規律自動搜索有可能綴接的殘卷。為此,先編纂了一個輔助文件《綴殘參考文獻參數》:

這樣,利用這個輔助文件與前述《諸經起訖》,讓數據庫按照設定要求自動搜索哪些殘卷有可能綴接,並作出提示。

然後按照提示去查核原卷,看它們是否真的可以綴接。

具體的綴接結果輸入數據庫以後,可以點擊「綴殘生成查詢」,在如下界面查詢並輸出綴殘結果。下面是國家圖書館藏敦煌遺書目前所知的綴殘結果:

四、結語
從1984年至今,筆者從事敦煌遺書編目已有20餘年。目前,北京圖書館編目的定稿工作正在收尾;英國圖書館的編目的初稿已經完成,尚待定稿;法國、俄國敦煌遺書的編目也已經完成初稿,但缺失文物因素的著錄;散藏敦煌遺書的調查與編目也正在進行。因此,雖然數據庫中已經儲存6萬多號數據,實際並不完整。由於時間漫長,前後體例有修訂、選用對照本有變化等種種因素,使得庫中數據尚需大規模修訂,纔能真正提供給學術界。包括本文例舉的上述數據,都不是最後的定稿,僅供參考。因此,一個單位、一個單位地完成編目定稿,進一步完善數據庫中的數據,是近期努力的目標。

此外,目前正在規劃數據庫的第二期工程。打算儘快將該數據庫由單機版提升為網絡版,儘快提供給敦煌學界,並力圖在與敦煌學界的互動中,進一步完善這個數據庫,使它真正成為敦煌研究的高端平臺。

最後需要說明的是,該《敦煌遺書數據庫》由方廣錩提出基本構想與客戶需求,由新疆克拉瑪依石油學院網絡中心主任、重慶大學在讀博士研究生朱雷副教授編程,並經兩人反復磨合、測試而成。

2009年2月14日初稿於上海
2010年1月5日定稿於通州皇木廠
--------------------------------------------------------------------------------
[①] 釋禪叡:《敦煌寶藏遺書索引》,法鼓文化事業股份有限公司,臺灣,1996年。
[②] 具體項目如下:1.1、編號;1.2、分類號;1.3、經名卷本卷次;1.4、參考號1;1.5、參考號2;1.6、參考號3;1.7、參考號 4;1.8、參考號5;2.1、總體數據;2.2、每紙數據;2.3、外觀描述;2.4、多主體著錄;2.5、多主體關係;3.1、首對照;3.2、尾對照;3.3、錄文;3.4、説明;4.1、首題;4.2、尾題;5、異同;6.1、首綴接;6.2、尾綴接;6.3、首集合;6.4、尾集合;7.1、題記、勘記、題名;7.2、印章;7.3、雜寫;7.4、護首扉頁;8、年代;9.1、字體;9.2、二次加工;10、收藏鑑賞;11、圖版;12、揭裱互見;13、備註;14.1、格式;14.2、問題;14.3、資料。
[③] 應該說明,從目前的編目實踐看,上述14個大項、37個小項還嫌粗略。因此,下一步將對該數據形式進行重大調整,對數據內容進行進一步細分,以滿足各方面的檢索需求。
[④] 方廣錩:《敦煌漢文遺書分類法(草案)附說明》,載《敦煌學佛教學論叢》,中國佛教文化出版有限公司,香港,1998年。
http://blog.sina.com.cn/s/blog_53c23f390100hwxb.html

================================================

以下引自部落格《敦煌研究院》:
http://www.dha.ac.cn/004B/index.htm

一、《敦煌遺書數據庫》說明

《敦煌遺書數據庫》是为《敦煌遺書總目索引新編》(施萍婷主撰稿 邰惠莉協編,北京中華書局2000年7月出版)研製的計算機查詢檢检索程序。由敦煌研究院文獻所和蘭州大學圖書館聯合研製開發。

1962年商务出版社出版了王重民、刘铭恕先生编著的《敦煌遺書總目索引》,公布了英藏、法藏、北图藏及国内外散藏的敦煌遗书约2万余号。是敦煌学界第一次比较完整意义上的敦煌遺書目錄。此书的编纂在体例上有许多可取之处,在叙录中采用了「題記」、「說明」项,揭示卷子内容,反映考证结论。对所收条目编制笔画索引,外化研究成果。自出版之日起就倍受敦煌学界好评,成为研究敦煌文献不可或缺的工具书。

1986年,台湾新文丰出版公司出版了黄永武主编的《敦煌遺書最新目錄》,对《敦煌遺書總目索引》未定名的一大批佛经进行定名,并公布了列宁格勒所藏敦煌遗书目录。在编制体例上省略了「题记」、「本文」、「说明」项,没有编制索引,不能直观地给读者更多的信息。《敦煌遺書總目索引新編》是综合以上二书的优点于一身,增加了标志、按等揭示写卷内容的说明部分,尽可能反映敦煌遗书研究近百年研究成果的一本综合性目录。《煌遺書數據庫》以新编总目为依据,利用机算机强大的信息处理功能,方便、快捷、准确、全面地向使用者提供所需信息。

二、《敦煌遺書數據庫》的建庫

目前使用的煌遺書目錄一般是由卷号、名称(经名)组成。有些目录包括题记、本文、说明等项。但现有的这些还不能完整地反映一件遗书的面貌。对于敦煌研究的使用者来说,研究的方向不同,对遗书目录的检索也有特殊的要求。构想设计这个敦煌遺書總目數據庫時,我们试图尽可能全面地将遗书所能涉及的内容包涵进去。

敦煌遺書數據庫的应用程序需涵盖煌遺書的基本信息。包括:遗书的收藏地、统一编号(卷号)、名称(经名)、标志、分类号、对应号、题记、说明、本文、按、图等相对完整的敦煌遺書目錄所包括的信息内容。数据库的应用程序须有相对完备的數據庫维护功能,能进行数据的录入、数据检索、数据修改等。应用程序还应能满足对数据统计和分析的要求。
根据信息组织的需要和用户使用的需求,确定数据库只需一张數據表格就能涵盖所有相关信息,该數據表格应包含如条目:
1、统一编号(KTYZ)——编号指收藏单位对文献所给予的流水号。在数据库中起着查重的作用。
2、 收藏地(KSCD)——以代码的形式反映遗书的收藏地点。。
3、对应号(KDYH)——仅适用于北京圖書館。北京圖書館所藏敦煌文献在1909年入藏时,是采用我国传统的千字文分类法,从“地”字开始至“位” 字结束,缺“天”、“玄”、“火”,共八十七字,每字编一百号,共编8738号。1930年陈垣先生编著《敦煌劫余录》时,按分类整理排序,虽然没有编著新的顺序号,却也没有再按千字文号排序。1979年北京圖書館拍摄缩微胶卷时,也是按《敦煌劫余录》的顺序重新编号即现在使用的顺序号。但长期以来学者在使用时采用的还是千字文号。这次编著《敦煌遺書總目索引新編》时,北京圖書館采用顺序号,在顺序号后用小括号对应千字文号。计算机在管理中,自动按汉语拼音的顺序排序,当使用千字文号进行检索时,就形成了既不是千字文号排序,又不是顺序号的排序,检索千字文的某一个字时,这时显示的排序不是从1~100 号,而是在千字文编号后按顺序号的大小排序的,这是在使用过程中需要特别注意的地方。
4、经名(名KJMZ)——即该遗书所抄写的实际内容的直接反映。此条目在数据库的要求中不能成为空值。
5、 品名(KPMZ)——反映经卷中所存在的子目项,多用于佛经。
6、标志(KBZZ)——是遗书保存现状的反映,也是我们定名的依据之一。按原卷的实际情况著录,用代码的形式注明为首题、尾题、原题、首缺、尾缺、首尾俱全、首尾俱残、中题、拟名等十二种。
7、分类号(KFLZ)——按类别归属遗书。依文献内容分十三大类约七十小类,最细分至三级编码。
8、 原文(KBWZ)——比较特殊或有重要学术价值的文献,照录原文,对不甚重要或无明确意义的杂写,在说明项中叙述。
9、 题记(KTJZ)——是透露经卷书写年代、书写因由及施主或受持者目的等信息的最有价值的部分,本数据库一律全文抄录。敦煌遗书中的题记有纪年题识、译经题记、写经缘由题记、受持者题记等。
10、 现状(XIANZHUANG)——反映文献卷长、卷高、纸质、纸张数、天头、地脚等详细资料。
11、 图片(TUPIANMIN)——遗书是具体形象的实物资料,将每件遗书的原貌以图片的形式输入数据库,以利于读者研究。目前只有少数遗书的图片输入,在本数据库中留下该字段,以便于将来数据库内容的扩展。
12、说明(KSMZ)——是诸项中最为灵活、信息量最大的部分。对原卷内容的揭示(如佛经中的品题)、对卷子的文字描述(书法、品相、避讳字、武周新字、尾轴、校勘、经音字)等都可放入说明项。
13、按——是对《敦煌遺書總目索引》内容的扩充和增补。刘铭恕先生的《斯坦因劫经录》列有“说明”一项,王重民先生的《伯希和劫经录》也有说明项,只是没有冠「說明」二字。《敦煌遺書總目索引新編》保留了王、刘二位先生的「说明」项,而将新加的说明改用「按」,以示区别。“按”是体现作者对经卷主观认识的窗口。对该卷研究的现状、定名的依据、及与此卷相关的内容介绍均可入此。

三、《敦煌敦煌遺書數據庫》前端编程和运行系统
(一)、前端编程:
1、 编程软件:DELPH15
2、 运行环境:486以上机型、WIN95/WIN98操作系统。
3、 运行方式:运行SETUP进入安装程序,按提示进行安装;安装完毕地即可直接使用。
4、 软件功能:该软件具有一般的數據庫应用程序年具有的基本功能,包括:
數據录入(方便用户大批量录入新數據)
數據检索(支持多种模糊查询功能)
數據修改(查询修改在同一界面下,方便快捷)
數據排序(对检索出的數據根据用户要求进行排序,有四种选择)
报表打印(允许用户对检索出来的數據进行打印操作)
5、软件特点:Windows风格的图形界面,方便、友好;
按钮式操作,简单、明了;
弹出式说明项,即时掌握程序动作情况;
即时查看、即时修改,使对数据库的操作更快捷、可靠;
支持模糊查询,更方便,为数据的统计、分析提供了可能;
方便的报表打印功能,方便用户查得的数据即时打印。

(二)、运行程序:
數據庫是存放在系统内的有一定的组织形式的数据集合。为了确保数据的唯一性和查询的方便快捷,需要给數據庫定义主关键词。主关键词必须是能唯一确定整条信息,即在一张报表中主关键词的值不能重复,也不能为空值。这就需要结合本数据库中存储的信息内容及字段划定出合适的主关键词。在本表中,存储的是一些关于敦煌卷子的基本信息,包括卷子的名称、品名、收藏地、对应号、分类号、说明、本文、题记、按语等。由于说明、本文、题记、按语等都可能为空值;收藏地、分类又有可能重复,这些字段都不能做主关键词。经名和品名比较集中地反映了數據的信息,但是由于信息的特殊性,是有可能出现经名或品名相同的数据,如下两条數據:
阿弥陀经 出067 分类号同为00011(佛教典籍类 佛经)
阿弥陀经 芥040 分类号同为00011(佛教典籍类 佛经)
这两条数据的经名相同,分类号相同,但显然是两条数据,必须录入两次;若以名称为主关键字,则数据将会拒绝第二条纪录的录入,同理,分类号也不合适单独作为主关键词。

综合以上所有情况考虑,我们把「統一編號(KTYZ)」作为主关键词。因为它既不会是空值,也不会重复,唯一确定了數據庫中的每一条纪录。

为了查询方便、显示数据时的有续、规整,还需要给數據庫中的表添加索引。在本数据库中添加了「統一編號」这一项的索引,定义为「升序、无重复」。「升序」即按「統一編號」对数据项中序号自动排序和识别大小写。

在數據应用程序中,为了根据用户的不同需要对數據进行排序,采用SQL查询语句中的「ORDER BY字段名」排序语言实现按不同的字段对數據进行排序和操作。如,用户希望将现有的数据按「经名」进行排序列表,程序将运行更新子程序,在其中添加「ORDER BY LJMZ」语句,实现按「经名」对數據进行排序的操作。程序中提供了四种排序方式供用户选择:「按经名排序」、「按統一編號排序」、「按分类号排序」和「按收藏地排序」。

數據庫有ACCESS和PARADOX两种数据库类型,即便于用户使用SCCESS直接打开、修改,也使用户使用「敦煌遺書數據庫」应用程序时对數據庫的访问更加安全、快捷。

四、《敦煌遺書數據庫》应用程序

數據庫应用程序就是对遗书资料的存贮、修改、管理、查询、显示和打印。

1、 存贮即數據的记录。本系统设计了方便的视窗式输入,在系统的提示下按顺序输入信息。对存贮的信息设计了安全系统,可永久保存數據。
2、 修改:如果要对已有信息进行修改,不需要再进入到输入程序中,这是數據庫为了自身的安全而附加的一项保护措施。只要进入數據庫使用程序,在列表状态下目录中的所有數據表格都出现在界面中,此时只需将光标定位在需修改的目录位置,直接进行修改即可。本數據庫具有操作方便、简单易学的优点。在數據庫使用中设置了工具栏。只需选择工具栏中的符号,即可到行首、行尾、文件首、文件尾、删除一条旧记录、增加一条新记录等。如要添加或删除一条记录,首先在工具栏中选择添加(+)或删除(-)命令,选择确定符号执行命令即可。
3、查询:是数据库管理的实用程序。一般情况下,当我们寻找所需要的信息时,传统的方式是采用按笔划排序的笔顺或按汉语读音排序的音序,而所能进入这两项索引的音序或笔顺基本局限于目录的第一个字。而分类检索法,可将相同内容归纳在一起,前提是要熟练掌握规定的分类法。现代计算机检索,模糊了传统的检索概念,实现了索引的多种可能。本系统为用户建立了九种方式的查询模式,还可用“并且”和“或者”同时选用两种以上的方式组合查询。这就是说首先数据库中的各个列表均可进行检索,其次单项的检索可实现任何字串的检索。在查询时可选择自己所希望的查询方式:前匹配方式(所检索的字串出现在文献首)、后匹配方式(所检索的字串出现文献尾)、任意匹配方式(所检索的字串出现在任意部位)、精确查询方式等。
4、显示:进入數據庫管理程序,是用视窗表格形式显示信息,除此之外,用户可根据自己的需要利用查询功能显示信息。利用统计工具用逻辑组配或按顺序号排序方式显示结果。
5、打印:數據庫管理系统可以很方便地根据用户要求,采用表格、文本的形式将所需内容打印出来,在打印之前,可以对所需信息进行编辑,以满足不同的使用要求。


五、《敦煌遺書數據庫》的前景及扩展性

《敦煌遺書數據庫》目前并不完善,首先收录的内容就不完整。据目前已公布的世界各地收藏的敦煌遺書目錄统计,遗书的数量约五万件。目前我们的數據庫收录的法藏、英藏、北图藏约2万件左右仅占全部遗书的50%左右。另有俄罗斯存约1万8千余件;斯坦因6980后残缺部分约6千件;日本19个收藏单位及私人收藏约1000件;印度收藏的非汉文部分;德国3件;瑞典的数件回鹘文写卷;丹麦14件等约有近2万件还没有完全公开目录。国内收藏中北京圖書館还有新编号约7000件,国内其它9个省市25个文博单位收藏有大约2000余件敦煌遗书,私人手中也还有零星的收藏。将这一部分数量巨大的目录收入數據庫,才是完整意义上的《敦煌遺書總目數據庫》。其次,对數據庫本身来讲尚有待于进一步完善和充实。

敦煌学研究迎来新世纪之际,将已有的研究成果反映在目录中,建设专题的敦煌學數據庫,是敦煌学发展的必然趋势。目前遗书研究向着专题化、纵深化的方向发展。利用敦煌遺書數據庫,可以更快捷、更方便地将专题目录归纳在一起,为研究提供了更有利的工具。计算机发展日新月异,容量更大、速度更快的新机型不断涌现,使编制容纳大量遗书内容的实用性数据库成为可能。现代信息高速公路,也可通过网上的传递以实现全球共享最新的研究成果。(邰惠莉 沈子君)

沒有留言: