「「佛學規範資料庫(Buddhist Authority Database Project)」答客問」:修訂間差異

出自DILA Wiki
imported>Putitz
imported>Putitz
行 28: 行 28:
 以上兩例為文獻人員提供,對於如何判別,因為牽涉對全文的解讀,這裡僅作原則性的說明。
 以上兩例為文獻人員提供,對於如何判別,因為牽涉對全文的解讀,這裡僅作原則性的說明。
 資料庫的使用情況不外乎:「新增」「查詢」「修改」「刪除」;而本資料庫特別著重於「正確的查詢」,這項功能的品質可以用二個「比率」來表示:「召回率(Recall rate)」、「精確率(Precision rate)」
 資料庫的使用情況不外乎:「新增」「查詢」「修改」「刪除」;而本資料庫特別著重於「正確的查詢」,這項功能的品質可以用二個「比率」來表示:「召回率(Recall rate)」、「精確率(Precision rate)」
*召回率 :實際傳回的資料量/應該傳回的資料量
*召回率 :a/b
*精確率 :正確傳回的資料量/所有傳回的資料量
*精確率 :a/c
{| border="1"
{| border="1"
|
|
行 36: 行 36:
|-
|-
|精確率(高)
|精確率(高)
|該傳回的都有傳回, 不該傳回的也 沒傳回
|該傳回的都有傳回, 沒傳回 垃圾
|該傳回的不一定傳回,但沒傳回垃圾
|該傳回的不一定傳回,但沒傳回垃圾
|-
|-
|精確率(低)
|精確率(低)
|該傳回的都有傳回,但 不該傳回的 也傳回
|該傳回的都有傳回,但也傳回 垃圾
|該傳回的不一定傳回,還傳回許多垃圾
|該傳回的不一定傳回,還傳回許多垃圾
|-
|-
|}
|}
   
  其中 a:傳回的正確資料。 b:資料庫中所存在的正確資料量。 c:所有傳回的資料。
 
本資料庫所有的努力就都在於提升召回率與精確率。例如增加別名就在於提高召回率;不冠地名就在於提高精確率。所以依編輯「細項地名」的原則:「短姑道頭」、「龍沙」能否是獨立的「地名」?或是必須依從於「普陀山佛國」「普濟寺」這項工作就由文獻人員自行判斷。如何可以提高「二率」那就是正確的做法。


==常、別名問題==
==常、別名問題==

於 2010年5月31日 (一) 14:06 的修訂

通則

說明欄問題

1.如何引用《文淵閣四庫全書電子版》?

本資料庫之縮寫為《淵四》,詳List of Abbreviations。而其頁碼僅能在「原文圖像」版面顯示。要快速拷貝書目位置,可於左下角書目位置點擊滑鼠右鍵,再點擊「拷貝書目位置」,即可複製。

人名資料庫特有部分

籍貫問題

1.何謂「籍貫」?

漢典/籍貫:祖居或個人出生的地方。由於南北朝時非常重視門第,於是一個人除了姓氏宗族外,還需要交代「地望」。漢典/地望:①魏、晉以下,行九品中正制;士族大姓壟斷地方選舉等權力,一姓與其所在郡縣相聯繫,稱為地望。②指地理位置。如哈佛大學包弼德教授的中國歷代人物傳記資料庫(CBDB)就記錄地望。本資料庫未嚴格區分「出生地」「籍貫」「地望」,而以「籍貫」統稱。編輯者有需要的話可以在「說明欄」加以注記。

生卒年問題

1.生卒年出現二種以上說法時,如何處理?

此種情形多半出現在傳抄時筆誤,或是避諱,或是改朝換代更改年號等情形不一而足。此時應比對各版來源,以最早的版本為主,如同時有宋本及明本,則以宋本為主;而明本則注記在「說明」欄中。

地名資料庫特有部分

編碼問題

1.為何盆地可能歸類於「A」或「D」,而不統一?

本資料庫服務對象為佛學文獻,而非地形研究。對於讀者而言,搜尋資料庫時能順利耙梳出需要的地名才是最重要的。由於古文中對於地名的分類較為質樸,不外河川、山岳、沙漠等,所以除河川、山岳外,其他地形不予分類。例如:搜尋山西境內所有的河川(山岳),對於編輯者而言有所幫助;但是搜尋山西境內所有的盆地(台地),對於編輯者可能幫助不大,因為文獻中不做這樣的分類。反而地名描述的範圍大小,較可能為讀者所關心。故而在資料庫中僅將地名分為「點地名」(A、B、C),「面地名」(D、E)。而寺院為本資料庫研究核心,所以另立一類。請參考地名編碼原則#屬性碼說明:

2.何時編輯地名該使用最後二碼?

最後二碼的使用,其目的在於收納「說明某地名之內的特定區域或範圍的細項地名」。例如:法鼓佛教學院 圖資館。實際位於「法鼓山世界佛教教育園區」之內。「圖資館」之前若未冠「地名」實無法分辨其所以名何?故在說明此類地名時,必然在前後文中有「地名」範圍的限定。而其編碼也跟這些細項地名一樣,需要依從一個「地名編碼」,僅在最後二碼做區隔。目前以「AA」為「地名編碼」,而「AB」~「ZZ」共675碼為「細項地名編碼」。因此在判定何時使用「細項地名編碼」時的依據,就視該地名能否「自行獨力表達」,或必須依從其他「地名」來決定。但這樣的情形與存在眾多同名「地名」,而須冠以更大「地名」以作區隔有別。如「白馬寺」,為區隔是哪一座白馬寺,在文中通常會冠地名。則不屬於這一種情況。 另外,由於所有「細項地名」都可以引用「地名」的座標,所以也不建議使用於過度分散,或是跨行政區的細項地名。如仍不確定,請多參考資料庫中的「細項地名」。

問題: 1)短姑道頭,說 明: 進了普陀山佛國山門,往東南約300米處,便是短姑道頭。

 道頭位普陀山,但不是在山內,而是在沿海的地方,請問編碼:M(AB)? T? A? (Sophia 5-28)

2)龍沙,說 明: 為普濟寺之青龍,故名。飄沙累積,高丈餘。

 龍沙位寺院外的天然景觀,T(AB)?M(AB)? A? (Sophia 5-28)

以上兩例為文獻人員提供,對於如何判別,因為牽涉對全文的解讀,這裡僅作原則性的說明。 資料庫的使用情況不外乎:「新增」「查詢」「修改」「刪除」;而本資料庫特別著重於「正確的查詢」,這項功能的品質可以用二個「比率」來表示:「召回率(Recall rate)」、「精確率(Precision rate)」

  • 召回率:a/b。
  • 精確率:a/c。
召回率(高) 召回率(低)
精確率(高) 該傳回的都有傳回,且沒傳回垃圾 該傳回的不一定傳回,但沒傳回垃圾
精確率(低) 該傳回的都有傳回,但也傳回垃圾 該傳回的不一定傳回,還傳回許多垃圾

其中 a:傳回的正確資料。 b:資料庫中所存在的正確資料量。 c:所有傳回的資料。

本資料庫所有的努力就都在於提升召回率與精確率。例如增加別名就在於提高召回率;不冠地名就在於提高精確率。所以依編輯「細項地名」的原則:「短姑道頭」、「龍沙」能否是獨立的「地名」?或是必須依從於「普陀山佛國」「普濟寺」這項工作就由文獻人員自行判斷。如何可以提高「二率」那就是正確的做法。

常、別名問題

座標問題

時間資料庫特有部分

文獻資料庫特有部分