聖嚴法師專案人事時地標記作業

出自DILA Wiki
於 2014年2月18日 (二) 09:17 由 imported>Flee62ex 所做的修訂 →‎時間標記

標記原則

  • 本專案使用《法鼓全集》XML 檔進行標記。
  • 標記位置於圖檔所對應的文字開頭處。
  • 若同一圖檔所含的文字段落距離太遠,則標記於 XML 中多處。
  • 標記的準則在於該標記對於前、後文的理解有無幫助。依文本內容進行標記,故只有「人、時」或只有「人、地」的情況下仍可標記。

圖檔標記

與內文對應之圖檔

標記於該 XML 檔對應圖檔的文字之前:

<ref type="syms" target="SYA000001_001"/> 


與內文無法對應、但明顯為同一作品之圖檔

如大綱、目錄、封面提字等,明顯屬於該書相關資料,標記於該 XML 檔的 <front> 區段中:

< text>
  < front>
    < div1 type="ms-ref">
      < p>
        < ref type="syms" target="SYA001812_001"/>
        < ref type="syms" target="SYA002835_001"/>
      < /p>
    < /div1>
  < /front>
  
  < body>
   ...
  < /body>
< /text>

注意事項:

  • <front> 和 <body> 是平行的層次。
  • 使用 < div1>,而非 < div>。
  • 所有的 < ref> 外用一個 < p> 包起來。

同一圖檔出現於多個不同位置

若圖檔內容分屬於不同文字區域,則於每區前標記該圖檔。


同一位置出現多個圖檔

若同一位置同時有多個圖檔,則標記於同一位置。ref 的 target 屬性裡為多值,以半形空格隔開
例如:

<ref type="syms" target="​SYA001672 SYA001812"/>


人名標記

<persName key="A023336">保羅甘迺迪(Paul Kennedy)</persName>

時間標記

一、當文中明確指出特定某天

我們是 <date when-iso="1988-04-08" key="j24472602447260">四月八日</date> 下午七點

二、當文中所提到時間為兩天(含)以上
(一)基本原則:有notBefore notAfter及from to兩種標記方式
1.notBefore notAfter用於文本模糊提及一段時間的情形,from to用於文本精確提及一段時間的情形

<date notBefore-iso="1575-04-05" notAfter-iso="1644-04-25" key="j22964112321634">明末</date>
<date from-iso="0710-04-17" to-iso="0794-11-21" key="j19804882011387">奈良時代</date>

2.但使用時機仍需依完整內文判斷,不能僅依tag標記裡的時間判斷。例如「到了一九八五年二月,我又收到俗家大姪兒張裕生的來信,敍述我俗家人事」此段文字「1985年2月」實被原作者當成一段模糊的時間範圍使用,故應標notBefore。


(二)「當用notBefore還是from?」的幾個案例
1.年號+年分(eg.光緒六年):from to

2.雙朝代(eg.「宋元」):notBefore notAfter

<date from-iso="0960-02-09" to-iso="1368-09-22" key="j20717322220977">宋元</date>

時間範圍由宋朝第一天算起,到元最後一天。

3.有「以降」「以後」之類用語時(eg.宋元以降)

<date from-iso="0960-02-09" to-iso="1400-02-03" key="j20717322232433">宋元以降</date>

a 時間範圍由宋朝第一天算起。
b 有「以降」等用語時,標記應將「以降」等用語包括在內,標記人員填tag裡的西元日期時則需判斷文中「以降」是到哪個時間點。此例假設「以降」指事件持續到該文作者寫作時(明建文二年正月丙寅)。
c 即使因作者所言「以降」及至民國而使事件持續時間奇長,仍需照實標。
d 若遇「以前」(eg.東漢以前)之類用語,則盡可能依文意判斷決定如何標記,因為並非所有的「某朝以前」都無限往前推到宇宙大爆炸作為起始點。

4.某朝至某朝(eg.魏晉至隋唐):notBefore notAfter

<date notBefore-iso="0220-12-11" notAfter-iso="0907-06-06" key="j18017582052491">魏晉迄隋唐</date>

時間範圍從魏的第一天到唐的最後一天:

5.朝代某期(eg.明末):notBefore notAfter

<date notBefore-iso="1575-04-05" notAfter-iso="1644-04-25" key="j22964112321634">明末</date>

a 朝代的初或末期,一般而言都依先前馬老師所訂,以該朝前或後四分之一時間為範圍。
b 但需注意原文作者所言時間是否能涵括在此範圍。像是不承認清廷的明朝遺老所說的「明末」也許實際已在清朝。

6.其他非西元年(eg.明治n年):from to

7.以人物紀時(eg.「唐玄宗時代」或「大慧時代」)

<date from-iso="0712-09-16" to-iso="0756-08-15" key="j19813711997410">唐玄宗時代</date>

a 帝號一般標其在位時間;非帝號者可記生卒年,但文章一般多指其成名時期。
b 注意要視文意中事件是否貫通整個時期選擇標notBefore還是from。
c 若標成:<date from-iso="0712-09-16" to-iso="0756-08-15" key="j19813711997410"><persName key="A000291">唐玄宗</persName>時代</date>
此種標法就過往經驗,在介面上點「唐玄宗」會出現唐玄宗規範資料庫的資料,點「時代」二字才會出現時間資訊。

8.年代(eg.「奈良時代」或「1970年代」):from to

<date from-iso="0710-04-17" to-iso="0794-11-21" key="j19804882011387">奈良時代</date>

a 奈良時代的第一天到最後一天 :1970年1月1日到1979年12月31日
b 但文意中事件能看出未貫通整個時期則應標notBefore。

9.近n年:notBefore notAfter(此為大原則,實作需依個案判斷)

10.前n年:from to(此為大原則,實作需依個案判斷)


注意事項:

  • 舉例如文本內容為「正值「文化大革命」期間(西元一九六六~一九七六年),好友印海法師寄給我一小塊剪報,」其中「西元一九六六~一九七六年」雖為明確之時間,非古文中不明確之年號等,但若有「事件標記」之需求,仍需做標記。

  • 季節的部份暫時不做標記,僅標記年份。

地名標記

<placeName key="PL000000000000">地名</placeName>

總則

  • 需要紀錄的地名,必須符合下列**所有**條件:
  1. 在文獻當中,其前後文來說,該地點、組織名稱是當作「地名用途」。
  2. 在文獻當中,提供該地點的座標,是否有助於閱讀,或有助於地圖上的呈現。
  3. 該名稱必須為大眾所認知的具代表性名稱,該名稱可獨立識別位置、並非於某一地點的附屬建物,或某一組織的內部單位。
  • 重覆出現的地名,在一個大段落中只需要標記一次。


詳述

1. 在文獻當中,其前後文來說,該地點、組織名稱是當作「地名用途」。 說明:此點必須請文獻人員加以判斷。

  • 例如:
    「藉農禪寺而成立了三學研修院」 《歸程》法鼓全集光碟版 (06-01, p. 232, 16)
    
    其中的「三學研修院」在這邊並沒有把組織當地點的用途,因此不需標記為placeName,當然後續也不需討論是否要建立規範資料庫紀錄。
  • 又例如:
    「當時先在農禪寺設立了美國佛教會的駐台譯經院,聘我擔任譯經院院長」《法鼓山故事》p. 0196
    
    其中的「駐台譯經院」也沒有把組織當地點的用途,因此不需標記為placeName。

2. 在文獻當中,提供該地點的座標,是否有助於閱讀,或有助於地圖上的呈現
說明:此點必須請文獻人員加以判斷。

  • 例如:「東半球、西半球」 是一個地理學名詞,並非特定地名。此外,提供一半地球的座標,於理解上、地圖呈現上,都沒有幫助,因此不需標記為placeName。

3. 該名稱必須為大眾所認知的具代表性名稱,並非於某一地點的附屬建物,或某一組織的內部單位。 說明:對於附屬建築物,由於一一標記過於繁雜,因此不予標記。

  • 例如:
    「重建的龍華寺,自亦未能倖免。嗣後由觀竺禪師的弟子們,承師遺志,自清德宗光緒元年至二十一年間(西元一八七五~一八九五年)
    ,先後再建大雄寶殿、方丈室樓房、金剛殿、三聖殿、彌勒殿、伽藍殿、客堂、齋堂、觀音殿、地藏殿、祖師殿、五百羅漢堂等,
    完成了江南有數的大寺院之景觀。」
    
    基本上:龍華寺 應該標記,並紀錄於地名規範資料之中。
    而「先後再建大雄寶殿、方丈室樓房、金剛殿、三聖殿、彌勒殿、伽藍殿、客堂、齋堂、觀音殿、地藏殿、祖師殿、五百羅漢堂等,」裡面全部是附屬建築,不予標記。
  • 例如:PL000000058821瓔珞關房(朝元寺)、PL000000058471招仙塔(靈光寺) 都屬附屬建築,不予標記。
  • 例如: 建築群所含之建築不新增規範檔,亦不予以標記,如:「法鼓山的大殿」,地名層次為「法鼓山」,僅標記「法鼓山」。

4. 對於或某一組織的內部單位:若僅有該名稱,但無提及大機構名稱,就無法識別時,不予標記。

  • 例如:若提及「法鼓佛教學院的教務處」因「法鼓佛教學院」為大眾所認知的名稱,因此需要紀錄。
  • 「教務處」為法鼓佛教學院內部組織,若無提及法鼓佛教學院而無法識別教務處時「教務處」不予標記。

5. 現今已不存在之古代建築,即使其附屬建築仍存在,除非其附屬建築有名到可當主地名使用,否則在標記時仍僅標記主建築。
6. 「英國駐紐約領事館」標記為一筆地名,不應抽出其中的英國、紐約進行標記。
7. 多筆地名的標記,例如同一事件中描述地點之間的移動,因<linkgroup>限制只能記錄一筆地名,故此類事件的分為兩筆記錄。例如:

<anchor xml:id="a15.02"/><date from-iso="1949-05-01" to-iso="1949-05-31" key="j24330382433068">
一九<lb n="001503"/>四九年五月</date>,隨軍撤離<placeName key="PL000000057795">大陸</placeName>
<anchor xml:id="a15.03.1"/>而到<placeName key="PL000000048155">臺灣</placeName><anchor xml:id="a15.03.2"/>

記錄為大陸一筆、台灣一筆:

(1).

 <span from="#a15.02" to="#a15.03.1"> 
<link target="A023335 PL000000057795 j24330382433068"/></span>

(2).

<span from="#a15.02" to="#a15.03.2"> 
<link target="A023335 PL000000048155 j24330382433068"/></span>


事件標記

需標記於兩處:事件對應內文、事件連結。

事件對應內文

於事件對應內文處標記:

<anchor xml:id="a20.02"/>
  • 其中 a20.02 表示行號為 2002 (XML中 <lb n="002002"/> 該行)
  • 如果同一行有多個 anchor 就多加個序號,例如: <anchor xml:id="a20.14.1"/>, <anchor xml:id="a20.14.2"/>

事件連結

標記於XML檔中的< back>區段中:

< back>
  < div type="link">
    < span from="#a20.02" to="#a20.05">
      < link target="A023335 PL000000048152"/>
    < /span>
    < span from="#a20.05" to="#a20.06">
      < link target="A023335 A023336 A023337 PL000000056125"/>
    < /span>
  < /div>    
< /back>
  • < span> 中的 from, to 為 < anchor> 的id。
  • < link> target 的值為相關的人名、地名id。

事件標記準則

  • 事件(event)必須是動作,而非形容詞。例如:
(1).《聖嚴法師學思歷程》:「當我決定了留學日本的考慮之後,
正在日本留學中的朋友,以及已從留學歸來的朋友,都很熱心地提供了我不少的建議。」 
法鼓全集2005網路版 (第3輯第8冊, 頁106, 行3~4)
>>> 前文「正在日本留學中」為形容詞,非事件、非地名。
(2).《評介.勵行》:「一九七二年春夏之間,他老與悟一、妙華等諸師,
訪問美國,遍經東京、京都等各地,我與同在日本留學的淨海法師,也陪遊日本各地寺院名勝」 
法鼓全集2005網路版 (第3輯第6冊, 頁102, 行4~6) 
>>> 前文描述陪遊的過程,為事件。
  • 打電話、通信的事件地點應以動作區分,例如:
《留日見聞》:「那是在一九六五年,我正在高雄的深山中,第一度掩關自修,
忽而接到東初老人的快函,要我提前出關」 
法鼓全集2005網路版 (第3輯第4冊, 頁18, 行6~7)
>>> 前文動作為「接到東初老人的快函」,因此地點為高雄,而非東初老人發信地點。
  • 如果標記的事件跨越文本行數太長,可考慮拆開為多個事件。
  • 文本僅有代稱而未提及精準的人時地(例如「我們一行人」),倘若以前後文判斷出所指為何,得自行於內文標記以及在最後的link target標記裡加上人時地Authority id。若無此類文字則不宜加上。例如:
<anchor xml:id="a108.03"/>連日來的活動行程,排得都很緊密,隨行的三位居士,想要輕鬆一下,由我的姪女及姪兒分批陪同
,去逛<placeName key="PL000000058370">上海</placeName>的大街......<anchor xml:id="a108.04"/>
  • 據前文得知「隨行的三位居士」指A023336、A023337、A023338三人,因此得加上標記,標作
    <ref type="person" target="A023336 A023337 A023338">隨行的三位居士</ref>。
  • 此段事件標記寫成(依前文得知此事件時間,因此link target標有內文未提及的時間代碼):
    <link target="A023336 A023337 A023338 PL000000058370 j24472742447274"/>

標記檢查原則

圖檔標記檢查

是否有漏標

核對圖檔標記清單所列圖檔:
(1) 是否均已標記。
(2) 若為漏標者,請補上標記。
(3) 若為無法標記者,請於備註欄填寫原因 (請勿空白)。

圖檔標記位置

(1) 判斷圖檔標記位置是否合宜並修改,若有討論空間請與工作人員討論,取得共識。
(2) 標記檔 (XML) 進行任何變動均記錄於 google 文件。

範例:

xml編號 圖檔編號 原標記位置 更改後位置 修改原因 修改人 修改日期 備註 複檢人 確認日期
01-01.xml SYA000297_001 一九七五年春 自序 相對應圖檔文字初始文字 黃仁順 2013/6/4 鄭安邦 2013/6/5
01-01.xml SYA000318_002 圖檔所引內容未在打字檔中被申述,所以做不標記處理。 黃仁順 2013/6/4 鄭安邦 2013/6/5

註:「原標記位置」、「更改後位置」請說明在<front>中或於何文字之前,若為後者請至少打五個字。

件數核對

該XML檔檢查完成後,記錄所含圖檔數(非標記數),例如:

作品名稱 系統圖檔數 核對圖檔數 備註
01-01《明末佛教研究》 318 318    
01-03《戒律學綱要》 17 16 1個無法標記。


錯字處理流程

標記人員僅負責標記,原則上不對《法鼓全集》XML檔文字做更動,當發現疑似錯字時,請依下列流程處理:

一、確認該字為錯字,找出相關佐證資料。

二、核對《法鼓全集》紙本內容:

  • 狀況一、紙本沒有錯,而 XML 檔有錯:直接修改錯字,並發信通知《法鼓全集》電子版負責人(邦信師兄)。
  • 狀況二、紙本有錯:XML 檔不做處理,發信通知《法鼓全集》紙本編輯負責人(張晴師姐),副本予專案相關人員。