佛寺志粗標
電校
1.電校流程:
請參看《中國佛寺志》專案執行步驟#校對
切檔
1.分檔方式:
請參看《中國佛寺史志》標記作業#檔案架構
2.版本頁的納入:
所謂「版本頁」,例:g030崇福寺志(《中國佛寺史志彙刊》,第1輯,第30冊,頁f1)
明丹書局的「版本頁」有助於讀者快速得知當志的版本,因此可納入數位化範圍。(這有別於之前細標的14志。14志因要出版,所以顧及智產權問題,而不將明丹書局所編輯的內容納入。)
粗標
1.段落標記:
請參看《中國佛寺史志》標記作業#段落形式
2.行號問題:
1)全頁只在最後一行有文字(有格線)
規則:行號標示它所在的行數。而其他空白行,不用標示行號。
實例:g033p556「西天目祖山志卷七終」
標記:<lb n="10"/><closer>西天目祖山志卷七終</closer>
2)全頁只在最後一行有文字(沒有格線)
規則:行號標示它所在的行數,由1起算。
實例:待找。
標記:<lb n="1"/>實例待找(歡迎綉麗姐與麗春姐提供)
3)一串字跨在兩行格線之間
規則:行號標示多行中的第一個行號。
實例:g033p649「禪源寺住持際界增訂」
標記:<lb
n="1"/></div><div><head>西天目祖山志補遺</head><lb
n="2"/><p>禪源寺住持際界增訂</p><lb
n="4"/><div><head>稽古</head>
特字處理
1.通用字的提供:
以「一篇文章」為單位。對於當代讀者難以辨識的特異字,我們會在一篇文章中它第一次出現時提供其通用字。
特殊問題
1.稿本有大量塗改的情形,如何標記?例:g026虎跑定慧寺志
文本上有後人刪劃、添加修改的筆記,由於刪改的情況複雜,所以我們僅數位化其「原本」,而忽略其「稿本」(亦即刪改的筆記)。
2.標題很長,像前言,如何標記?例:g076仰山乘
「本源上人余姻家之子以儒流而入釋門遂精進其道大闢仰山宗風傳燈說法耆宿一時推尊誠新安之叢林故敬贈之」,像這樣「勒勒長」的標題,TEI英文版<head>元素中也有類此「長標題」的範例。所以還是標<head>。
3.以程式標記詩偈
以《仰山乘.卷之四》為例
1)將每一首詩標上<lg n="X"><l>一首詩的文字</l></lg>
註:X 代表每句規律的字數,例如若是一首五言詩,就標<lg n="5">。
2)執行lg.py程式
程式檔存放路徑 D:\Projects\BTG\fosizhi_xml\bin\lg.py(每人所設置的git路徑也許不一樣)
備註:電腦中要有安裝過Python 3.3版以上的軟體才能開得起來。
Python 3.3軟體存放路徑:Z:\數位典藏組\python\python-3.3.0
執行步驟:
A)以 dos 視窗開啟 lg.py程式
B)在dos視窗中bin>後面閃動的游標處,打上程式檔名、檔案路徑、檔案名稱,然後按Enter。
例如:bin>lg.py xml-processing g076
C)程式預設每組<l></l>會自動折行,如果不想折行, 就在檔案名稱後面加個 -n。
例如:bin>lg.py xml-processing g078 -n
D)產生的檔案會在 D:\Projects\BTG\fosizhi_xml\output/xml/g078 裡
E)檢查一下產生的檔案,若沒問題,就可以拿來用了。
備註:有些 lg 裡面包含 seg 標記,會造成錯誤,這部份需人工檢查。
標點符號問題
1.本計畫由於時程的關係,未將內文加上標點符號。而加上標點,應是未來第二階段的數位化工程。標記人員在現行標記過程中,多多少少會對文本進行解讀,順此之勢,我們會順手在文本加上標點符號(非正式、非完整),這有助於工作的進行。