佛寺志粗標

出自DILA Wiki
於 2013年8月29日 (四) 16:23 由 imported>Miaomiao 所做的修訂 →‎以程式標記詩偈

電校

1.電校流程:
 請參看《中國佛寺志》專案執行步驟#校對

切檔

分檔方式

 請參看《中國佛寺史志》標記作業#檔案架構

版本頁的納入

 舉例:g030崇福寺志(《中國佛寺史志彙刊》,第1輯,第30冊,頁f1)
 說明:明丹書局的「版本頁」有助於讀者快速得知當志的版本,因此可納入數位化範圍。(這有別於之前細標的14志。14志因要出版,所以顧及智產權問題,而不將明丹書局所編輯的內容納入。)

卷前的標記

<xml code> <head rend="display:none"><supplied resp="ddbc.da">xxx志卷前</supplied></head> </xml>

版本頁的標法

<xml code>

<head rend="display:none"><supplied resp="ddbc.da">版本頁</supplied></head> <bibl><extent>八卷</extent> 〔淸〕<editor>沈鑅彪</editor>撰<lb/> <date>淸光緒十四年(一八八八)</date>錢塘嘉惠堂 丁氏重刋本<lb/>

<title>雲林寺續志</title></bibl>

注意事項:<bibl>中不能含<seg>。例:g004p0323
<editor>:書目項目的次要責任歸屬,例如扮演編輯、編譯、翻譯等角色的名稱。 <author>:在書目參照中,包含一件作品的作者姓名。 </xml>

志名頁的標法

<xml code> 例一

<head rend="display:none"><supplied resp="ddbc.da">志名頁</supplied></head> <bibl><date>光緒戊子秋季</date><lb/> <title>雲林寺續志</title><lb/> 金日修署檢<lb/><pb

facs="1B025P017.jpg" n="0002"/><respStmt><name>丁氏</name><resp>重刋</resp></respStmt></bibl>

例二:非作者之外的責任陳述

<head rend="display:none"><supplied resp="ddbc.da">志名頁</supplied></head><lb n="1"/><bibl><title>鄧尉山聖恩寺志</title><lb/><lb

n="2"/><respStmt><name>張一麐</name><resp>書<stamp>張一麐</stamp></resp></respStmt></bibl>

</xml>

粗標

段落標記

 請參看《中國佛寺史志》標記作業#段落形式

行號問題

1)無格線
 規則:有文字的行才算數,由1起算。
 實例:吳都法乘「吳都法乘卷第一終」
 標記:<lb n="1"/><closer>吳都法乘卷第一終</closer>

2)有格線
 規則:行號標示它所在的行數。其中的空白行,不用標示行號。
 實例:崇福寺志「西天目祖山志卷七終」
 標記:<lb n="10"/><closer>西天目祖山志卷七終</closer>

3)跨格線1
 規則:標示在第一行下。
 實例:崇福寺志「禪源寺住持際界增訂」
 標記:<lb  
    n="1"/></div><div><head>西天目祖山志補遺</head>
    n="2"/><p>禪源寺住持際界增訂</p>
    n="4"/><div><head>稽古</head>

4)跨格線2
 規則:標示在最後一行下。
 實例:仰山乘卷之四里人程文舉、民逸氏 本山沙門性玉、性覺仝編錄
 標記:<pb facs="2B021P347.jpg" n="0331"/>
    <lb n="1"/><head>仰山乘卷之四<seg rend="font-size:small">詩部</seg></head>
    <lb n="2"/><byline>里人程文舉、民逸氏    
    <lb n="3"/>本山沙門性玉、性覺 仝編錄</byline>
 網頁呈現:里人程文舉、民逸氏    
      本山沙門性玉、性覺 仝編錄

跨頁的表格頁碼

 跨頁的表格中的pb,多設一個row給頁碼專用。
 例:g082p0101
<xml code> 標法: ​<row> <cell>塞北客棧</cell> <cell>城內北街</cell> <cell>設備尚好</cell> </row> <row> <cell><pb facs="2B029P452.jpg" n="0101"/></cell> </row> <row> <cell>永茂客棧</cell> <cell>城內北街</cell> <cell>設備尚好</cell> </row> </xml>

補字標記修訂:加resp屬性(2013.05.20)

 原:<supplied reason="lost">闕漏字</supplied><note resp="ddbc.da">引用出處</note>
 改:<supplied reason="lost" resp="ddbc.da">闕漏字</supplied><note resp="ddbc.da">引用出處</note>

「取代標記,但不取代文字」的正規表示式語法(in oXygen)

 原:<head resp="ddbc.da">(.*?)</head>
 改:<head><supplied resp="ddbc.da">$1</supplied></head>
  (記得Regular expression這一項要打勾)

自加標題標記修訂:加supplied元素(2013.05.20)

 原:<head resp="ddbc.da">自加標題</head>
 改:1.<head><supplied resp="ddbc.da">自加標題</supplied></head>
   例:普陀洛迦新志(藝文序)
  2.<head>原標題<supplied resp="ddbc.da">自加標題</supplied></head>
   例:重修普陀志叙(周應賓撰)

隱藏的自加標題標記修訂

 原:<head resp="ddbc.da" rend="display:none">隱藏的標題</head>
 改:<head rend="display:none"><supplied resp="ddbc.da">隱藏的標題</supplied></head>

 例:<head resp="ddbc.da" rend="display:none">志名頁</head>
  →<head rend="display:none"><supplied resp="ddbc.da">志名頁</supplied></head>

地名標題下的詩偈,不用標<head>(標<p>及<lg>)

 例:g009_02_p96磐陀石

詞的上下闕標記法

 詞類文體以詩行格式標記之。一闋長詞若分上下片,則<lg>中再分標<lg>。
 例:g023_06_p389冷泉亭
上闋:<lg><lg>直節堂堂 看夾道 冠纓拱立
   漸翠谷 羣仙東下 佩環聲急
   誰信天峰飛墮地 傍湖千丈開靑壁
   是當年 玉斧削方壺 無人識</lg>
下闋:<lg>山木潤 琅玕溼
   秋露下 瓊珠滴
   向危亭橫跨 玉淵澄碧
   醉舞且搖鸞鳳影 浩歌莫遣魚龍泣
   恨此中 風物本吾家 今為客</lg><lg>

法語中,如有「上堂」法語,可分段。

 原則:每一次上堂分一段
 例:g010_09_p436上堂

尾註的標法

 例:g054p4正如晉釋道安說的,『不依國主,則法事難舉』。<ref type="endnote" target="#n00-01-01">〔一〕</ref>(若是第二篇文章的尾註,則可命名為 #n00-02-01)
 <!-- 章節末 -->
 尾註標記:<note xml:id="n00-01-01" place="end"><p rend="font-size:small;text-indent:-2ex;margin-top:3ex">〔一〕世說新語賞譽篇注引車頻秦書。高僧傳五釋道安傳。</p></note>(記得要用全段縮排及第一行凸排喔)

印章的標法、位置

(1)標題下的印章(但不屬於標題),可用<p>包之。
例:g046p3、p12
<xml code> 標法:<head>鶴林志序</head>

<stamp>劉承幹字貞一號翰怡□</stamp> <stamp>吳興劉氏嘉業堂藏書印</stamp> <stamp>□□□□</stamp>

text-align:right:靠右對齊 </xml>

(2) 跨行的印章,<stamp>標在印跡的第一行首位置。
例1:g080p35文淵閣寶
例2:g080p660乾隆御覽之寶
<xml code>

標法:

<note><stamp>文淵閣寶</stamp></note><head>欽定四庫全書</head>

標法:<lb n="3"/><stamp>乾隆御覽之寶</stamp>聖祖山陵之役靈至昭也 </xml>

圖內的文字

圖片的標記: <xml code> <figure> <head>圖的標題</head> <figDesc>圖說</figDesc> <graphic url="檔案名稱.jpg"/> (or <graphic url="檔案名稱.svg"/>) </figure> </xml> 圖內的文字,我們將它記錄在<figDesc>中;但有時圖裡的文字印刷不清,該如何處理?
由於<figure>已經標記了這張圖,而<figDesc>是我們附帶的價值。如果圖內的文字無法辨識,那我們可略而不描述,而不再將圖內無法辨識的字標記<gap>。

特字處理

1.通用字的提供
 以「一篇文章」為單位。對於當代讀者難以辨識的特異字,我們會在一篇文章中它第一次出現時提供其通用字。

特殊問題

稿本有大量塗改的情形,如何標記?

 文本上有後人刪劃、添加修改的筆記,由於刪改的情況複雜,所以我們僅數位化其「原本」,而忽略其「稿本」(亦即刪改的筆記)。
 例:g026虎跑定慧寺志

標題很長,像前言,如何標記?

 「本源上人余姻家之子以儒流而入釋門遂精進其道大闢仰山宗風傳燈說法耆宿一時推尊誠新安之叢林故敬贈之」,像這樣「勒勒長」的標題,TEI英文版<head>元素中也有類此「長標題」的範例。所以還是標<head>。
 例:g076仰山乘

以程式標記詩偈

*電腦環境:
1.電腦中要安裝Python 3.3版以上的軟體才能開得起來。
 Python 3.3軟體存放路徑:
2.還要安裝 lxml.
 下載網址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
 lxml軟體存放路徑:
 看您的電腦裡的 python 是哪一個版本.
 再看您的電腦安裝的 python 是 32bit 或是 64bit.
 如果是 python 3.3 (32bit), 那就選 lxml-3.2.3.win-32-py3.3.‌exe
 如果是 python 3.3 (64bit), 那就選 lxml-3.2.3.win-amd64-py3.3.‌exe
3.請先在xml文件中的每首詩頭尾標記<lg><l>整首詩的文字</l></lg>


一、執行lgn.py程式,自動判斷每首詩是幾言詩(它會幫 <lg> 加上 n 屬性.)
  lgn.py存放路徑:在git裡\bin\lgn.py

  執行步驟:
  A)以 dos 視窗開啟 lgn.py程式
  B)在dos視窗中bin>後面閃動的游標處,打上程式檔名、檔案路徑、檔案名稱,然後按Enter。
   (例:bin>lgn.py xml-processing g092)
  

  C)產生的檔案會在 git \fosizhi\output/xml/g092 裡
  D)輸出的結果
   <lg n="4"> 表示四字一句
   <lg n="4 5"> 表示可能是四字或五字一句
   <lg n="都除不盡: 41"> 表示字數 41,不是4,5,6,7的倍數

  然後人工判斷n應該是多少,編輯過xml後, 再執行 lg.py

二、執行lg.py程式
  執行步驟:
  A)以 dos 視窗開啟 lg.py程式
  B)在dos視窗中bin>後面閃動的游標處,打上程式檔名、檔案路徑、檔案名稱,然後按Enter。
   (例:bin>lg.py xml-processing g076)
  C)程式預設每組<l></l>會自動折行,如果不想折行, 就在檔案名稱後面加個 -n。
   (例:bin>lg.py xml-processing g076 -n)
  D)產生的檔案會在 git \fosizhi\output/xml/g076 裡
  E)檢查一下產生的檔案,若沒問題,就可以拿來用了;
   若是發覺有誤失(例如詩句字數算錯),則可手動修改一下。

「全段縮排」樣式可取代「小字」

 底本的全段落小字,有時可用「全段縮排」(不縮小字)的樣式,取代「小字」。
 例:g038p166〖案〗祖心住金山事

長行裡的詩偈,目前可暫不標詩行

長行裡的詩偈,目前有一個開許(主持人同意的),可暫不標詩行,待標逗階段時再補標可也。因為要在沒有斷句的長行中揀出詩詞讚頌,這需要解讀文意,有時不易。待做了標逗後,較易看出詩偈的位置,執行起來較有效率。當然,如果可以一眼看出長行中的詩文的,也歡迎現時就標上詩行。
例:g​069p65澂有影相自贊云荷蒙鳳沼陞猊座(網頁上看到的標逗是我加的,大家可以不加標逗)

錯位移正後要處理行號嗎?

依循的原則是:盡量維持原頁碼中的行號編碼,因為它有「引用複製」時提示文本位置的功能。但是如果文本本身的編排有舛誤而使得行號編碼產生混亂時,只好重編行號,以維持編碼的秩序。
例1:g​082p89第二 大同城內及近郊之古蹟名勝
例2:g​082p94乙 遊覽須知

xml文件中的「&」

「&」在xml中有特殊意義,所引用的網址中含有該符號時會驗證不通過,故在xml中需將「&」換成「&amp;」。
例:g​082p89 g075_11_p1539
<xml code> <l>憐余素有<note resp="ddbc.da">「有」字底本闕,據「搜韻」網站補入。 (<ptr target="http://sou-yun.com/PoemIndex.aspx?dynasty=Qing&author=%E6%9C%B1%E4%B9%8B%E5%BC%BC&type=Lu&lang=t"/>,2013.06.24) </note>煙霞癖<caesura/>展卷終期慰所思</l></lg>。 改成: <l>憐余素有<note resp="ddbc.da">「有」字底本闕,據「搜韻」網站補入。 (<ptr target="http://sou-yun.com/PoemIndex.aspx?dynasty=Qing&author=%E6%9C%B1%E4%B9%8B%E5%BC%BC&type=Lu&lang=t"/>,2013.06.24) </note>煙霞癖<caesura/>展卷終期慰所思</l></lg>。 </xml>

標點符號問題

1.本計畫由於時程的關係,未將內文加上標點符號。全文化新式標點是佛寺志專案未來階段的目標之一,而標記人員在現行標記過程中,多多少少已對文本進行解讀,因此順此之勢,可順手在XML做斷句、加上標點符號(非全面性),有利於工作的進行。網路版可選擇是否隱藏標點符號。

Git問題

TortoiseGit 如何恢復歷史版本?

選擇欲恢復的寺志或檔案(點右鍵)
→Git Show log(點左鍵)
→選擇欲恢復的Message(點右鍵)
→Create Branch at this version(點左鍵)
→Branch 命名→ok
→回到欲恢復的寺志或檔案(點右鍵)
→TortoiseGit→Switch\checkout
→Branch 選剛新建的分支→ok
→將檔案複製到另一路徑
→再回到欲恢復的寺志或檔案(點右鍵)
→TortoiseGit→Switch\checkout
→Branch master→ok
→將剛才複製出來的檔案移回去
→重新commit、push