「佛寺志粗標」:修訂間差異
imported>Miaomiao (→粗標) |
imported>Miaomiao |
||
(未顯示同一使用者於中間所作的 100 次修訂) | |||
行 4: | 行 4: | ||
==切檔== | ==切檔== | ||
=== 分檔方式=== | |||
請參看[[《中國佛寺史志》標記作業#檔案架構]]<br> | 請參看[[《中國佛寺史志》標記作業#檔案架構]]<br> | ||
===書名 頁的納入=== | |||
舉例 | 舉例 :[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g030&cpage=f1 g030 崇福寺志](《中國佛寺史志彙刊》,第1輯,第30冊,頁f1)<br> | ||
說明:明丹書局的「 | 說明:明丹書局的「 書名 頁」有助於讀者快速得知當志的 各 版本,因此 暫且 納入數位化範圍。(這有別於之前細標 的12 志 。12 志因要出版,顧及智產權問題,而不將明丹書局所編輯的內容納入。)<br> | ||
===卷前的標記=== | |||
<xml code> | |||
<head rend="display:none"><supplied resp="ddbc.da">xxx志卷前</supplied></head> | |||
</xml> | |||
===書名頁(出版社的)的標法=== | |||
<xml code> | |||
<div> | |||
<head rend="display:none"><supplied resp="ddbc.da">書名頁</supplied></head> | |||
<bibl><extent>八卷</extent> 〔淸〕<editor>沈鑅彪</editor>撰 | |||
<date>淸光緒十四年(一八八八)</date>錢塘嘉惠堂 | |||
丁氏重刋本<lb/> | |||
<title>雲林寺續志</title></bibl></div> | |||
注意事項:<bibl>中不能含<seg>。例:g004p0323 | |||
<editor>:書目項目的次要責任歸屬,例如扮演編輯、編譯、翻譯等角色的名稱。 | |||
<author>:在書目參照中,包含一件作品的作者姓名。 | |||
</xml> | |||
===題名頁(原刻板的)的標法=== | |||
<xml code> | |||
例一 | |||
<div> | |||
<head rend="display:none"><supplied resp="ddbc.da">題名頁</supplied></head> | |||
<bibl><date>光緒戊子秋季</date><lb/> | |||
<title>雲林寺續志</title><lb/> | |||
金日修署檢<lb/><pb | |||
facs="1B025P017.jpg" n="0002"/><respStmt><name>丁氏</name><resp>重刋</resp></respStmt></bibl></div> | |||
例二:非作者之外的責任陳述 | |||
<div> | |||
<head rend="display:none"><supplied resp="ddbc.da">題名頁</supplied></head><lb | |||
n="1"/><bibl><title>鄧尉山聖恩寺志</title><lb/><lb | |||
n="2"/><respStmt><name>張一麐</name><resp>書<stamp>張一麐</stamp></resp></respStmt></bibl></div> | |||
</xml> | |||
==粗標== | ==粗標== | ||
=== 段落標記=== | |||
請參看[[《中國佛寺史志》標記作業#段落形式]]<br> | 請參看[[《中國佛寺史志》標記作業#段落形式]]<br> | ||
=== 行號問題=== | |||
1)無格線<br> | 1)無格線<br> | ||
規則:有文字的行才算數,由1起算。<br> | 規則:有文字的行才算數,由1起算。<br> | ||
實例: | 實例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g097&cpage=0036 吳都法乘]「吳都法乘卷第一終」<br> | ||
標記:<lb n="1"/> | 標記:<lb n="1"/><closer>吳都法乘卷第一終</closer><br> | ||
2)有格線<br> | 2)有格線<br> | ||
行 44: | 行 80: | ||
本山沙門性玉、性覺 仝編錄<br> | 本山沙門性玉、性覺 仝編錄<br> | ||
===跨頁的表格頁碼=== | |||
原 <supplied reason="lost">闕漏字</supplied><note resp="ddbc.da">引用出處</note><br> | 跨頁的表格中的pb,多設一個row給頁碼專用。<br> | ||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g082&cpage=01001 g082p0101]<br> | |||
<xml code> | |||
標法: | |||
<row> | |||
<cell>塞北客棧</cell> | |||
<cell>城內北街</cell> | |||
<cell>設備尚好</cell> | |||
</row> | |||
<row> | |||
<cell><pb facs="2B029P452.jpg" n="0101"/></cell> | |||
</row> | |||
<row> | |||
<cell>永茂客棧</cell> | |||
<cell>城內北街</cell> | |||
<cell> 設備尚好</cell> | |||
</row> | |||
</xml> | |||
=== 補字標記修訂 :加resp屬性 (2013.05.20)=== | |||
原 :<supplied reason="lost">闕漏字</supplied><note resp="ddbc.da">引用出處</note><br> | |||
改:<supplied reason="lost" resp="ddbc.da">闕漏字</supplied><note resp="ddbc.da">引用出處</note><br> | |||
===「取代標記,但不取代文字」的正規表示式語法(in oXygen)=== | |||
原:<head resp="ddbc.da">(.*?)</head><br> | |||
改:<head><supplied resp="ddbc.da">$1</supplied></head><br> | |||
(記得Regular expression這一項要打勾) | |||
=== 自加標題標記修訂 :加supplied元素 (2013.05.20)=== | |||
原 <head resp="ddbc.da">自加標題</head><br> | 原 :<head resp="ddbc.da">自加標題</head><br> | ||
改:1.<head><supplied resp="ddbc.da">自加標題</supplied></head><br> | |||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g009&cpage=0531 普陀洛迦新志(藝文序)]<br> | 例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g009&cpage=0531 普陀洛迦新志(藝文序)]<br> | ||
2.<head>原標題<supplied resp="ddbc.da">自加標題</supplied></head><br> | 2.<head>原標題<supplied resp="ddbc.da">自加標題</supplied></head><br> | ||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g008&cpage=0003 重修普陀志叙(周應賓撰)]<br> | 例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g008&cpage=0003 重修普陀志叙(周應賓撰)]<br> | ||
===隱藏的自加標題 標記 修訂=== | |||
原 <head resp="ddbc.da"> | 原 :<head resp="ddbc.da" rend="display:none"> 隱藏的標題</head><br> | ||
改 | 改 :<head rend="display:none"><supplied resp="ddbc.da"> 隱藏的標題</supplied></head><br> | ||
例:<head resp="ddbc.da" rend="display:none"> 志名頁</head><br> | |||
→<head rend="display:none"><supplied resp="ddbc.da">志名頁</supplied></head><br> | |||
===地名標題下的詩偈,不用標<head>( 標<p> 及<lg> )=== | |||
例 | 例 :[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g009&cpage=0096 g009_02_p96磐陀石]<br> | ||
===詞的上下闕標記法=== | |||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g054&cpage=0004 g054p4]正如晉釋道安說的,『不依國主,則法事難舉』。<ref type="endnote" target="# | 詞類文體以詩行格式標記之。一闋長詞若分上下片,則<lg>中再分標<lg>。<br> | ||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g023&cpage=0389 g023_06_p389冷泉亭]<br> | |||
上闋:<lg><lg>直節堂堂 看夾道 冠纓拱立<br> | |||
漸翠谷 羣仙東下 佩環聲急<br> | |||
誰信天峰飛墮地 傍湖千丈開靑壁<br> | |||
是當年 玉斧削方壺 無人識</lg><br> | |||
下闋:<lg>山木潤 琅玕溼<br> | |||
秋露下 瓊珠滴<br> | |||
向危亭橫跨 玉淵澄碧<br> | |||
醉舞且搖鸞鳳影 浩歌莫遣魚龍泣<br> | |||
恨此中 風物本吾家 今為客</lg><lg><br> | |||
===法語中,如有「上堂」 法 語,可分段。=== | |||
原則:每一次上堂分一段<br> | |||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g010&cpage=0436 g010_09_p436上堂]<br> | |||
===尾註的標法=== | |||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g054&cpage=0004 g054p4]正如晉釋道安說的,『不依國主,則法事難舉』。<ref type="endnote" target="#n00-01-01">〔一〕</ref>(若是第二篇文章的尾註,則可命名為 #n00-02-01)<br> | |||
<!-- 章節末 --><br> | <!-- 章節末 --><br> | ||
尾註標記:<p rend="font-size:small;text-indent:-2ex;margin-top:3ex"> | 尾註標記:<note xml:id="n00-01-01" place="end"><p rend="font-size:small;text-indent:-2ex;margin-top:3ex"> 〔 一 〕 世說新語賞譽篇注引車頻秦書。高僧傳五釋道安傳。</p></note>(記得要用全段縮排及第一行凸排喔)<br> | ||
===印章的標法、位置=== | |||
(1)標題下的印章(但不屬於標題),可用<p>包之。<br> | |||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g046&cpage=0003 g046p3、p12]<br> | |||
<xml code> | |||
標法:<head>鶴林志序</head> | |||
<p rend="text-align:right"><stamp>劉承幹字貞一號翰怡□</stamp> | |||
<stamp>吳興劉氏嘉業堂藏書印</stamp> | |||
<stamp>□□□□</stamp></p> | |||
text-align:right:靠右對齊 | |||
</xml> | |||
(2) 跨行的印章,<stamp>標在印跡的第一行首位置。<br> | |||
例1:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g080&cpage=0035 g080p35文淵閣寶]<br> | |||
例2:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g080&cpage=0660 g080p660乾隆御覽之寶]<br> | |||
<xml code> | |||
標法:<div><note><stamp>文淵閣寶</stamp></note><head>欽定四庫全書</head> | |||
標法:<lb n="3"/><stamp>乾隆御覽之寶</stamp>聖祖山陵之役靈至昭也 | |||
</xml> | |||
===圖內的文字=== | |||
圖片的標記: | |||
<xml code> | |||
<figure> | |||
<head>圖的標題</head> | |||
<figDesc>圖說</figDesc> | |||
<graphic url="檔案名稱.jpg"/> | |||
(or <graphic url="檔案名稱.svg"/>) | |||
</figure> | |||
</xml> | |||
圖內的文字,我們將它記錄在<figDesc>中;但有時圖裡的文字印刷不清,該如何處理?<br> | |||
由於<figure>已經標記了這張圖,而<figDesc>是我們附帶的價值。如果圖內的文字無法辨識,那我們可略而不描述,而不再將圖內無法辨識的字標記<gap>。 | |||
==特字處理== | ==特字處理== | ||
行 75: | 行 185: | ||
==特殊問題== | ==特殊問題== | ||
=== 稿本有大量塗改的情形,如何標記?=== | |||
文本上有後人刪劃、添加修改的筆記,由於刪改的情況複雜,所以我們僅數位化其「原本」,而忽略其「稿本」(亦即刪改的筆記)。<br> | 文本上有後人刪劃、添加修改的筆記,由於刪改的情況複雜,所以我們僅數位化其「原本」,而忽略其「稿本」(亦即刪改的筆記)。<br> | ||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g026&cpage=0119 g026虎跑定慧寺志]<br> | |||
===新訂標題的原則=== | |||
【原則】凡無標題者:1.實缺標題的,2.不是標題的。就另訂,不應論長短。<br> | |||
===作者位置經標記人員移動時的註解說明=== | |||
1. 依照底本的型態,作者名原在「引文」之前者。<br> | |||
例:[http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g016&cpage=0221 g016p221釋際珍(請看底本)]<br> | |||
此類作者名字位置未更動,所以不做註。<br> | |||
2. 依照底本的型態,作者名原在「引文」之後者。<br> | |||
例:[http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g022&cpage=0212 g022p212李紳(請看底本)]<br> | |||
此類作者名字位置已經更動,所以在作者名後做註。<br> | |||
註:此詩原以引言代標題、作者隨附;今另訂標題,作者移置引言之前、新標題之下。<br> | |||
===以程式標記詩偈=== | |||
*電腦環境:<br> | |||
1.電腦中要安裝Python 3.3版以上的軟體才能開得起來。<br> | |||
Python 3.3軟體存放路徑:Y:\Projects\2013fosizhi_明丹本86志粗標\07工具\應用程式<br> | |||
2.還要安裝 lxml.<br> | |||
下載網址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml<br> | |||
lxml軟體存放路徑:Y:\Projects\2013fosizhi_明丹本86志粗標\07工具\應用程式<br> | |||
看您的電腦裡的 python 是哪一個版本.<br> | |||
再看您的電腦安裝的 python 是 32bit 或是 64bit.<br> | |||
如果是 python 3.3 (32bit), 那就選 lxml-3.2.3.win-32-py3.3.exe<br> | |||
如果是 python 3.3 (64bit), 那就選 lxml-3.2.3.win-amd64-py3.3.exe<br> | |||
3.請先在xml文件中的每首詩頭尾標記<lg><l>整首詩的文字</l></lg><br> | |||
一、執行lgn.py程式 , 自動判斷每首詩是幾 言 詩(它會幫 <lg> 加上 n 屬性. )<br> | |||
lgn.py存放路徑:在git裡\bin\lgn.py<br> | |||
<b>執行步驟:</b><br> | |||
A) 以 dos 視窗開啟 lgn.py 程式<br> | |||
B)在dos視窗中bin>後面閃動的游 標 處,打上程式檔名、檔案路徑、檔案名稱,然後按Enter。<br> | |||
例:bin>lgn.py xml-processing g092<br> | |||
*程式預設句號不列入計算 , 若要將 句 號列入計算,就多加個 -p<br> | |||
例如:lgn.py xml-process-y y062 -p<br> | |||
C)產生 的 檔案會在 git \fosizhi\output\xml 裡<br> | |||
D)輸出的結果<br> | |||
<lg n="5"> 表示五字 一 句<br> | |||
<lg n="5 7"> 表示可能是五字或七字一句<br> | |||
<lg n="都除不盡: 41"> 表 示總 字數 41 , 不是4,5,6,7的倍數<br> | |||
以人工判斷n應該 是 多少 , 修改過屬性值後, 再執行 lg.py<br> | |||
二、 執行lg.py程式<br> | |||
<b>執行步驟:</b><br> | <b>執行步驟:</b><br> | ||
A)以 dos 視窗開啟 lg.py程式<br> | A)以 dos 視窗開啟 lg.py程式<br> | ||
B)在dos視窗中bin>後面閃動的游標處,打上程式檔名、檔案 | B)在dos視窗中bin>後面閃動的游標處,打上程式檔名、檔案 資料夾名稱 、檔案名稱,然後按Enter。<br> | ||
C)程式預設每組<l></l>會自動折行,如果不想折行, 就在檔案名稱後面加個 -n。 | 例:bin>lg.py xml-processing g076<br> | ||
D)產生的檔案會在 | C)程式預設每組<l></l>會自動折行,如果不想折行, 就在檔案名稱後面加個 -n。<br> | ||
例:bin>lg.py xml-processing g076 -n<br> | |||
D)產生的檔案會在 git \fosizhi\output\xml 裡<br> | |||
E)檢查一下產生的檔案,若沒問題,就可以拿來用了;<br> | E)檢查一下產生的檔案,若沒問題,就可以拿來用了;<br> | ||
若是發覺有誤失(例如詩句字數算錯),可 | 若是發覺有誤失(例如詩句字數算錯), 則 可 將情況記錄下來,向果睿報 修, 以使 程式 更完善 。<br> | ||
===「全段縮排」可取代「小字」=== | |||
底本的全段落小字,有時可用「全段縮排」(不縮小字)的樣式,取代「小字」。<br> | |||
例 :[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g038&cpage=0166 g038p166〖案〗祖心住金山事] | |||
===長行裡的詩偈,目前可暫不標詩行=== | |||
長行裡的詩偈,目前 有 一個開許(主持人同意的),可暫不標 詩 行,待標逗階段時再補標可也。因為要在沒有斷 句 的長行 中 揀出詩詞讚頌,這需要解讀文意, 有 時不易。待做了標逗後,較易看出詩偈的位置,執行起來較有效率。當然,如果可以一眼看出長行中的詩文的,也歡迎現時就標上詩行。<br> | |||
例:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g069&cpage=0065 g069p65澂有影相自贊云荷蒙鳳沼陞猊座](網頁上看到的標逗是我加的,大家可以不加標逗)<br> | |||
===不縮排的詩行=== | |||
例如:聯語<br> | |||
可在<lg>加屬性, 標記<lg rend="text-indent:-2ex">(屬性值可視版面狀況調整 , 例如:-1、-2)<br> | |||
=== 錯 位移正後要處理行號嗎?=== | |||
依循的原則是:盡量維持原頁碼中的行號編碼,因為它有「引用複製」時提示文本位置的功能。但是如果文本本身的編排有舛 誤 而使得行號編碼產生混亂時,只好重編行號 , 以維持編碼的秩序 。<br> | |||
例1:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g082&cpage=0089 g082p89第二 大同城內及近郊之古蹟名勝]<br> | |||
例2:[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g082&cpage=0094 g082p94乙 遊覽須知]<br> | |||
===xml文件中 的 「&」=== | |||
「&」在xml中有特殊意義 , 所引用的網址中含 有 該符號 時 會驗證不通過,故在xml中需將 「& 」 換成 「&amp; 」。<br> | |||
例 :[http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g075&cpage=1539 g082p89 g075_11_p1539]<br> | |||
<xml code> | |||
<l>憐余素有<note resp="ddbc.da">「有」字底本闕,據「搜韻」網站補入。 | |||
(<ptr target="http://sou-yun.com/PoemIndex.aspx?dynasty=Qing&author=%E6%9C%B1%E4%B9%8B%E5%BC%BC&type=Lu&lang=t"/>,2013.06.24) | |||
</note>煙霞癖<caesura/>展卷終期慰所思</l></lg>。 | |||
改成: | |||
<l>憐余素有<note resp="ddbc.da">「有」字底本闕,據「搜韻」網站補入。 | |||
(<ptr target="http://sou-yun.com/PoemIndex.aspx?dynasty=Qing&author=%E6%9C%B1%E4%B9%8B%E5%BC%BC&type=Lu&lang=t"/>,2013.06.24) | |||
</note>煙霞癖<caesura/>展卷終期慰所思</l></lg>。 | |||
</xml> | |||
==標點符號問題== | ==標點符號問題== | ||
1.本計畫由於時程的關係,未將內文加上標點符號。全文化新式標點是佛寺志專案未來階段的目標之一,而標記人員在現行標記過程中,多多少少已對文本進行解讀,因此順此之勢,可順手在XML做斷句、加上標點符號(非全面性),有利於工作的進行。網路版可選擇是否隱藏標點符號。<br> | 1.本計畫由於時程的關係,未將內文加上標點符號。全文化新式標點是佛寺志專案未來階段的目標之一,而標記人員在現行標記過程中,多多少少已對文本進行解讀,因此順此之勢,可順手在XML做斷句、加上標點符號(非全面性),有利於工作的進行。網路版可選擇是否隱藏標點符號。<br> |
於 2020年6月8日 (一) 10:55 的最新修訂
電校
1.電校流程:
請參看《中國佛寺志》專案執行步驟#校對
切檔
分檔方式
書名頁的納入
舉例:g030崇福寺志(《中國佛寺史志彙刊》,第1輯,第30冊,頁f1)
說明:明丹書局的「書名頁」有助於讀者快速得知當志的各版本,因此暫且納入數位化範圍。(這有別於之前細標的12志。12志因要出版,顧及智產權問題,而不將明丹書局所編輯的內容納入。)
卷前的標記
<xml code> <head rend="display:none"><supplied resp="ddbc.da">xxx志卷前</supplied></head> </xml>
書名頁(出版社的)的標法
<xml code>
<head rend="display:none"><supplied resp="ddbc.da">書名頁</supplied></head> <bibl><extent>八卷</extent> 〔淸〕<editor>沈鑅彪</editor>撰 <date>淸光緒十四年(一八八八)</date>錢塘嘉惠堂 丁氏重刋本<lb/>
<title>雲林寺續志</title></bibl>注意事項:<bibl>中不能含<seg>。例:g004p0323 <editor>:書目項目的次要責任歸屬,例如扮演編輯、編譯、翻譯等角色的名稱。 <author>:在書目參照中,包含一件作品的作者姓名。 </xml>
題名頁(原刻板的)的標法
<xml code> 例一
<head rend="display:none"><supplied resp="ddbc.da">題名頁</supplied></head> <bibl><date>光緒戊子秋季</date><lb/> <title>雲林寺續志</title><lb/> 金日修署檢<lb/><pb
facs="1B025P017.jpg" n="0002"/><respStmt><name>丁氏</name><resp>重刋</resp></respStmt></bibl>例二:非作者之外的責任陳述
<head rend="display:none"><supplied resp="ddbc.da">題名頁</supplied></head><lb n="1"/><bibl><title>鄧尉山聖恩寺志</title><lb/><lb
n="2"/><respStmt><name>張一麐</name><resp>書<stamp>張一麐</stamp></resp></respStmt></bibl></xml>
粗標
段落標記
行號問題
1)無格線
規則:有文字的行才算數,由1起算。
實例:吳都法乘「吳都法乘卷第一終」
標記:<lb n="1"/><closer>吳都法乘卷第一終</closer>
2)有格線
規則:行號標示它所在的行數。其中的空白行,不用標示行號。
實例:崇福寺志「西天目祖山志卷七終」
標記:<lb n="10"/><closer>西天目祖山志卷七終</closer>
3)跨格線1
規則:標示在第一行下。
實例:崇福寺志「禪源寺住持際界增訂」
標記:<lb
n="1"/></div><div><head>西天目祖山志補遺</head>
n="2"/><p>禪源寺住持際界增訂</p>
n="4"/><div><head>稽古</head>
4)跨格線2
規則:標示在最後一行下。
實例:仰山乘卷之四里人程文舉、民逸氏 本山沙門性玉、性覺仝編錄
標記:<pb facs="2B021P347.jpg" n="0331"/>
<lb n="1"/><head>仰山乘卷之四<seg rend="font-size:small">詩部</seg></head>
<lb n="2"/><byline>里人程文舉、民逸氏
<lb n="3"/>本山沙門性玉、性覺 仝編錄</byline>
網頁呈現:里人程文舉、民逸氏
本山沙門性玉、性覺 仝編錄
跨頁的表格頁碼
跨頁的表格中的pb,多設一個row給頁碼專用。
例:g082p0101
<xml code>
標法:
<row>
<cell>塞北客棧</cell>
<cell>城內北街</cell>
<cell>設備尚好</cell>
</row>
<row>
<cell><pb facs="2B029P452.jpg" n="0101"/></cell>
</row>
<row>
<cell>永茂客棧</cell>
<cell>城內北街</cell>
<cell>設備尚好</cell>
</row>
</xml>
補字標記修訂:加resp屬性(2013.05.20)
原:<supplied reason="lost">闕漏字</supplied><note resp="ddbc.da">引用出處</note>
改:<supplied reason="lost" resp="ddbc.da">闕漏字</supplied><note resp="ddbc.da">引用出處</note>
「取代標記,但不取代文字」的正規表示式語法(in oXygen)
原:<head resp="ddbc.da">(.*?)</head>
改:<head><supplied resp="ddbc.da">$1</supplied></head>
(記得Regular expression這一項要打勾)
自加標題標記修訂:加supplied元素(2013.05.20)
原:<head resp="ddbc.da">自加標題</head>
改:1.<head><supplied resp="ddbc.da">自加標題</supplied></head>
例:普陀洛迦新志(藝文序)
2.<head>原標題<supplied resp="ddbc.da">自加標題</supplied></head>
例:重修普陀志叙(周應賓撰)
隱藏的自加標題標記修訂
原:<head resp="ddbc.da" rend="display:none">隱藏的標題</head>
改:<head rend="display:none"><supplied resp="ddbc.da">隱藏的標題</supplied></head>
例:<head resp="ddbc.da" rend="display:none">志名頁</head>
→<head rend="display:none"><supplied resp="ddbc.da">志名頁</supplied></head>
地名標題下的詩偈,不用標<head>(標<p>及<lg>)
詞的上下闕標記法
詞類文體以詩行格式標記之。一闋長詞若分上下片,則<lg>中再分標<lg>。
例:g023_06_p389冷泉亭
上闋:<lg><lg>直節堂堂 看夾道 冠纓拱立
漸翠谷 羣仙東下 佩環聲急
誰信天峰飛墮地 傍湖千丈開靑壁
是當年 玉斧削方壺 無人識</lg>
下闋:<lg>山木潤 琅玕溼
秋露下 瓊珠滴
向危亭橫跨 玉淵澄碧
醉舞且搖鸞鳳影 浩歌莫遣魚龍泣
恨此中 風物本吾家 今為客</lg><lg>
法語中,如有「上堂」法語,可分段。
原則:每一次上堂分一段
例:g010_09_p436上堂
尾註的標法
例:g054p4正如晉釋道安說的,『不依國主,則法事難舉』。<ref type="endnote" target="#n00-01-01">〔一〕</ref>(若是第二篇文章的尾註,則可命名為 #n00-02-01)
<!-- 章節末 -->
尾註標記:<note xml:id="n00-01-01" place="end"><p rend="font-size:small;text-indent:-2ex;margin-top:3ex">〔一〕世說新語賞譽篇注引車頻秦書。高僧傳五釋道安傳。</p></note>(記得要用全段縮排及第一行凸排喔)
印章的標法、位置
(1)標題下的印章(但不屬於標題),可用<p>包之。
例:g046p3、p12
<xml code>
標法:<head>鶴林志序</head>
<stamp>劉承幹字貞一號翰怡□</stamp> <stamp>吳興劉氏嘉業堂藏書印</stamp> <stamp>□□□□</stamp>
text-align:right:靠右對齊 </xml>
(2) 跨行的印章,<stamp>標在印跡的第一行首位置。
例1:g080p35文淵閣寶
例2:g080p660乾隆御覽之寶
<xml code>
標法:
標法:<lb n="3"/><stamp>乾隆御覽之寶</stamp>聖祖山陵之役靈至昭也 </xml>
圖內的文字
圖片的標記:
<xml code>
<figure>
<head>圖的標題</head>
<figDesc>圖說</figDesc>
<graphic url="檔案名稱.jpg"/>
(or <graphic url="檔案名稱.svg"/>)
</figure>
</xml>
圖內的文字,我們將它記錄在<figDesc>中;但有時圖裡的文字印刷不清,該如何處理?
由於<figure>已經標記了這張圖,而<figDesc>是我們附帶的價值。如果圖內的文字無法辨識,那我們可略而不描述,而不再將圖內無法辨識的字標記<gap>。
特字處理
1.通用字的提供:
以「一篇文章」為單位。對於當代讀者難以辨識的特異字,我們會在一篇文章中它第一次出現時提供其通用字。
特殊問題
稿本有大量塗改的情形,如何標記?
文本上有後人刪劃、添加修改的筆記,由於刪改的情況複雜,所以我們僅數位化其「原本」,而忽略其「稿本」(亦即刪改的筆記)。
例:g026虎跑定慧寺志
新訂標題的原則
【原則】凡無標題者:1.實缺標題的,2.不是標題的。就另訂,不應論長短。
作者位置經標記人員移動時的註解說明
1. 依照底本的型態,作者名原在「引文」之前者。
例:g016p221釋際珍(請看底本)
此類作者名字位置未更動,所以不做註。
2. 依照底本的型態,作者名原在「引文」之後者。
例:g022p212李紳(請看底本)
此類作者名字位置已經更動,所以在作者名後做註。
註:此詩原以引言代標題、作者隨附;今另訂標題,作者移置引言之前、新標題之下。
以程式標記詩偈
*電腦環境:
1.電腦中要安裝Python 3.3版以上的軟體才能開得起來。
Python 3.3軟體存放路徑:Y:\Projects\2013fosizhi_明丹本86志粗標\07工具\應用程式
2.還要安裝 lxml.
下載網址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
lxml軟體存放路徑:Y:\Projects\2013fosizhi_明丹本86志粗標\07工具\應用程式
看您的電腦裡的 python 是哪一個版本.
再看您的電腦安裝的 python 是 32bit 或是 64bit.
如果是 python 3.3 (32bit), 那就選 lxml-3.2.3.win-32-py3.3.exe
如果是 python 3.3 (64bit), 那就選 lxml-3.2.3.win-amd64-py3.3.exe
3.請先在xml文件中的每首詩頭尾標記<lg><l>整首詩的文字</l></lg>
一、執行lgn.py程式,自動判斷每首詩是幾言詩(它會幫 <lg> 加上 n 屬性.)
lgn.py存放路徑:在git裡\bin\lgn.py
執行步驟:
A)以 dos 視窗開啟 lgn.py程式
B)在dos視窗中bin>後面閃動的游標處,打上程式檔名、檔案路徑、檔案名稱,然後按Enter。
例:bin>lgn.py xml-processing g092
*程式預設句號不列入計算,若要將句號列入計算,就多加個 -p
例如:lgn.py xml-process-y y062 -p
C)產生的檔案會在 git \fosizhi\output\xml 裡
D)輸出的結果
<lg n="5"> 表示五字一句
<lg n="5 7"> 表示可能是五字或七字一句
<lg n="都除不盡: 41"> 表示總字數 41,不是4,5,6,7的倍數
以人工判斷n應該是多少,修改過屬性值後, 再執行 lg.py
二、執行lg.py程式
執行步驟:
A)以 dos 視窗開啟 lg.py程式
B)在dos視窗中bin>後面閃動的游標處,打上程式檔名、檔案資料夾名稱、檔案名稱,然後按Enter。
例:bin>lg.py xml-processing g076
C)程式預設每組<l></l>會自動折行,如果不想折行, 就在檔案名稱後面加個 -n。
例:bin>lg.py xml-processing g076 -n
D)產生的檔案會在 git \fosizhi\output\xml 裡
E)檢查一下產生的檔案,若沒問題,就可以拿來用了;
若是發覺有誤失(例如詩句字數算錯),則可將情況記錄下來,向果睿報修,以使程式更完善。
「全段縮排」可取代「小字」
底本的全段落小字,有時可用「全段縮排」(不縮小字)的樣式,取代「小字」。
例:g038p166〖案〗祖心住金山事
長行裡的詩偈,目前可暫不標詩行
長行裡的詩偈,目前有一個開許(主持人同意的),可暫不標詩行,待標逗階段時再補標可也。因為要在沒有斷句的長行中揀出詩詞讚頌,這需要解讀文意,有時不易。待做了標逗後,較易看出詩偈的位置,執行起來較有效率。當然,如果可以一眼看出長行中的詩文的,也歡迎現時就標上詩行。
例:g069p65澂有影相自贊云荷蒙鳳沼陞猊座(網頁上看到的標逗是我加的,大家可以不加標逗)
不縮排的詩行
例如:聯語
可在<lg>加屬性,標記<lg rend="text-indent:-2ex">(屬性值可視版面狀況調整,例如:-1、-2)
錯位移正後要處理行號嗎?
依循的原則是:盡量維持原頁碼中的行號編碼,因為它有「引用複製」時提示文本位置的功能。但是如果文本本身的編排有舛誤而使得行號編碼產生混亂時,只好重編行號,以維持編碼的秩序。
例1:g082p89第二 大同城內及近郊之古蹟名勝
例2:g082p94乙 遊覽須知
xml文件中的「&」
「&」在xml中有特殊意義,所引用的網址中含有該符號時會驗證不通過,故在xml中需將「&」換成「&」。
例:g082p89 g075_11_p1539
<xml code>
<l>憐余素有<note resp="ddbc.da">「有」字底本闕,據「搜韻」網站補入。
(<ptr target="http://sou-yun.com/PoemIndex.aspx?dynasty=Qing&author=%E6%9C%B1%E4%B9%8B%E5%BC%BC&type=Lu&lang=t"/>,2013.06.24)
</note>煙霞癖<caesura/>展卷終期慰所思</l></lg>。
改成:
<l>憐余素有<note resp="ddbc.da">「有」字底本闕,據「搜韻」網站補入。
(<ptr target="http://sou-yun.com/PoemIndex.aspx?dynasty=Qing&author=%E6%9C%B1%E4%B9%8B%E5%BC%BC&type=Lu&lang=t"/>,2013.06.24)
</note>煙霞癖<caesura/>展卷終期慰所思</l></lg>。
</xml>
標點符號問題
1.本計畫由於時程的關係,未將內文加上標點符號。全文化新式標點是佛寺志專案未來階段的目標之一,而標記人員在現行標記過程中,多多少少已對文本進行解讀,因此順此之勢,可順手在XML做斷句、加上標點符號(非全面性),有利於工作的進行。網路版可選擇是否隱藏標點符號。