「名山古剎-《中國佛寺史志》數位典藏」:修訂間差異
imported>Miaomiao (→十、缺字) |
imported>Miaomiao (→五、時間) |
||
| 行 1,128: | 行 1,128: | ||
2 時間標記 | 2 時間標記 | ||
<syntaxhighlight lang="XML">● 標法: | <syntaxhighlight lang="XML"> | ||
● 標法: | |||
<date key="j+(起始時間碼)+(結尾時間碼)" notBefore-iso="起始西元年-月-日" notAfter-iso="結尾西元年-月-日">區段性的某時間</date> | <date key="j+(起始時間碼)+(結尾時間碼)" notBefore-iso="起始西元年-月-日" notAfter-iso="結尾西元年-月-日">區段性的某時間</date> | ||
<date key="j+(開始時間碼)+(結束時間碼)" from-iso="開始西元年-月-日" to-iso="結束西元年月日">事件持續進行的時間</date> | <date key="j+(開始時間碼)+(結束時間碼)" from-iso="開始西元年-月-日" to-iso="結束西元年月日">事件持續進行的時間</date> | ||
<date key="j+(當日時間碼)+(當日時間碼)" when-iso="西元年-月-日">時間點</date> | <date key="j+(當日時間碼)+(當日時間碼)" when-iso="西元年-月-日">時間點</date> | ||
<date key="unknown">未知的時間</date> | <date key="unknown">未知的時間</date> | ||
</syntaxhighlight> | </syntaxhighlight> | ||
| 行 1,146: | 行 1,146: | ||
|余以光緒己卯游天台 | |余以光緒己卯游天台 | ||
|<date key="j24073722407755" notBefore-iso="1879-01-22" notAfter-iso="1880-02-09">光緒己卯</date> | |<date key="j24073722407755" notBefore-iso="1879-01-22" notAfter-iso="1880-02-09">光緒己卯</date> | ||
說明:a)key2407372:光緒己卯年正月一日ID | 說明:a)key2407372:光緒己卯年正月一日ID | ||
b)key2407755:光緒己卯年正月三十日 | |||
c)notBefore-iso:光緒己卯年正月一日ID | |||
d)notAfter-iso:光緒己卯年正月三十日 | |||
|- | |- | ||
|明確日期 | |明確日期 | ||
於 2011年3月16日 (三) 16:49 的修訂
《中國佛寺史志》數位典藏工作手冊
Archive of Buddhist Temple Gazetteers(Service manual)
簡介及目的
在中國佛教史料中,佛寺志是一種獨特而重要的文獻,它也是地方志或地方性歷史文獻之一。其主要內容在於:佛寺歷史沿革,建築、建設,高僧傳記、法語詩偈,法脈傳承,感應事跡等,亦有兼及佛寺所在地之地理、人文、風俗的記載,及地圖、建物圖、人像等。通常是由對區域、城市及寺院研究有興趣的學者所編寫,因此此類文獻乃收集各種文本編輯而成。本專案的研究目的,除將佛寺志的珍貴史料數位典藏,廣為流傳之外,並將進行相關佛寺志的書目研究和標記作業,使之成為研究中國佛教歷史不可或缺的數位文獻。適逢財團法人中華佛學研究所推動「漢傳佛教之歷史與教義」研究,本專案有幸獲得該研究經費贊助,執行期間從2008年1月至2010年12月。 有關佛寺志的收集,主要來源為20世紀所印刷的兩套木刻版:
*Zhongguo Fosi Shizhi Huikan 《中國佛寺史志彙刊》 Taipei, 1980-1985. Compiled by Du Jiexiang 杜潔祥. 110vols *Zhongguo fosizhi congkan 《中國佛寺志叢刊》 Hangzhou: Guangling shushe 廣陵書社 2006. Compiled by Zhang Zhi 張智.130 vols.
本專案預計於2010年之前,將完成超過200座寺志的數位化作業,並公開圖檔資料提供大眾免費使用,其中,至少有12座寺志將提供加上人物、時間與地點標記的數位化全文,同時,在本專案中所識別的人物、時間與地點之資料,將與其他專案的相同資料一併整合至本校「佛學規範資料庫Buddhist Authority Database」之中。除此之外,本專案至2011年之前,將完成相關佛寺志書目研究和標記作業,以提升本典藏之應用價值。
預算及人力
預算:
此專案預計執行年度為97~99,共計3年,由中華佛學研究所贊助。
第一年經費NT$57,000
第二年經費NT$1,094,942
第三年經費NT$1,024,380
人力:
程式設計 1人
時程控管 1人
目錄及經緯度建立 1人
標記人員 3人
後設資料建置人員 1人
義工 1人
執行單位
執行單位:法鼓佛教學院數位典藏組
負責人:馬德偉 Marcus Bingenheimer
進度及預算控管:柯春玉
程式及介面撰寫:花金地、李志賢、周邦信
標記:林智妙、林綉麗、王秀雯、游美燕、彭川芩、何易儒、釋道厚、張聖豔
權威資料庫:闕慧貞、葛賢敏
各志特色
1. 九華山志 [1]
2. 天台山方外志(1~3) [2]
3. 玉岑山慧因高麗華嚴教寺志 [3]
4. 明州阿育王山志.續志 [4]
5. 泉州開元寺志 [5]
6. 重修普陀山志 [6]
7. 峨嵋山志 [7]
8. 清涼山志 [8]
9. 寒山寺志 [9]
10. 普陀洛迦新志(1~2) [10]
11. 黃檗山志 [11]
12. 雞足山志(1~2) [12]
工具
使用工具
佛寺志工作網頁
* 中國佛寺志(法鼓內部) http://dev.ddbc.edu.tw/fosizhi/ui.html * 中國佛寺志首頁(法鼓) http://dev.ddbc.edu.tw/fosizhi/ * 中國佛寺志首頁(逢甲) http://buddhistinformatics.ddbc.edu.tw/fosizhi/ * 佛寺志檔案上傳 http://dev.ddbc.edu.tw/fosizhi/upload/index.php * 佛寺志節點更新 http://dev.ddbc.edu.tw/fosizhi/exeQuery.php?getTreeJson=yes * 佛寺志缺字資料庫 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq * 佛寺志掃描圖檔 http://buddhistinformatics.ddbc.edu.tw/fosizhi/jpegs/ * 普陀山志目錄比對 http://dev.ddbc.edu.tw/putuoshan/admin/
規範資料庫
* 規範資料庫首頁(逢甲) http://authority.ddbc.edu.tw/ * 規範資料庫首頁(法鼓) http://dev.ddbc.edu.tw/authority/ * 人名規範資料庫(法鼓) http://dev.ddbc.edu.tw/authority/person/ * 地名規範資料庫(法鼓) http://dev.ddbc.edu.tw/authority/place/ * 時間規範資料庫(法鼓) http://dev.ddbc.edu.tw/authority/time/ * 法鼓愛搜尋 http://isearch.ddbc.edu.tw/
工作手冊
* Wiki新手寫作指南 * Blog 示範 - DDBC Wiki * 中國佛寺史志工作手冊 * 佛學規範資料庫工作手冊 * 佛學規範資料庫問答 * GIS《高僧傳》工作手冊
TEI 網站
* P5:TEI指引 http://www.tei-c.org/release/doc/tei-p5-doc/zh-tw/html/ * TEI Elements http://www.tei-c.org/release/doc/tei-p5-doc/zh-tw/html/REF-ELEMENTS.html * TEI Lite http://www.tei-c.org/Guidelines/Customization/Lite/ * TEI Lite(中文版)http://www.sinica.edu.tw/~metadata/standard/rarebook/TEI921224/index_c.htm * Roma http://www.tei-c.org/Roma/ * teiWorkshop http://buddhistinformatics.chibs.edu.tw/~mb/webclassmb/teiWorkshop/indexTei.html * TEI(P4)核心元素一覽表 http://www.sinica.edu.tw/~metadata/standard/rarebook/TEIelements-core.htm
Unicode
* unicode網站 http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6b35 * Unicode-維基百科 http://zh.wikipedia.org/w/index.php?title=UTF&variant=zh-tw * UTF-8-維基百科 http://zh.wikipedia.org/w/index.php?title=UTF-8&variant=zh-tw * 字符編碼理解 http://www.donews.net/holen/archive/2004/11/30/188182.aspx * Unicode字符平面映射 http://zh.wikipedia.org/zh-hk/Unicode%E5%AD%97%E7%AC%A6%E5%B9%B3%E9%9D%A2%E6%98%A0%E5%B0%84
漢字處理
* 缺字SOP流程 http://wiki.ddbc.edu.tw/pages/%E5%9C%96%E7%89%87:FSOP.jpg * CBETA組字式規則 http://www.cbeta.org/data-format/rare-rule.htm * 別譯雜阿含缺字檔 http://buddhistinformatics.chibs.edu.tw/BZA/gaijiPron.html * 嘉興藏缺字處理參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php * 古籍數位化中的漢字處理問題 http://artvine.org/forum/index.php?topic=617.0 * 文獻處理實驗室 http://cdp.sinica.edu.tw/download/dcatalog.htm
字辭典類
* CBETA字辭典資料網 http://dict.cbeta.org/word2/search.php * 教育部異體字字典: http://dict.variants.moe.edu.tw/suo.htm * 教育部重編國語辭典 http://dict.revised.moe.edu.tw/index.html * 全字庫 http://www.cns11643.gov.tw/web/index.jsp * 漢典:http://www.zdic.net/ * 漢字庫 http://www.cns11643.gov.tw/seeker/chinese/search-04.jsp * 在線新華字典 http://xh.5156edu.com/html4/8952.html * 書法字典 http://www.9610.com/zidian/index.asp * CHISE IDS 漢字検索 http://app.kita.zinbun.kyoto-u.ac.jp/ids-find * 佛典辭書數位檢索系統 http://140.112.26.229/cyj/index.py * 中華博物文字庫工具書 http://www.gg-art.com/article/tools_b.php * 佛門網 http://glossary.buddhistdoor.com/ * FODIAN 佛教辭典 http://fodian.goodweb.cn/fodict.asp * 中文字轉漢語拼音-1 http://www.iq-t.com/SYSCOM/pingying2.asp * 中文字轉漢語拼音-2 http://tdc.putonghuaonline.com/tools2.html * 繁簡轉換工具 http://tdc.putonghuaonline.com/tools3.html * 新同文堂(簡繁轉換) Firefox瀏覽器→工具→附加元件→取得附加元件→瀏覽所有附加元件→檢索「新同文堂」→新增至Firefox * OLDict http://zh-cn.oldict.com/ * FODIAN佛教辞典 http://fodian.goodweb.cn/ * 佛光大辭典第三版 http://etext.fgs.org.tw/etext6/search-1.htm
標點符號用法
* CBETA標點符號用法 http://www.cbeta.org/xb/table.htm * 教育部重訂標點符號手冊 http://www.edu.tw/files/site_content/M0001/hau/haushou.htm#suo * 重訂標點符號手冊 http://www.edu.tw/files/site_content/M0001/hau/haushou.htm#suo
人名查詢
* 清代檔案人名權威資料查詢 http://npmhost.npm.gov.tw/ttscgi/ttsweb?@0:0:1:mctauac::/tts/npmmeta/dblist.htm@@0.924019884790802 * 中華藝術家人名大辭典 http://www.chinese-artists.net/name/name.htm * 詩人檢索 http://poems.tang.net/ * 諡法及得諡人表 * 謚號_百度百科 http://baike.baidu.com/view/1072.htm * 中國歷代人物傳記資料庫 http://isites.harvard.edu/icb/icb.do?keyword=k35201&pageid=icb.page145374
地名查詢
* 中研院中華文明之時空架構 http://ccts.ascc.net/framework.php?lang=zh-tw * 中國古代地名大詞典 http://www.gg-art.com/dictionary/index_b.php?bookid=33 * Google 地圖 http://ditu.google.com/ * Google 地圖_大陸 http://ditu.google.com/ * MapABC 地圖網 http://www.mapabc.com/ * Sogou搜狗地圖 http://map.sogou.com/ * Get Lat Lon(獲取經緯度的地圖網) http://www.getlatlon.com/ * 中國歷史地理信息(有歷史地名釋文) http://yugong.fudan.edu.cn/Chgisii/CHGIS_PII.asp * 中国行政区划网 http://www.xzqh.org/index.htm
時間查詢
* 國家時間與頻率標準實驗室 http://www.stdtime.gov.tw/chinese/home.aspx * 中原標準時間 http://w3.tkgsh.tn.edu.tw/95c244/TIME.htm * 中研院兩千年中西曆轉換 http://sinocal.sinica.edu.tw/ * 中西曆對照查詢系統 http://thdl.ntu.edu.tw/datemap/index.php * 陸拓資訊萬年曆 http://time.rootinfo.com.tw/ * 爱词霸_万年历 http://hanyu.iciba.com/wannianli.html * 中国历代年表 http://kdd.cc/fl/lisi/ * 時間參照系統-時間軸庫 https://cga-download.hmdc.harvard.edu/publish_web/Geo_Tools/timeRS/ * 月份的名稱 http://tw.group.knowledge.yahoo.com/zeelandia-zeelandia/listitem/view?iid=114 * 月份的別稱 http://zh.wikipedia.org/w/index.php?title=%E8%BE%B2%E6%9B%86&variant=zh-tw#.E9.97.B0.E6.9C.88.E6.9C.88.E4.BB.BD * 干支 http://zh.wikipedia.org/w/index.php?title=%E5%B9%B2%E6%94%AF&variant=zh-tw
綜合查詢
* Authority書籤 http://share.foxmarks.com/folder/rss/osyCa6r9nX * oclc查詢系統(查詢出版品) http://www.worldcat.org/search?q=%E4%B9%9D%E8%8F%AF%E5%B1%B1%E5%BF%97&fq=dt%3Abks&dblist=638&qt=first_page * 國立編譯館學術名詞資訊網 http://terms.nict.gov.tw/search_b.php * 吳疆教授(亞利桑那大學東亞研究所,對中國佛寺志有鑽研) 網址 http://bgis.coh.arizona.edu/ 聯絡信箱 jiangwu@email.arizona.edu
古籍文獻資料庫
* 文淵閣四庫全書電子檔安裝(找圖書組櫂埕安裝) * 漢籍全文資料庫(二十五史) http://dbo.sinica.edu.tw/~tdbproj/handy1/index.html? * 中國古籍全錄(按經史子集收錄中國歷代古籍繕本) http://guji.artx.cn/ * 宋史研究網 http://www.ihp.sinica.edu.tw/~twsung/scholar/scholarframe.html * 宋史檢索 http://www.ihp.sinica.edu.tw/~twsung/search/search.html * 數位資源數據庫 http://www.ddbc.edu.tw/zh/metalib_sfx/e_resource.html * 中國大陸各省地方志書目查詢系統 http://webgis.sinica.edu.tw/place/
學校相關網頁
* 法鼓佛教學院首頁 http://www.ddbc.edu.tw/ * DDBC_library http://licbib.ddbc.edu.tw/F?RN=411815122 * DDBC_Moodle http://moodle.ddbc.edu.tw/ * DDBC_Wiki http://wiki.ddbc.edu.tw/pages/ * DDBC_gmail 學校首頁→資訊服務入口→網頁郵件系統 * DDBC_calendar 學校首頁→資訊服務入口→網頁郵件系統→登入信箱→日曆 * 法鼓山內部資訊網 http://w1.omtf.pl/
在Y公共磁碟區上的工具檔 Y:\Projects\fosizhi\work\tools
* 漢語大辭典 accelon3-dict * 清除折行多餘空格軟體 cleanBK * 檔案總管 freecommander * 裁圖軟體 GIMP * 搜狗拚音輸入法(可用漢語拚音輸入) * 出版物標點符號用法規範 * 批次更名工具 UltraRename28b * FTP上傳 名稱:fosizhi, 主機地址:dev.ddbc.edu.tw
操作技巧
幾個快捷技巧: Alt+ Tab 切換文件 Ctrl+ R 重新整理網頁
在Oxygen下: Ctrl+ E 下標記 Ctrl+Shift+ V valid驗證 Ctrl+Shift+ W well form 驗證 Ctrl+Shift+ < 加註;取消註
在Oxygen xpath下:(Perspective → Show Toolbar → XPath) //pb → 找所有<pb>(同理可推:找placeName---) //pb[@='0100'] → 找第100頁 //persName[.='名字'] → 找出某人名
使xml文件標記元素、屬性呈現中文化解說的方法 在xml文件內→ 點選功能列上Document→ XML Document→ Associate Schema →RelaxNG Schema(Compact syntax),URL選用新的Schema→ok 在文件首便會出現新增的聯繫<?oxygen RNGSchema="../../schema/gazetteers.rnc" type="compact"?> 而後,標記時,當打"上角括",其所出現的元素表,每一個元素將會有中文解釋。 或者,將游標移到元素或屬性上時,也會出現中文解釋。
工作準備
1. 進行新一本寺志標記前,應先找好該志的相關參考資料,例如:白話本、標逗本等。 2. 凡可用程式一併處理的工作,就不一一手動作業。
All Tag 使用說明
| Tag | 用法 |
|---|---|
| byline | 署名 |
| corr | 勘字 |
| div | 文本正文前資訊、正文、及正文後的分段 |
| docAuthor | 題名頁的作者 |
| cell | 表格 |
| figure | 圖檔標記法 |
| figDesc | 圖檔的圖說標記法 |
| g | 缺字標記 |
| gap | 文字漏段或無法辨認時 |
| graphic | 參考圖檔或圖檔內有文字標記法 |
| head | 標題<head>的標法 |
| item | 連續數字的標法 |
| lg | 詩節、疊句、韻文段落等 |
| l | 詩節、疊句、韻文段落等 |
| list | 連續數字的標法 |
| lb | 新起一行 |
| note | 註解 |
| orig | 通用字標記用法1 |
| pb | 頁碼標法 |
| p | 段落 |
| ptr | 文字加連結的註解 |
| persName | 人名 |
| placeName | 地名 |
| reg | 通用字標記用法2 |
| roleName | 角色或尊稱 |
| ref | 代名詞 缺字標記 |
| space | 英或中文字的距離 |
| seg | 縮小字 |
| sic | 訛字 |
執行步驟
叢書目錄及地理資訊建立
叢書目錄
1. 明丹本共110冊,廣陵本共130冊,目錄檔路徑:
Y:\Projects\fosizhi\master-data\catalog\gazetteerCatalog.xml
2. 明丹本與廣陵本版本分析,檔案路徑:
Y:\Projects\fosizhi\master-data\catalog\catalogGazetteers_main.xml
地理資訊
1. 明丹本檔案路徑:
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfsh.xml
2. 廣陵本檔案路徑:
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfc.xml
外包打字及轉加粗標
● 外包打字前置作業(春玉) 影印文本:標記用 ● 外包打字(以掃瞄檔給打字公司,不用給影印本) 檔案路徑: 1.https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AvNiyYs1TA4idGtaOUJWdldPcy1IclNpN1hmTi1YNlE&hl=zh_TW 2. https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AuvdMMzuEgeWcHktTUNsODNlWWhIbC1XWWQ4RkJjRkE&hl=zh_TW ● 轉粗標:H, pb, P(春玉、小花)
掃瞄
* 選擇掃瞄檔案儲存為Tiff * 解析度為400dpi 像素是 1945x2992 * 8 bits 灰階。( 不是黑白 ) * Tiff 轉 jpg(網頁用) * Jpg 為 Tif的4/1 像素是 486x768 * jpg檔加浮水印 * 切邊 * 明丹本掃瞄明細:https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AvNiyYs1TA4idGtaOUJWdldPcy1IclNpN1hmTi1YNlE&hl=zh_TW * 廣陵本掃瞄明細:https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AvNiyYs1TA4icDJXeXRzRF9JNHJUcW5aczR0a1JaRnc&hl=zh_TW * 檔案: Y:\Projects\fosizhi\images\ * 處理人員:伯雍
Metadata 建置
* 建立掃瞄 Tiff 數位圖檔的 Metadata
* 一本佛寺志各頁的掃瞄圖檔放在同一資料夾
* 一本佛寺志掃瞄圖檔資料夾對應一個 Metadata 的檔案
* Metadata檔案內依序記錄每張掃瞄圖檔之資訊
* 每張圖檔資訊記於一組<div></div>
* 檔案放在: Y:\Projects\fosizhi\gazetteerTxt\
* 處理人員:家名,秀雯,琇麗,小花
(一)內容說明:
<div n="1Book005/1B005P011">
<list>
<item n="1">1B005P011</item>
<item n="2">內文</item>
<item n="3">金陵梵刹志-金陵梵刹志卷二十二-放生池記</item>
<item n="4">g006p0978</item>
<item n="5">放生池</item>
</list>
</div>
A.<item n="1">1B005P011</item>
1)指數位圖檔的檔名。
2)每一頁都有一個數位圖檔。
B.<item n="2">內文</item>
1)志文分成5個分類:a)書名頁或題詞 b)版本說明 c)目錄 d)內文 e)圖 f)空頁。
注意:a)古文內的目錄,分類屬"內文",標題則作"目錄"。
(因古籍內的目錄有頁碼,屬古籍內文的一份部,頁碼為g***p****。)
b)空頁:指全部空白。若有格線,只是沒有文字的話,則作"內文"類。
C.<item n="3">金陵梵刹志-金陵梵刹志卷二十二-放生池記</item>
1)每頁的標題。
2)以「-」(dash)表達漸層關係。
3)以「/」(slash)隔開同一頁上的不同標題。
4)若是空白頁,無標題,以”none”表示。
D.<item n="4">g006p0978</item>
1)頁碼:前3碼為志碼,後4碼為內文本身的頁碼。
2)頁碼種類如下:
a)書名頁頁碼(f+1碼數字):g***f*
b)版本說明頁碼(無頁碼):g***p0000a
c)目錄頁碼(c+3碼數字):g***c***
d)內文頁碼(p+4碼數字):g***p****
注意:1)頁碼都以小寫表達,組成方式是:[志碼+頁碼]
2)若插圖無頁碼,則以[前一頁的頁碼+英文字母]。
3)需另外記錄插圖的數目,以作統計使用。
4)無頁碼的編碼原則:前一頁頁碼+英文字母。
a)舉例:
g***p0011
無頁碼-----------則編為:g***p0011a
g***p0012
b)版本說明,因無前一頁,故編為:g***p0000a
E.<item n="5">放生池</item>
1)"可辨識"的前三個字,從每一頁的右上角數過來。
2)若無前3個字,如空白頁,則以"none"表示。
3)若遇糢糊不清的字,則向下遞補,取可辨識的字。(Sophia 10-14-2009 updated according to小花's saying.)
(二)注意:
1)每一個數位檔都需對照文本,以確定數位檔沒有lost,
若有任何一個lost,則後面所有的metadata資料無法與圖檔對照起來。
2)若有數位檔檔lost的部份,請與伯雍聯繫,請他更正補上。
(三)缺字:
1)至cbeta漢字工具,教育部異體字網站,unicode查找。
2)若無法貼上,需作缺字庫。(事後決議用通用字或組字式。updated by Sophia 2010-03)
(四)完成檔案:
1)以.txt 存於 Y:\Projects\fosizhi\images\Temple_Gazetteers_Tiff
與佛寺志的數位圖檔放在一起。
2)每一個資料夾對應一個Metadata的檔案。
3)資料夾 1Book001 表佛寺志第一輯的第一本數位圖檔,對應1Book001.txt
(updated by Sophia 2009-06-25)
Metadata 目錄處理原則
1.皇明觀志metadata 會議結論:將佛寺志序、前言及總目錄全拿掉,不放在metadata。(秀麗 99.03.17)
Metadata 明丹本與廣陵本更正項目
小花建議:
1)原稿缺須用中括號括起來,前面要加樹狀結構。(前三個字亦要用中括號括起來)
ex: <item n="1">1B043P290</item>
<item n="2">內文</item>
<item n="3">鶴林寺志-鶴林寺志卷之十二-[原槁缺]</item>
<item n="4">g045p0005</item>
<item n="5">[原稿缺]</item>
2)把分類"杜目錄"變更回"目錄"。如下:
<item n="2">杜目錄</item> --> <item n="2">目錄</item>
3)空頁的head <item n="3">none 亦須加上樹狀結構,不作none,
用上頁的head,如下:(共292個 + 非空頁但標題為none,僅限內文類。)
<item n="1">1B009P087</item>
<item n="2">空頁</item>
<item n="3">重修普陀山志-普陀山志卷一-普陀寺殿圖</item>
<item n="4">g008p0068</item>
<item n="5">none</item>
a)書名頁,目錄,及版本說明的<item n="3">none,由小花處理。
b)先search 空頁,再search none.(none有487個,空頁有292個 + 非空頁但標題為none,)
4)補上g027 xml (內文第一頁須加上 type="first)
<div n="1Book028/1B028P311" type="first">
<list>
<item n="1">1B028P311</item>
<item n="2">內文</item>
<item n="3">雲棲紀事</item>
<item n="4">g027p0001</item>
<item n="5">孝義無</item>
</list>
</div>
5)內文的p.1大部份皆為標題名,亦須加上樹狀結構,即志名(type="first"),約100+個。
6)缺字的部份[?],補上通用字或組字式。若有脫字的部份用<gap/>表示。(明丹本共有880個缺字,其他符號表示的缺字約有400-500)
7)同一頁有不同層級的title,如下:
<item n="3">天童寺志-天童寺志卷三-先覺攷-宋-月窗圓禪師/元-環溪一禪師/月坡明禪師</item>
<item n="4">g012p0231</item>
改成:用半形的分號隔開,下面的標題作完整的樹狀結構。
<item n="3">
天童寺志-天童寺志卷三-先覺攷-宋-月窗圓禪師;
天童寺志-天童寺志卷三-先覺攷-元-環溪一禪師/月坡明禪師
</item>
<item n="4">g012p0231</item>
8)g056後之附編一梁京寺記,頁碼為1-4;附編二寺塔記,頁碼為1-6。
若照書編,會有頁碼double的問題,故將頁碼續編,為g056p0115~124。(小花建議, 2010/06/07)
小花需處理的問題:
1)書名頁,目錄及版本說明的<item n="3">none,由小花加上樹狀結構。
2)書名頁及目錄的title,小花要用程式加上志名。(每一筆資料皆須志名)
3)圖檔切太多:
1B042107(頂頭,無匡線),108(少一個字),109(頂頭,無匡線),110(頂頭,無匡線),1B042P639(頂頭,無匡線) 3B023P289(少一個字),2B008P208(圖上面的title不見了)
9)有插圖,貢碼為[前一頁頁碼+英文字母]的部份,將<item n="2">的內容,補上括號”( )”,以與版本說明,亦為[頁碼+英文字母]作為區別。
<div n="1Book015/1B015P050">
<list>
<item n="1">1B015P050</item>
<item n="2">(圖)</item>
<item n="3">七塔寺志-七塔寺志卷之一-志圖記-七墖報恩禪寺平面全圖</item> <item n="4">g013p0036a</item>
<item n="5">七墖報</item>
10)同一頁有兩個以上標題,而第二個標題的內容跨頁時,則目錄上的標題有double的現象。解決方式,第二個標題前加上分號”;”,且作一個完整的樹狀結構。
<div n="1Book001/1B001P078">
<list>
<item n="1">1B001P078</item>
<item n="2">內文</item>
<item n="3">洛陽伽藍記-洛陽城東伽藍記卷第二-莊嚴寺;洛陽伽藍記-洛陽城東伽藍記卷第二-莊嚴寺秦太上君寺</item> <item n="4">g001p0069</item>
<item n="5">以石為</item>
11)組字式內有slash出現時,如:[*/*],將slash改成全形,以與標題的slash作為區別。
<div n="1Book026/1B026P151">
<list>
<item n="1">1B026P151</item>
<item n="2">內文</item>
<item n="3">杭州上天竺講寺志-杭州上天竺講寺志卷之五-尊宿住持品-別傳-[鼓/耳]菴法師/天岸法師</item> <item n="4">g024p0128</item>
<item n="5">柳公貫</item>
Metadata 問題與解答
1.目前的 type (書名頁;版本說明;目錄;內文),是否還要再加一個 "圖"的type?---可,
type多增加一個圖&空頁
2. 若內文的漸層超過 3 個以上,是否只取前 3 個即可?---越詳細越好(make sense)
3. 前3個字若有一字印刷模糊或者難以辨識,是否可跳過?----以[?]表示
4.版本說明及內文插圖無頁碼?
版本說明的頁碼:g***none; 內文插圖的頁碼:none (不作g,以跟版本說明作區別)(110冊約只有3~4個無頁碼)
5.若是空白頁,標題及末3個字處,統一以"none"表示。
6.在作metadata時,有些圖檔捨棄不用的原因有:
如:g008中,內文頁碼的起始為p3,p3之前掃了4頁,有兩頁是title,另兩頁是空白頁。
只能取用兩頁編為p1,p2,另兩頁的空白頁只好沒有編入metadata,原因是沒有頁碼
可以使用。(Sophia 2010-3-16)
7.metadata中,佛寺志圖檔檔名流水號沒有連續的原因是,同一頁double掃瞄了二次,
告知伯雍後,delete掉double的部份,故部份的流水號沒有連續。(約有十幾頁左右)(Sophia 2010-3-16)
8. 原稿缺的表遠方式:
a)原稿缺的確不是一個tilte,所以最好是作none。
b)但若想要表達出原稿缺這個問題,但它又不是
一個tilte ,即不可作樹狀結構,所以我只作"
原稿缺",而無樹狀結構。(Sophia 2010-3-16)
A:開會討論如下,用中括號匡起來。
<div n="1Book043/1B043P345">
<list>
<item n="1">1B043P345</item>
<item n="2">內文</item>
<item n="3">﹝原稿缺﹞</item>
<item n="4">g045p0060</item>
<item n="5">﹝原稿缺﹞</item>
</list>
</div>
9.每一筆資料是否需加志名?(小花提的問題)
<div n="1Book023/1B023P021">
<list>
<item n="1">1B023P021</item>
<item n="2">目錄</item>
<item n="3">靈隱寺志詳目</item> (靈隱寺志-靈隱寺志詳目)(小花建議)
<item n="4">g021c018</item>
<item n="5">靈隱寺</item>
</list>
</div>
a)請注意:只有內文的title才有樹狀結構,其他部份,如目錄,或書名頁並沒有作樹狀結構,
這是當初製作的標準,所以這並不是一個錯誤。目錄及書名頁並沒有第幾卷的問題,也就是說並
沒有繁複的層級問題,那是否有作樹狀結構的必要呢?(Sophia 2010-3-16)
10.metadata標題脫漏字的表達方式:(Sophia 3-23)
a)用一個全形空格。(小花建議)
b)用一個□。
c)下標記<gap extent="1" unit="chars" reason="lost"/>
A:開會決議用c) (小花事後建議用 <gap/> )
11.當文本屬性"不分卷"時,樹狀結構如何產出?
(1)依內文屬性責成標題。
(2)如無法責成標題,而自編標題,須加上括弧號{}註明,例如:
<div n="4Book002/4B002P005" type="first">
<list>
<item n="1">4B002P005</item>
<item n="2">內文</item>
<item n="3">北京廟宇征存錄-{李圓淨序}/{吳百之序}</item>
<item n="4">y003p0001</item>
<item n="5">北京廟</item>
</list>
</div>
(小花跑程式,將括弧號{}轉換中括號[])
(3)文本"不分卷",因較難產出樹狀結構之層級。惟忠於文本架構,即使到第二層級,也可行。
12.標題如出現簡體字時,是以繁體字為準?
不轉換繁體字,仍以簡體字為準。
13.內文同時附有圖表,如何處理?
同時做內文與圖表之標題,但以"分號"區分。文本分類屬內文,例如:
<div n="4Book008/4B008P437">
<list>
<item n="1">4B008P437</item>
<item n="2">內文</item>
<item n="3">大同武州石窟寺記-支那山西雲岡石窟寺-第二章石窟寺之現狀-大佛殿窟;大同武州石窟寺記-支那山西雲岡石窟寺-第二章石窟寺之現狀-大佛殿平面圖</item>
<item n="4">y014p0035</item>
<item n="5">立千仞</item>
</list>
</div>
14.插圖與版本說明的頁碼"a"是如何作區別的?ex:g009p0030a為圖,但左方結構顯示為版本說明。(2010-9-8)
加上括孤以為區別,如:<item n="2">(圖)</item>
metadata 檔案匯入MIX標記架構內
MIX架構含:head, mix, map 處理人員:小花
標記(詳見7標記作業)
XML驗證
1Well-form驗證(檢驗文件的標記元素及形式是否正確)
方法:在Oxygen功能列上點選「藍勾勾」
1)若格式正確,則會在文件的右下方出現「綠方格Document is well formed.」訊息。
2)若格式不正確,則會在文件的右下方出現「紅方格Wellformed test - failed. Errors:」訊息,
且在文件下方會列出錯處清單,此時點選條列清單,即可對應到文件的錯區,逐一除錯即可。
ps. 文件若要上傳到FTP,務必得Document is well formed.才能上傳成功。
2Valid驗證(檢驗文件的標記是否符合TEI語法及專案特定的格式)
此項驗證,需借助一支驗證程式(schema):gazetteers.rnc
程式存放路徑 Y:\Projects\fosizhi\master-data\schema\gazetteers.rnc
步驟:a)在main檔中,Oxygen功能列上點選「紅勾勾旁的倒三角形」
(若未看到紅勾勾,點選功能列上Document→valid→External validation)
b)下拉選單選External validation
c)在validate with 視窗選擇RelaxNG schema,及選擇Compact syntax 模式
d)於URL選擇schema存放路徑
e)按OK
1)若語法正確,則會在文件的右下方出現「綠方格Validation successful」訊息。
2)若語法不正確,則會在文件的右下方出現「紅方格Validtion failed.」訊息,
且在文件下方會列出錯處清單,此時點選條列清單,即可對應到文件的錯區,逐一除錯即可。
規範資料驗證
步驟:1) 若要一次確認多個檔案,請先將XML文本壓縮為.ZIP格式。
2) 在佛學規範資料庫首頁以帳號密碼登入資料庫管理介面
3) 選擇您要進入的部份:5.權威碼檢查
4) 選擇檔案
5) 選擇文本形式:佛寺志
6)(打勾)若驗證成功,自動更新權威資料庫參考
7) 確定
8) 若驗證未成功,則依提示回到文本進行除錯修改,然後再重覆步驟5-7
9) 若驗證成功,則資料庫將會自動更新occurs in
occured in 呈現在規範資料庫中的原則 1. 不同志,有別名=每一筆都會出現 2. 不同志,同名=每一筆都會出現 3. 同志,有別名=每一筆都會出現 4. 同志,不同卷,同名=只會出現第一筆
上傳到FTP
1上傳文本 步驟:1) 先要設定FTP路徑(Freecommand有預設FTP連線功能)
FTP路徑 ftp://dev.ddbc.edu.tw/fosizhi_eXist (第一次使用者以登入學校信箱的帳號密碼登入) 2) 將欲上傳的檔案,複製貼到ftp://dev.ddbc.edu.tw/fosizhi_eXist中 3) 打開上傳網頁http://dev.ddbc.edu.tw/fosizhi/upload/index.php (登入網頁帳號fosizhi,密碼amituofo) 4) 點選"重新檢視"(將會看到預備上傳的檔案) 5) 點選"上傳XML" 6) 若上傳成功,將出現Upload successful!的訊息 7) 回到佛寺志網頁http://dev.ddbc.edu.tw/fosizhi/ui.html 重新載入最新的網頁內容,即可看到更新的資料。
2更新節點 步驟:1) 打開節點上傳網頁http://dev.ddbc.edu.tw/fosizhi/exeQuery.php?getTreeJson=yes
2) 點選欲更新節點的志碼
3) 稍候片刻,若更新成功,將可看到「資料已寫入/data/projects/fosizhi......」的訊息
4) 回到佛寺志網頁http://dev.ddbc.edu.tw/fosizhi/ui.html
重新載入最新的網頁內容,即可看到更新的節點。
xml轉html
安裝oxygen 9.1 由gxxx_main.xml主檔 呼叫html.xsl
1.開啟gxxx_main.xml主檔,點Configure Transformation Scenario鈕(鉗子+小紅三角形) 進入轉檔介面,選New(第一次建立html檔後, 若所設定的路徑都沒變動的話,以後直接點Transformation now即可; 若有要更改路徑的話,點Edit進入介面去修改即可) 2.進入Edit scenario 介面 a)點XSLT,在XSL URL欄,點選html.xsl檔案的置放路徑(J:\CND\Projects\2008BTG佛寺志\work\標記\標記進行中\html.xsl) b)點Output,在Save As欄點選html檔案的置放路徑,為html檔命名,然後點OK 3.此時進入到下一個介面,點Transform now,即可產生html檔案 4.轉檔不成功時:修改option/preference/xml/xml parser/xinclude option中有3個選項全打勾
安裝 exist.jnlp 上傳檔案
1. * 沒有java要先安裝(t/java/jdk/jdk-6-windows-i586.exe)
2. 啟動 exist.jnlp 檔才能上傳維護
3. 上傳前具備條件:
(1)main主檔要經valid驗證 --紅勾勾
(2)其他子檔要well form--藍勾勾
4. Uaername:btg → Password:btg →確定
5. 點選BTG(快點兩下)→點選xml(快點兩下)
6. 若要上傳整冊,切勿點選冊數,而要直接點擊工具列上面的 新增icon(+)
找到來源檔案(整冊)→Select files or directories store →Close
7. 若要上傳單卷
請點選冊數,進入冊數後切勿點選分卷,而要直接點擊工具列上面的 新增icon(+)
找到來源檔案(單卷)→Select files or directories store →Close
建立參考書目
●參考書目人名與書名的中英文寫法<author><hi>Wei</hi> Songshan 魏嵩山</author><title>Zhong Guo Lishi Diming Dacidian 中國歷史地名大辭典</title>
●內文「註」的參考書目寫法(april 9/3)例如:趙一新總編。《杭州佛教文獻叢刊‧慧因寺志》卷七。 (杭州出版社,年代) 參考網址 http://www.ddbc.edu.tw/zh/academic_publishing/submissions_format.html
●存放路徑 Y:\Projects\fosizhi\gazetteerXml\bibliography\gazetteerBibl.XML
● 處理人員:參與此專案有參考到任何書籍者
標記作業
標記總說
1.本專案將以TEI-XML格式進行作業,對於文本中的人名、地名、時間皆加以標記及建置資料庫,
旨在提供高質量的數位化全文。
2.數位化的文本也將加入新式標點符號。
3.文本中的難檢字將採用Unicode字符,
若於Unicode字庫中尚未收錄的字,則將改以同義異體字代替,或者建立缺字檔。
4.TEI標記元素的型態,可大分為「意義標記」與「樣式標記」。
「意義標記」著重在付予文字意義,例如:<persName>人名。
「樣式標記」著重在呈現的樣貌,例如:<lb/>(折行)。
TEI-XML標記著重於「意義標記」,而文本呈現的樣貌則多操縱於XSLT。
檔案架構
《中國佛寺史志》以「志」為單位,每一部志皆有一代碼(例:重修普陀山志代碼g008)。 每一志皆由一個主檔(例:重修普陀山志的主檔g008_main) 及數個小檔(以卷為單位,例:重修普陀山志卷一g008_01)組成。 主檔內寫有版本資訊及小檔的鍊結,小檔內則是各卷的內容。
標記說明
一、頁碼
1 頁碼放置的位置:置於<div>與<head>之間。
例1:<div xml:id="g008_00.xml" xmlns="http://www.tei-c.org/ns/1.0">
<pb facs="1B009P003.jpg" n="0000a"/>
<head resp="ddbc.da">普陀山志卷前</head>
例2:<div>
<pb facs="1B009P022.jpg" n="0003"/>
<head>重修普陀志叙</head>
2 版本說明頁的頁碼、卷之前無頁碼的頁碼
格式:第一頁0000a,第二頁0000b,第三頁0000c
例:<div>
<pb facs="1B009P003.jpg" n="0000a"/>
<head resp="ddbc.da">版本說明</head>
ps.由於卷首需要一個頁碼,因此「版本說明」的頁碼會被挪移到當卷第一個<head>之前。
(見頁碼放置的位置例1)
3 插圖頁的頁碼
格式:插圖前頁頁碼+a
例:<pb facs="xBxxxPxxx n="0123a""/>
4 空白頁
需標上當頁頁碼
例:<pb facs="1B009P043.jpg" n="0024"/>
二、標題
1 標題的標法
● <head>標題</head>
● <head>標題</head><byline><persName>作者</persName></byline>
● <head resp="ddbc.da">自加標題</head>
● <head>標題<seg rend="font-size:small">副標題</seg></head>
2 說明
(1)若篇章缺乏標題者,可「自訂標題」。
自加的標題將會出現在網頁左欄的樹狀目錄結構上,並程式會自動加上括弧,
以與文本上實有的標題區分。但自加的標題不會呈現在網頁全文化的內文中。
文本標記的格式:<head resp="ddbc.da">自加的標題</head>
網頁樹狀目錄所呈現的樣式:(自加的標題)
(2)標題後的副標題,可以<seg>(隨機分割)標記之。
例:<div><head>大安禪師<seg rend="font-size:small">上堂一則 機緣二則</seg></head>
#<seg>(隨機分割)包含文件中任何隨機字詞層次的單元(包括其他分割元素)。
3 標題亦可加新式標點符號。
三、人名
1 人名規範資料的建置(若欲建檔,請先以帳號密碼登入)
● 人名規範資料庫網頁 http://dev.ddbc.edu.tw/authority/person/ ● 人名規範資料建檔方式,請參閱「佛學規範資料庫」工作手冊 編輯「人名規範資料庫」 ● 人名規範資料的問題討論,請參閱「佛學規範資料庫」答客問
2 人名標記 <xml code>標法:
<persName key="Axxxxxx">某某某</persName>
<persName key="unknown">未知的人名</persName>
<persName key="Gxxxxxx">人名群組</persName>
<roleName>稱謂</roleName>(須包在<persName>內)
<roleName type="honorific">尊稱</roleName>(須包在<persName>內)
<name>族姓</name>
</xml>
3 人名標記凡例
| 稱謂型態 | 凡例 | 標記 |
|---|---|---|
| 官稱 |
|
|
| 地名當人名 |
|
|
| 連名 |
|
|
| 子 |
|
|
| 兒 |
|
|
| 公 |
|
|
| 氏 |
|
|
| 師、本師 |
|
|
| 大士、菩薩 |
|
|
| 山人 |
|
|
| 上人 |
|
|
| 老 |
|
|
| 老人 |
|
|
| 翁 |
|
|
| 先生 |
|
|
| 夫人 |
|
|
| 諡號 |
|
|
| 皇帝(皇后) |
|
|
| 帥 |
|
|
| 君 |
|
|
| 諱 |
|
|
4 人名規範資料建檔注意事項
(1)名字:
a)常名、別名請冠上姓氏,以便利檢索。
b)每一語系中,應有一常名,餘則為別名。
(2)缺字:人名中有缺字時,人名欄位以通用字表示。
(3)朝代:以此人的卒年為依。
(4)籍貫:其地名朝代以此人的生年為依。
(5)生卒年
a)生年的計算:生年=卒年-歲壽+1
b)生卒年的取捨:若資料來源有干支年及西元年,以取干支年為準。
例:重顯(980~1052),宋代雲門宗僧。於皇祐四年入寂。
建檔時,卒年取皇祐四年(1052-02-04~1053-01-22),而不用1052年(1052-01-01~1052-12-31)。
(6)是否為歷史人物:若非歷史人物,則在此欄位勾「否」。
(7)註解:
a)以120個字為限(阿拉伯數字不算字數,標點符號算字數),並請使用全形標點符號。
b)若此人查不到生卒年,則應在註解欄的資料中盡可能節錄相關人事物的時間參考點。
c)僧人註解資料的基本要件:師承、師兄弟、著作、法嗣、事件時間。
d)引用資料,盡量以紙本、藏經或佛學辭典為優先。
使用網路資料時,應注意留存穩定性較高的網址;論壇及新聞網等更新率較高的網址,請斟酌引用。
e)引用資料時須註明資料來源。出處的作用:1).說明資料來源 2).幫助使用者搜尋(Finding Aid)
f)「佛學規範資料庫」對於經常引用的參考工具書編有「簡稱」,引用這些參考書時請以這些「簡稱」為依。
g)Occurs in是經由「權威碼檢查」驗證、上傳後所自動產生的。
(8)若是查詢不到任何資料的人名,請不用收錄至規範資料庫。(文本上標 key="unknown" 即可)
5 人名標記規則
(1)文本中出現的人名,皆應標記。(包括書名號內的人名)
(2)標題後的人名是「作者」時的標法
<head>標題</head><byline><persName key="Axxxxxx">作者名</persname></byline>
(<byline>:包含作品的主要責任陳述,出現在題名頁或作品開頭或結尾處即署名之意。)
(3)遇人名不確定是否為某人時,可加屬性值標示。
例:<persName key="A001606" cert="70%">
cert是表示標記者認為的正確度,是相對值,非絕對的。
(4)非人,非人界皆要標記。(2011/1/27回函決議)
四、地名
1 地名規範資料的建置(若欲建檔,請先以帳號密碼登入)
● 地名規範資料庫網頁 http://dev.ddbc.edu.tw/authority/place/ ● 地名規範資料建檔方式,請參閱「佛學規範資料庫」工作手冊 編輯「地名規範資料庫」 ● 地名規範資料的問題討論,請參閱「佛學規範資料庫」答客問
2 地名標記 <xml code>標法:
<placeName key="xxxxxxxxxxxxxx">地名</placeName> <placeName key="unknown">未知的地名</placeName> <placeName key="xxxxxxxxxGxxxx">地名群組</placeName></xml>
3 地名標記凡例
| 型態 | 凡例 | 標記 | |
|---|---|---|---|
| 單純行政區地名 | 杭州 | <placeName key="CN0330103Z19AA">杭州</placeName>
(需配合文意而選擇朝代別) | |
| 單純自然區地名 | 普陀山 | <placeName key="CN0330903M01AA">普陀山</placeName> | |
| 連名 | 四川峨眉縣 | <placeName key="CN0511181Z02AA">四川峨眉縣</placeName>
(以連名的最小地點為其ID) | |
| 地名中含人名 | 遂賜額曰「天花尊者開巖院」 | <placeName key="CN0331023T57AA"><persName key="unknown">天花尊者</persName>開巖院</placeName> | |
| 寺內建築:一般 | 大雄寶殿、放生池 | 文本不標,資料庫不建 | |
| 寺內建築:具特殊意義 | 阿育王寺舍利塔殿 | 文本應標,資料庫應建 | |
| 地名群組 | 五嶽 | <placeName key="CN0000000G07AA">五嶽</placeName> |
4 地名規範資料建檔注意事項
(1)地名尾碼非AA碼者,不可重新編碼,因為會牽涉到相同主碼的其他地名。 (2)Google map與衛星圖的經緯度有落差,在標經緯度時以衛星圖為主。 (3)地名的建置,註解欄注意事項請參閱4人名規範資料建檔注意事項內有關註解的條目。
5 地名標記規則
● 文本中出現的地名,皆應標記,但除了(小地名不標外)。
五、時間
1 時間規範資料的查詢(若欲查詢,請先以帳號密碼登入)
● 時間規範資料庫網頁 http://dev.ddbc.edu.tw/authority/time/ ● 時間規範資料的問題討論,請參閱「佛學規範資料庫」答客問
2 時間標記
● 標法:
<date key="j+(起始時間碼)+(結尾時間碼)" notBefore-iso="起始西元年-月-日" notAfter-iso="結尾西元年-月-日">區段性的某時間</date>
<date key="j+(開始時間碼)+(結束時間碼)" from-iso="開始西元年-月-日" to-iso="結束西元年月日">事件持續進行的時間</date>
<date key="j+(當日時間碼)+(當日時間碼)" when-iso="西元年-月-日">時間點</date>
<date key="unknown">未知的時間</date>
3 時間標記凡例
| 時間型態 | 凡例 | 標記 |
|---|---|---|
| 區段性的某時間 | 余以光緒己卯游天台 | <date key="j24073722407755" notBefore-iso="1879-01-22" notAfter-iso="1880-02-09">光緒己卯</date>
說明:a)key2407372:光緒己卯年正月一日ID b)key2407755:光緒己卯年正月三十日
c)notBefore-iso:光緒己卯年正月一日ID
d)notAfter-iso:光緒己卯年正月三十日
|
| 明確日期 | 萬曆庚戌年五月十六日 | <date key="j23092772309277" when-iso="1610-06-26">萬曆庚戌年五月十六日</date> |
4 時間規範資料建檔注意事項
(1)佛寺志專案使用Julian day number時間系統,請確認介面是否選用此項。 (2)若未「登入」時間規範資料庫,查詢結果將不會自動計算「初年」、「末年」等較詳細之資訊。 (3)時間的查詢有多種管道:中國年(朝代、帝號、年號、年干支),西元年(三種方式),ID碼。
5 時間標記規則
(1)可查知的時間,皆應標記;無法證知(從前後文或其他資料皆無法得知)的時間, 則可標記<date key="unknown">未知年的時間</date>。
(2)有些時間因文本錯誤以致無法找到id,可用note註解, 例:當穆王五十三年壬申二月十五子夜,入般涅槃 <date key="unknown">穆王五十三年壬申二月十五子夜</date> <note resp="ddbc.da">據《中國史厯日和中西厯日對照表》(方詩銘、方小芬編著,上海人民出版社2007)編載,周穆王只行到四十一戊戌年(-983)。</note>
(3)初年,末年時間的擷取原則 取當朝、當年號、當年的前1/4為其初年,末1/4為其末年。
(4)時間為民國年的查法: 登入網頁「兩千年中西曆轉換」http://sinocal.sinica.edu.tw/ 兌換出相對應的西元時間,再到時間規範資料庫換算ID碼即可。 例:民國壬寅年 兌換出為西元1962年2月5日~1963年1月24日 再到時間規範資料庫以西元年查詢為5949266~5949619 即<date key="d59492665949619" notBefore="1962-02-05" notAfter="1963-01-24">
(5)時間屬性的變更:(2011.01.20) notBefore,notAfter,from,to,when,全要加上-iso(計算0年) 如:notBefore-iso,notAfter-iso,from-iso,to-iso,when-iso 例:<date key="j17207281721285" notBefore-iso="-0001-02-03" notAfter-iso="0000-08-13">哀帝元壽間</date>
(6)萬 丙子秋(=萬曆丙子秋) 例:<date>萬 丙子秋</date>(照標時間,空格不再處理。)
(7)屬性key,notBefore,notAfter的先後順序不一,不會影響驗證或呈現。 例:<date key="j22968992296986" notBefore-iso="1576-08-05" notAfter-iso="1576-10-31">萬曆丙子秋</date> =<date notAfter-iso="1576-10-31" notBefore-iso="1576-08-05" key="j22968992296986">萬曆丙子秋</date>
(8)當時間同時有年次、歲次時,可只標較詳細的歲次時間。 例:時宣統三年,歲在<date key="j24192292419229" when-iso="1911-07-11">辛亥六月旣望</date>,長洲葉昌熾謹記
(9)時間名詞+初、末:包進時間。
例:<date key="j22956292299967" notBefore-iso="1573-02-12" notAfter-iso="1584-12-29">萬曆初</date>
時間名詞+初年、末年:包進時間。
例:<date key="j22956292299967" notBefore-iso="1573-02-12" notAfter-iso="1584-12-29">萬曆初年</date>
時間名詞+中、間、年間:不包進時間。
例:<date key="j22956292312983" notBefore-iso="1573-02-12" notAfter-iso="1620-08-18">萬曆</date>年間
(10)清光緒末年的時間計算問題(德宗&恭宗皆以光緒為年號)
a)光緒末年,指德宗+恭宗的年代的末1/4。
阿賢:無法用程式計算,請各位自己計算。
b)志偉的意見:若有數個,則取最長的那一個末年,如上則取德宗光緒的末年即可。
6 知識備忘
(1)春=農曆1-3月,夏=農曆4-6月,秋=農曆7-9月,冬=農曆11-12月 (2)農曆月份的別名 一月:孟春、元春、開歲、端月、嘉月、正月。 二月:仲春、杏月、麗月、如月、花月。 三月:季春、晚春、暮春、季月、蠶月、桃月、桐月。 四月:孟夏、麥月、陰月、梅月、純陽。 五月:仲夏、榴月、蒲月、皋月、毒月。 六月:季夏、暑月、焦月、荷月、荔月。 七月:孟秋、新秋、蘭秋、蘭月、瓜月、巧月。 八月:仲秋、竹春、桂月、壯月。 九月:季秋、暮商、菊月、朽月、陽月、季秋。 十月:孟冬、初冬、開冬、露月、良月、陽月。 十一月:仲冬、辜月、葭月、龍潛月、冬月。 十二月:季冬、殘冬、臘月、冰月、嚴月。
六、代名詞
1標法:
<ref key="Axxxxxx">人名代名詞</ref>
例:<ref key="A003940">余</ref>(余指徐時泰)
<ref key="xxxxxxxxxxxxxx">地名代名詞</ref>
例:待補
2標記時機:當詞意不明顯時才須標
七、註解(ddbc.da)
1.註解內無超連結
標法:<note resp="ddbc.da">註解文字</note>
例:梁視<note resp="ddbc.da">視,疑爲「祖」字。</note>普通三年
2.註解內有超連結
標法:<note resp="ddbc.da">註解文字(<ptr target="網址"/>,日期)</note>
例:應案<note resp="ddbc.da">「案」字,萬福禪寺網站此處作「索」。
(<ptr target="http://www.huangboshan.com/zisusifu.htm"/>,2010.05.04)</note>屐而自潸。(g010p0445)
3.註解引用自CBETA資料時
標法:<note resp="ddbc.da">CBETA經文(CBETA預設的引用格式)</note>
例:著作郎<persName key="A010335">顧允祖</persName><note resp="ddbc.da">
《集神州三寶感通錄》卷1:「著作郎顧胤祖」(CBETA, T52, no. 2106, p. 405, a17)</note>
其他規則:
(1)標題內的註解,請置於<head>內。
例:<head>于黃檗丈室堂第三代隱元隆琦國師 上堂九則 機緣三則<note resp="ddbc.da">
按:標題為上堂法語九則,機緣三則;內文實則收錄上堂法語八則,機緣五則。</note></head>
十、缺字
● 缺字的定義:打不出來的,非unicode編碼系統字的,又無通用字的字。
*台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
*別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml
● 缺字標記:<g ref="#btgzzzppppnn"/>
字圖檔命名原則:#btg+志碼3碼+頁碼4碼+序碼2碼(序碼:此頁第幾個缺字)
● 通識
凡打不出來的漢字,第一優先是尋查有無uniword。而後,再根據文字本身或搭配前後文做判斷。
若此字易於辨識者(不管有無uniword),則不做任何標記。
若此字不易於辨識者,而有uniword 或通用字時,則視情況而標記<reg>或<choice>。
若此字不易於辨識者,無uniword,亦無通用字,則標<g>,並建立缺字檔。
● 漢字處理流程
1至unicode網站查找,若有則直接複製貼上。
若在Oxygen編輯器下無法直接貼上,則先以Notepad++開啟此檔並於內貼上此字、存檔,
然後再轉接以Oxygen繼續作業。此時經過Notepad++轉化的此缺字,將在Oxygen以□的形式呈顯。
如果缺字在介面仍無法顯現,請安裝Undicode擴充字型
Y:\Projects\fosizhi\work\tools\字型\unicode字型\HAN NOM B(A).ttf
●●判斷缺字原則
1)以utf字符號碼判斷
Unihan網站:http://www.unicode.org/charts/unihanrsindex.html
* utf-32:U+20000- U+2A6DF:中日韓統一表意文字擴展B區
* utf-32:U+2A700-U+2B73F:中日韓統一表意文字擴展C區
* utf-32:U+2B740- U+2B81F:中日韓統一表意文字擴展D區
* Decimal:6400以上
(以上皆屬Extension 的擴展字,可直接貼在文本。)
2)人工判斷
2若查找的字非uniword,則可借助其他字書工具查找其通用字,再視情況而標記<reg>或<choice>
(字書工具:如CBETA漢字資料庫,教育部異體字網站等)
1)
例:
2)
例:
3若查找的字非uniword,亦無通用字,則作標記<g ref="#圖檔檔名"/>,並建立缺字檔。
例:
●●缺字圖檔處理
(1) unicode網站如果有圖檔,請第一優先download用此字圖。
(2) 不採用教育部異體字圖檔。
(3) 若此字非uniword,則用Gimp工具,裁切文本掃描原始檔(.tif)作為字圖。(作法如下)
●●利用Gimp軟體處理缺字圖檔【98.01.19 Erica】
*裁切掃瞄檔缺字步驟
(1)開啟Gimp功能表「檔案」.
(2)點選「開啟」.
(3)選擇掃瞄檔案ex:2Book022(路徑:Y:\Projects\fosizhi\images\Temple_Gazetteers_Tiff)中缺字頁碼.
(4)放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
(5)點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
(6)將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
(7)設定圖片尺寸:點選「影像」選擇「縮放影像」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 解析度:72像素,完成後點選下方「縮放」即完成.
(8)點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
●●針對已下載缺字圖片設定尺寸之轉檔步驟
(1)開啟Gimp功能表「檔案」
(2)點選「開啟」(路徑:先前已下載的缺字圖檔ex:btg×××××××××.jpg之資料夾)
(3)設定圖片尺寸--點選「圖片」選擇「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 解析度:72像素,完成後點選下方「縮放」即完成.
(4)點選「檔案」選擇「另存新檔」並提供檔名ex:btg×××××××××.gif再點選下方「Gif影像檔」按「儲存」後,即出現另一視窗請不要勾選任何選項按「儲存」即完成.
●●建立缺字檔
佛寺志缺字庫網頁http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq
(1)缺字id編碼原則: btg086(志名)0327(頁碼) 01(第幾個缺字)。目錄缺字id:btgcal(目錄)XXXX(頁碼)XX(第幾個)
(2)登入缺字網頁[http://dev.ddbc.edu.tw/eXist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq?#g000020]
(3)取碼目的:取得缺字碼<g ref="#btg086001701"/>標記內文及建置缺字組
(4)建置步驟說明:
(a)輸入第一列缺字位置之「冊、頁數、第幾個」 完成後,按下「新增一筆」.
(b)產生缺字id後,即可輸入缺字資訊(如e).
(5)完成後,按「更新資料庫」.
(6)輸入缺字資訊須知,說明如下:
(a)<glyph xml:id="btg086033701">: 為缺字id碼。
(b)<glyphName>: 為unicode編碼。
●到 [http://www.unicode.org/charts/unihanrsindex.html unicode網站 ]找cjk(Decimal)之下方編碼,例如:CJK IDEOGRAPH 15181
●其cjk(Decimal)之編碼=<mapping type="unicode">15181</mapping>
●若查無unicode編碼資料,請點選「Non Unicode Character」即可.
(c)<charProp>: 標記<value>發音。
●到 [http://www.iq-t.com/SYSCOM/pingying2.asp 漢語拚音字典 ]找漢語拼語,一律小寫,第幾聲用數字表示(一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5),不知發音者以問號表示。
●<charProp>表示字的屬性、表達方法。比如說注音、發音。
(d)<mapping type="cbeta">: 為組字式。
●組字方式均由 CBETA maha 統一組字,請參閱 [http://dict.cbeta.org/word2/search.php CBETA漢字庫 ]打通用字或組字式以獲得組字式與CB碼。
(e)<mapping type="cbetaNo"> : 為cbeta的CB碼。
●若查無CB碼資料,請登錄至「更新資料庫」上方之「add a note」按鍵點選後,輸入 maha 字樣即可.再以一志為單位,統一由程式人員:小花 處理.
●若 CBETA maha 回覆不收錄至CBETA漢字庫時,請登錄至「更新資料庫」上方之「add a note」按鍵點選後,輸入<不收錄至CBETA 漢字資料庫>字樣即可.
(f)<mapping type="unicode"> : 為unicode編碼。
●Mapping說明:<mapping/>可以用另一個系統來表示這個字的方法,比如說cb碼、組字式、unicode碼。cjk與Unicode(id=decimal)的關係猶如cjk=一年甲班,Unicode=10號。
(g)<mapping type="MoEvariant"> : 為教育部異體字編碼。
●到 [http://dict.variants.moe.edu.tw/suo.htm 教育部異體字網頁 ]找編碼。例如:b02420-001
●注意:沒有Undicode的字才要登錄教育部異體字編碼。
(h)<add a note>: 為註記資訊用
●輸入 maha 字樣 : 申請缺字收錄至CBETA 漢字資料庫。目的:索取CB碼及組字式。
●maha回覆訊息後,提供註記「不收錄至CBETA漢字庫」或「這是BIG5系統字「丱」資訊用。
(5)完成後,按「更新資料庫」.
●●缺字給 CBETA Maha製作流程
(1)請Maha幫忙製作缺字 無CB碼、無組字式 者
(2)須製作(1)的二點資訊者,於缺字介面note註明maha
(3)小花再以note註明的maha 彙整送給maha
(4)缺字資訊的note寫法可參考缺字介面的(8)<add a note>: 為註記資訊用
●●缺字上傳
(1) FTP informations:
session:fosizhi
host name:10.10.0.49
user name:april
password:m4tjp
(2)上傳位置
從 Y:\Projects\fosizhi\images\gword\
到 0:/fosizhi/public_html/gword/
(3)從dev 到informatics 上傳時間為一週
●●缺字再佛寺志網頁的呈現順序
1.uniword
2.通用字(異體字)
3.組字式
4.字圖
*缺字標記對應處理表
*通用字參照標記:
1有uniword、有通用字
標法:<choice><orig>文本原字</orig><reg resp="ddbc.da">一般化的字</reg></choice>
<orig>(原文格式)標誌原文中呈現的文字,並且未經過任何修改或規格化處理。
<reg>(一般化)標誌一般化或規格化處理過的文字。
例:<choice><orig>銕</orig><reg resp="ddbc.da">鐵</reg></choice>
2無uniword、有通用字
標法:<reg>通用字</reg>
例:<reg>助</reg>([耳*力]打不出)
註:<reg>選字原則:1.義同、字形接近。2.部首接近。3.筆畫接近。
例:[王*尒]:<reg>珎</reg>珠色(珍珠色)
[穴/怱]:<reg>窓</reg>子(窗子)
3無uniword、無通用字
標法:<g ref="#圖檔檔名"/>
例:<g ref="#btg008020804"/>([火*咢])
*書法草書字體無法辨認時
<gap extent="1" unit="chars" reason="illegible"/>
九、勘字
*訛字修訂標記:
<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>
<sic>:包含看似錯誤但仍照實轉錄的文本。
<corr>:(更正)包含文本中看似錯誤並加以更正過後的文字。
例:<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>
十、漏字
*漏段標記:
<gap extent="1" unit="chars" reason="lost"/>( extent:文字量)
<gap extent="1" unit="chars" reason="unclear"/>
*漏段標記:
<gap extent="unknown" unit="chars" reason="lost"/>
十一、空格
1)<space quantity="1" unit="eng_chars"/>(一個英文半形空格)
2)<space quantity="1" unit="chi_chars"/>(一個中文全形空格)
註:quantity內可填空格字數
十一、印章
*印章標記:<stamp>包含一個字詞,描述一個印記或是類似圖案。
例:乾隆御覽之寶<stamp>清乾隆玉璽</stamp>
十二、表格
*表格
表格標記元素:<table>、<row>、<cell>
表格合併列:<cell rows="列數">
表格合併欄:<cell cols="欄數">
*例1(g089p0254)
<table>
<row><cell rows="2">一、約部義</cell><cell>前四時</cell><cell>筌罤</cell></row>
<row><cell>今法華</cell><cell>魚兔</cell></row>
<row><cell rows="2">二、約教義</cell><cell>前三教</cell><cell>筌罤</cell></row>
<row><cell>今圓教</cell><cell>魚兔</cell></row>
<row><cell rows="2">三、約解義</cell><cell>言說教</cell><cell>筌罤</cell></row>
<row><cell>契妙理</cell><cell>魚兔</cell></row>
<row><cell rows="2">四、約行義</cell><cell>玄句開解</cell><cell>筌罤</cell></row>
<row><cell>止觀立行</cell><cell>魚兔</cell></row>
<row><cell rows="2">五、約玄義</cell><cell>釋名宗用教</cell><cell>筌罤</cell></row>
<row><cell>諸部經體</cell><cell>魚兔</cell></row></table>
*例2(g089p0254)
<table>
<row><cell>一、漸中開四</cell><cell cols="4">如破他宗,不識教體之妨,謂法華是漸圓,華嚴是頓圓。</cell></row>
<row><cell>二、方等中四</cell><cell cols="4">四教並談曰方,四機普被曰等。</cell></row>
<row><cell rows="4">三、別教𥪡<!--[竪]-->入四</cell><cell>十信</cell><cell rows="4">修</cell><cell>生滅四諦</cell><cell>藏</cell></row>
<row><cell>十住</cell><cell>修無生四諦</cell><cell>通</cell></row>
<row><cell>十行</cell><cell>修無量四諦</cell><cell>別</cell></row>
<row><cell>十向</cell><cell>修無作四諦</cell><cell>圓</cell></row>
<row><cell>四、十行橫學四</cell><cell cols="4">別教十行化他心切,橫出四四一十六門。</cell></row>
<row><cell rows="4">五、涅槃追泯四</cell><cell cols="3">生生不可說</cell><cell>藏</cell></row>
<row><cell cols="3">生不生不可說</cell><cell>通</cell></row>
<row><cell cols="3">不生生不可說</cell><cell>別</cell></row>
<row><cell cols="3">不生不生不可說</cell><cell>圓</cell></row>
<pb facs="3B008P275.jpg" n="0254"/>
<row><cell>六、涅槃追說四</cell><cell cols="4">有因緣故亦可得說,四句如前,但義同施權,卻更分別前四教也。</cell></row>
<row><cell>七、法華施出四</cell><cell cols="4">從法華實理施四時三教,權理明無量義,從一清淨道施出二三四。</cell></row>
<row><cell>八、法華開顯四</cell><cell cols="4">開四時三教,歸今法華,收多歸一也。</cell></row></table>
十四、詩偈
● <lg><l>的注意事項
A:<lg><l>與<p>是對等地位,故不可包在<p>中。應結束</p>後,再標<lg>。
● 當詩詞跨頁時
A:照書換頁,不用顧及排版問題。
標記問答
Q:格式問題:是否照書編排? A:數位文本不必全照書編排。 Q:敬格的情況,有空一格,有另起一行。 A:"敬格"統一都不須空格或另起一行。 Q:並列的文字。 A:不作並列標記。可標記縮小字<seg rend="font-size:small">及加括弧以區別之。 Q:文章中所有小字的標法? A:<seg rend="font-size:small">(縮小的字)</seg> ps. <seg>的標法,是著重在「樣式」(小字)上的呈顯,而非「意義」上的表示。 Q:若印刷錯誤,文字內容重複時。 A:可用[註]標示。 例:<note resp="ddbc.da">此段重複「文本重複的文字」</note> 但若有跨頁,頁碼要放在note的外面。 Q:文本若超出可處理的範圍,如元朝蒙語譯文。 A:可不標句讀,但須於檔頭<teiHeader>作說明。 Q: A:
標逗
● 「書名」與「詩篇名」的標符樣式(《》與〈〉)
http://www.edu.tw/files/site_content/m0001/hau/h12.htm (道厚2/23)
決議:
1)若在句子內則要標上《》〈〉
2)若在標題內則不用標上《》〈〉
3)若在標題內有除了書名及詩篇名以外的文字時,書名或詩篇名則要標上《》〈〉。例:論《論語》
● 偈頌是否使用標點符號?
http://www.haoshici.com/ (道厚2/23)
決議:需標點符號。
一般行政
1. 電腦維修由春玉統一回報資訊組窗口 報修人員並在google文件中,填妥報修情況資訊
內部討論區
(提問者請於問題後註明姓名及日期)
以下為阿賢待處理事項: <xml code>
sophia: 1.metadata目錄介面有LOST。(sophia 10/15) g018p0001之前的資料皆未出現在左方樹狀結構,但有metadata資料。 http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g018 g037p0001,g051p0001亦然。 2.<closer>內頁碼需improve。 (sophia 1/20) 以下紅色字為p.0751的頁首,因整段全包在closer內,故在html上出現在p.0750。 http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g089&cpage=0751 咸[湻=淳]甲戌十月朔旦,迪功郎新寶應軍歲學教授石余亨記,朝奉大夫權戶部尚書兼詳定勅令官浙西安撫制置使兼和臨安府曾淵子篆蓋,當寺僧端楷集,元章米芾書。 p.0751 (元)僧梵琦〈娑羅軒記〉
<closer><date key="j21866902186690" when="1274-11-07">咸<choice><orig>湻</orig><reg>淳</reg></choice>甲戌十月朔旦</date>,迪功郎新寶應軍歲學教授<persName key="A018611">石余亨</persName>記,朝奉大夫權戶部尚書兼詳定勅令官浙西安撫制置使兼和臨安府<persName key="A018613">曾<pb facs="3B010P084.jpg" n="0751"/>淵子</persName>篆蓋,當寺僧<persName key="A018610">端楷</persName>集,<persName key="A004610">元章米芾</persName>書。</closer>
〈<placeName key="CN0331023T41AB">娑羅軒</placeName>記〉</head> 3.<figure>內的head無法顯示在左方樹狀結構。(sophia 1/29已寄e-mail通知) http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g049&cpage=0021 p.0021 普賢菩薩 p.0022
</xml>