imported>Miaomiao |
imported>Miaomiao |
| 行 41: |
行 41: |
| ===[http://wiki.ddbc.edu.tw/pages/%E3%80%8A%E4%B8%AD%E5%9C%8B%E4%BD%9B%E5%AF%BA%E5%BF%97%E3%80%8B%E5%B0%88%E6%A1%88%E5%8F%83%E8%80%83%E5%B7%A5%E5%85%B7#.E5.B7.A5.E5.85.B7 《中國佛寺志》專案參考工具連結]=== | | ===[http://wiki.ddbc.edu.tw/pages/%E3%80%8A%E4%B8%AD%E5%9C%8B%E4%BD%9B%E5%AF%BA%E5%BF%97%E3%80%8B%E5%B0%88%E6%A1%88%E5%8F%83%E8%80%83%E5%B7%A5%E5%85%B7#.E5.B7.A5.E5.85.B7 《中國佛寺志》專案參考工具連結]=== |
|
| |
|
| ==執行步驟== | | ==執行步驟== |
| === 叢書目錄建立=== | | [http://wiki.ddbc.edu.tw/pages/%E3%80%8A%E4%B8%AD%E5%9C%8B%E4%BD%9B%E5%AF%BA%E5%BF%97%E3%80%8B%E5%B0%88%E6%A1%88%E5%8F%83%E8%80%83%E5%B7%A5%E5%85%B7#.E5.B7.A5.E5.85.B7 《中國佛寺志》專案參考工具連結]=== |
| 1. 明丹本共110冊,廣陵本共130冊,目錄檔路徑:<br>
| |
| Y:\Projects\fosizhi\master-data\catalog\gazetteerCatalog.xml<br>
| |
|
| |
|
| 2. 明丹本與廣陵本版本分析,檔案路徑:<br>
| |
| Y:\Projects\fosizhi\master-data\catalog\catalogGazetteers_main.xml<br>
| |
|
| |
| ===地理資訊建立===
| |
| 1. 明丹本檔案路徑:<br>
| |
| Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfsh.xml<br>
| |
|
| |
| 2. 廣陵本檔案路徑:<br>
| |
| Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfc.xml
| |
|
| |
| ===輸入===
| |
|
| |
| 一、輸入前的準備<br>
| |
| 搜集網路資料,確認無電子檔時再打字。<br>
| |
|
| |
| 二、自行打字 或OCR 或委外輸入<br>
| |
|
| |
| (一)自行打字<br>
| |
| 1.量少時適用。<br>
| |
| 範例參考:1本書約500頁,10萬字=約5,000元<br>
| |
| http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g019
| |
| 2.珍貴手搞,不宜外流。<br/>
| |
| 3.特殊字型<br/>
| |
| ●日文(於控制台\字型\新增日文字型)<br/>
| |
| ●羅馬轉寫字、天城體:篇幅不多時打字公司打字時以英文字代替,校對時再修正。
| |
|
| |
| 天城體、羅馬轉寫字、藏文打法如下列<br/>
| |
| (1)word內鍵符號,設快速鍵<br/>
| |
| (2)藏文與Wylie(羅馬化的一套文字轉寫系统)互轉:<br>
| |
| 軟體:Y:\Projects\fosizhi\work\tools\01輸入法\藏文輸入法_Wylieword\<br>
| |
| 作法:word\增益集\按ctrl+T <br>
| |
| 註:(1)office2010有相容性的問題,32或64位元。<br>
| |
| (2)安裝在win7時要把程式相容性調成 XP service pack3.<br>
| |
| 安裝方式:於程式安裝檔.exe按右鍵點內容,選相容性,以相容性執行這個程式打勾,選XP service pack3.<br>
| |
| 例:http://www.asianclassics.org/release6/webdata/monastic/open/html/KD0113M.html<br>
| |
| 於上述網址複製一段藏文,按F6 輸入羅馬字可找到藏文<br/>
| |
| (3)THDL tools:可輸入藏文,且能將藏文以詞譯出英文。且貼上羅馬轉寫字可直接出現藏文。<br/>
| |
| (4)keyman:多國語言同時完成。<br/>
| |
| (5)Itranslator 2003:例如打aa,F5:轉換成天城體,F6:轉換成羅馬轉寫,F7:以上二種都有,以上選了F key 後按convert. 註:win7不能用<br/>
| |
| (6)於網頁上使用:
| |
| 羅馬轉寫字及天城體輸入法:http://www.ashtangayoga.info/philosophy/transkription-tool/<br/>
| |
|
| |
| (二)OCR:鉛字印刷辨識佳,手抄本錯誤率高。<br/>
| |
| (三)委外輸入(含粗標)<br/>
| |
| 量大時適用<br/>
| |
|
| |
| 三、打字份數<br>
| |
| # 從財力、時程決定打字份數<br>
| |
| # 經費不足,且不考慮時程時:輸入1份(電一校)→請義工以書本核對電子檔(電二校)→標記(電三校)→轉PDF(電四校)。<br>
| |
| # 經費足,時程緊時:輸入2份(含紙一校)→再以2份電子檔以word比對(電二校),目前作業乃到此步驟→有人力再進行電三校。<br>
| |
|
| |
| 四、徵選廠商及價格<br/>
| |
|
| |
| (一)廠商與價格<br/>
| |
| 1.打字價格:(1)中文每千字/80元 (2)英文2000bytes(字母)/80元(3)日文1000字/ 160元
| |
| ●台灣的廠商,價錢通常每千字70至80元。
| |
| ●大陸的廠商,價錢可壓至每千字50元。
| |
| ●最佳選擇:台灣有公司且大陸設分部,如此在台灣有連繫窗口,價錢也較低。<br/>
| |
| 例:雅奧出版社中、英文字稿(或中英夾雜),每千字50元,含逐字紙一校。
| |
| 例:鷄足山書法字難辨識
| |
| http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g084
| |
| 以書法字典搜尋:http://www.9610.com/zidian/index.asp?key=%B5%C2& Submit=%CA%E9%B7%A8%D7%D6%B5%E4
| |
| 例:黃檗山志刻本字
| |
| http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g086
| |
|
| |
| (二)人力的配合度:趕工時可增加人力,調配富彈性<br/>
| |
| (三)財力的配合度:當補助款尚未匯入時,可延遲請款<br/>
| |
| (四)雙方溝通有無障礙<br/>
| |
| (五)比價:<br/>
| |
| DDBC法規:金額在100萬元以下,20萬元(含)以上者,要請3家(含)以上報價,由會計室派員監辦,進行三家公開比價、議價。
| |
|
| |
| 五、輸入速度<br/>
| |
| 視輸入公司的人力而定,通常會配合資方要求的時程。<br/>
| |
| 1分鐘打60字計算,1天約打3萬字,高手1分鐘打100字計算,1天約5萬字。
| |
| 例:「漢籍全文佛寺志專案」1個月交件100~150萬字。(含一校及缺字)
| |
|
| |
| 六、錯誤率及減價<br/>
| |
| 一般錯誤率為千分之四或五。<br/>
| |
| *例:「漢籍佛寺志專案」中研院史語所對廠商的要求為萬分之五;即1萬字錯5字。雙方可協調到認同的階段訂約。
| |
| Y:\Projects\fosizhi\work\標案\中研院\各項規範\輸入採購規範書(100法鼓)_1000516.doc
| |
|
| |
| 七、輸入規範<br/>
| |
| 1.照書斷行,以利人工校對。如果以2個電子檔校對就不用照書斷行。
| |
| 2.底本:以掃瞄圖檔或影印本<br/>
| |
| 3.為達成資源共享,本校數位化作業均以符合國際標準的標記語言進行標記作業,故輸人時會要求廠商加入粗標,以利後段以程式轉成正確TEI Tag其規範書範本,檔案路徑如下:
| |
| Y:\Projects\fosizhi\work\標案\中研院\各項規範\佛寺志輸入規範書+標記說明.docx
| |
| 4.存檔:存成純文字檔.txt,檔名依志、卷、冊順序命名<br/>
| |
|
| |
| 八、委外輸入給廠商的檔案方式<br/>
| |
| 1.有掃瞄檔時:以FTP方式傳送<br/>
| |
| 2.無掃瞄檔時:影印原書,原書待打完字做為標記使用<br/>
| |
|
| |
| 九、輸入完成時交回檔案方式<br/>
| |
| 1. 計算字數:使用word開啟檔案後,點選校閱\字數統計\字元數不含空白的數值計算。<br/>
| |
| 2. 製作google document記錄繳交情形,以掌控進度。<br/>
| |
| https://docs.google.com/a/ddbc.edu.tw/spreadsheet/ccc?key=0AvNiyYs1TA4idDhVcmQ2QmprTU4xWTBiYmlFc25KRmc&hl=zh_TW&pli=1#gid=0
| |
|
| |
| ===校對===
| |
| 1. 有1份輸入電子檔時:<br/>
| |
| 打字公司輸入1份(含電一校)→<br/>
| |
| 請義工以書本核對電子檔(電二校)→<br/>
| |
| 標記(電三校)→<br/>
| |
| 轉PDF(電四校)。<br/>
| |
| 2. 有2份(我方及他方)輸入電子檔時:<br/>
| |
| 我方打字公司輸入1份(含電一校)→<br/>
| |
| 以2份電子檔用word比對(電二校),因難免判斷錯誤,故有餘力時再做電三校。<br/>
| |
|
| |
| ====有2份打字電子檔的比對方式====
| |
| 一、準備兩檔比對,比對內容為相異字及標逗。<br/>
| |
| 1.使用office的Word校閱/比較的功能來作業,方式如下(並請一定要閱讀注意事項):
| |
| (1)開啟任一既有Word檔,或空白Word頁面。
| |
| (2)在Word功能列表中「校閱」一項下選「比較」,再選其下有「比較文件的兩個版本」說明文的「比較」。
| |
| (3)選擇要比較的兩份文件分別當作「原始文件」與「修訂的文件」。並將底下的「顯示變更」設定為將變更顯示在「字
| |
| 元階層」,將變更顯示於「新文件」。設定完成後點確定並開始參照原文比對,以Word界面上方的「接受」及「拒絕」
| |
| 對文件做修訂。第一次修訂應以gXXX_gaji_c.txt的檔名另存新檔,文字編碼請選UTF-8(存檔事宜請見注意事項),
| |
| 之後則皆以此檔做該文件比對工作。XXX請填各志的三位數編碼。
| |
| p.s.Word是將原始文件當做被修改的底本,因此建議最開始就以數典組文件當做原始文件
| |
| (4)原始文件與修訂文件的文字顏色修改:追蹤修訂\變更追蹤選項
| |
| (5)同一文件的第二次比對起,點選校閱\比較\顯示變更\將變更顯示於\點選「原始文件」。
| |
| 2.注意事項:存檔前,務必先設法紀錄起來修正至文件何處,以利下次繼續比對。
| |
| 並'''一定要先點選「拒絕文件中的所有變更」,才能儲存,否則Word會自動接受文件所有變更。'''
| |
|
| |
| 3.使用word比對會遇到的問題<br/>
| |
| (1)比對時,會發現過去打字公司當做通用字處理之罕用字,需另行特字處理。<br/>
| |
| (2)雙方皆錯產生的差異無法直接採用,要再查證。<br/>
| |
| (3)比對會顯示標記的不同,無法使之不顯示(因為也是文字)。Word比對功能無法顯示標記與錯字間的差別,而且又多以詞句為單位,所以錯字易摻混其中,有問題片段需逐字檢查。<br/>
| |
| (4)顯示方式比較繁雜,需細讀,否則更改後文字次序易混亂(特別是有一部分的修訂要接受,同時有另一部分的修定要拒絕時)。<br/>
| |
|
| |
| 4.編碼相容問題處理
| |
| (1)遇到的問題:目前由於比對是由數名同仁同時處理,所使用電腦之差異造成部分同仁無法以utf-8編碼進行比對的情況,在word校閱->比較->比較(比較文件的兩個版本),開啟文件選文字編碼時會自動跳到無法正確顯示文字的編碼。
| |
| (2)解決方式:
| |
| (2.1)作比對前以NotePad++將要比對的txt檔編碼編譯(encoding in)為usc 2-Little Endian,待比對結束再轉換(convert to)回utf-8。
| |
| (2.2)以記事本叫txt檔,另存新檔來改變編碼的效果約等於NotePad++的convert to。
| |
| 轉為usc 2-Little Endian編碼的txt檔需標為gxxx_gaji_c_B,以利將編碼改回utf-8時的辨認。改回utf-8編碼的txt檔需刪去檔名末尾的「_B」。
| |
| (3)有時候會因為轉檔產生亂碼,因此比對後宜將缺字完成(檔名以"_gaji"結束的檔)與校對完成 (檔名以"_gaji_c_B"或"_gaji_c"結束的檔)的寺志再進行一次比對,找出亂碼。
| |
| 5.檔案過大問題處理
| |
| (1)遇到的問題:部份佛寺志篇幅十分龐大,以word比對時易造成程式運作遲緩或產生問題。
| |
| (2)解決方式:轉為xml檔之前,可將一志分數個檔案處理,之後再併檔。
| |
|
| |
| 二、比對前先細讀序文或凡例,或能解釋內文難解的符號。<br/>
| |
| 三、計算「接受變更」的數字,以利分析打字公司的錯誤率,步驟如下:<br/>
| |
|
| |
| *以word的比較(兩個版本電子檔)功能比較中研院之txt檔及'''未經電校'''的ddbc之txt檔,在畫面上方選「檢閱窗格」項下之任一項,會出現關於修訂的資訊。記下「刪除」的數量得到數字A。
| |
| *以word的比較(比較文見的兩個版本)功能比較中研院之txt檔及'''業經電校'''的ddbc之txt檔,在畫面上方選「檢閱窗格」項下之任一項,會出現關於修訂的資訊。記下「刪除」的數量得到數字B。
| |
| *以上兩步驟,何者為原始文件、何者為修訂文件得出之數字有落差,但落差極小。
| |
| *將前二步驟所得之A扣去B,得到數字C。C除以該志總字數後再換算為百分比數字則得出打字公司概括的錯誤率。
| |
|
| |
| 四、看不懂的字,可複製一段文字查網路。
| |
|
| |
| 五、問題反映
| |
|
| |
| 1.各電腦字型顯示有異
| |
| ex.辦公室電腦能顯示「啟」、「啓」的差別,而筆電法拉利不行。辦公室電腦則無法正確顯示「為」、 「偽」等字(「為」字上端原有「爪」字頭與倒「八」字頭的差別),而筆電法拉利可以。
| |
|
| |
| ===掃瞄===
| |
|
| |
| * 選擇掃瞄檔案儲存為Tiff
| |
| * 解析度為400dpi 像素是 1945x2992
| |
| * 8 bits 灰階。( 不是黑白 )
| |
| * Tiff 轉 jpg(網頁用)
| |
| * Jpg 為 Tif的4/1 像素是 486x768
| |
| * jpg檔加浮水印
| |
| * 切邊
| |
| * 明丹本掃瞄明細:https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AvNiyYs1TA4idGtaOUJWdldPcy1IclNpN1hmTi1YNlE&hl=zh_TW
| |
| * 廣陵本掃瞄明細:https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AvNiyYs1TA4icDJXeXRzRF9JNHJUcW5aczR0a1JaRnc&hl=zh_TW
| |
| * 檔案: Y:\Projects\fosizhi\images\
| |
| * 處理人員:伯雍
| |
| * 文獻掃瞄要點:http://wiki.ddbc.edu.tw/pages/%E6%96%87%E7%8D%BB%E6%8E%83%E7%9E%84%E4%BD%9C%E6%A5%AD%E8%A6%81%E9%BB%9E
| |
|
| |
| ===圖檔檢查===
| |
| 目前暫時以下述方式檢查圖檔
| |
| 1.以office picture manager為介面,使用縮圖檢視進行「圖檔檢查」
| |
| 2.可開一新資料夾將有問題圖檔複製至此資料夾中,以便之後複製圖檔檔名貼上文字文件做成清單,或直接以資料夾當作有問題圖檔之明細
| |
|
| |
| ===Metadata 建置===
| |
|
| |
| * 建立掃瞄 Tiff 數位圖檔的 Metadata
| |
| * 一本佛寺志各頁的掃瞄圖檔放在同一資料夾
| |
| * 一本佛寺志掃瞄圖檔資料夾對應一個 Metadata 的檔案
| |
| * Metadata檔案內依序記錄每張掃瞄圖檔之資訊, 關於該 Metadata 檔案說明請參考: [[佛寺志_Content_Metadata_Version_2]]
| |
| * 每張圖檔資訊記於一組 <div></div>
| |
| * 檔案放在: Y:\Projects\fosizhi\gazetteerTxt\
| |
| * 處理人員:家名,秀雯,琇麗,小花
| |
|
| |
| <syntaxhighlight lang="XML">
| |
|
| |
| (一)內容說明:
| |
| <div n="1Book005/1B005P011">
| |
| <list>
| |
| <item n="1">1B005P011</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">金陵梵刹志-金陵梵刹志卷二十二-放生池記</item>
| |
| <item n="4">g006p0978</item>
| |
| <item n="5">放生池</item>
| |
| </list>
| |
| </div>
| |
|
| |
| A.<item n="1">1B005P011</item>
| |
| 1)指數位圖檔的檔名。
| |
| 2)每一頁都有一個數位圖檔。
| |
|
| |
| B.<item n="2">內文</item>
| |
| 1)志文分成5個分類:a)書名頁或題詞 b)版本說明 c)目錄 d)內文 e)圖 f)空頁。
| |
|
| |
| 注意:a)古文內的目錄,分類屬"內文",標題則作"目錄"。
| |
| (因古籍內的目錄有頁碼,屬古籍內文的一份部,頁碼為g***p****。)
| |
| b)空頁:指全部空白。若有格線,只是沒有文字的話,則作"內文"類。
| |
|
| |
| C.<item n="3">金陵梵刹志-金陵梵刹志卷二十二-放生池記</item>
| |
| 1)每頁的標題。
| |
| 2)以「-」(dash)表達漸層關係。
| |
| 3)以「/」(slash)隔開同一頁上的不同標題。
| |
| 4)若是空白頁,無標題,以”none”表示。
| |
|
| |
| D.<item n="4">g006p0978</item>
| |
| 1)頁碼:前3碼為志碼,後4碼為內文本身的頁碼。
| |
| 2)頁碼種類如下:
| |
|
| |
| a)書名頁頁碼(f+1碼數字):g***f*
| |
| b)版本說明頁碼(無頁碼):g***p0000a
| |
| c)目錄頁碼(c+3碼數字):g***c***
| |
| d)內文頁碼(p+4碼數字):g***p****
| |
|
| |
| 注意:1)頁碼都以小寫表達,組成方式是:[志碼+頁碼]
| |
| 2)若插圖無頁碼,則以[前一頁的頁碼+英文字母]。
| |
| 3)需另外記錄插圖的數目,以作統計使用。
| |
| 4)無頁碼的編碼原則:前一頁頁碼+英文字母。
| |
|
| |
| a)舉例:
| |
|
| |
| g***p0011
| |
| 無頁碼-----------則編為:g***p0011a
| |
| g***p0012
| |
|
| |
| b)版本說明,因無前一頁,故編為:g***p0000a
| |
|
| |
| E.<item n="5">放生池</item>
| |
| 1)"可辨識"的前三個字,從每一頁的右上角數過來。
| |
| 2)若無前3個字,如空白頁,則以"none"表示。
| |
| 3)若遇糢糊不清的字,則向下遞補,取可辨識的字。(Sophia 10-14-2009 updated according to小花's saying.)
| |
|
| |
| (二)注意:
| |
| 1)每一個數位檔都需對照文本,以確定數位檔沒有lost,
| |
| 若有任何一個lost,則後面所有的metadata資料無法與圖檔對照起來。
| |
| 2)若有數位檔檔lost的部份,請與伯雍聯繫,請他更正補上。
| |
|
| |
| (三)缺字:
| |
| 1)至cbeta漢字工具,教育部異體字網站,unicode查找。
| |
| 2)若無法貼上,需作缺字庫。(事後決議用通用字或組字式。updated by Sophia 2010-03)
| |
|
| |
| (四)完成檔案:
| |
| 1)以.txt 存於 Y:\Projects\fosizhi\images\Temple_Gazetteers_Tiff
| |
| 與佛寺志的數位圖檔放在一起。
| |
| 2)每一個資料夾對應一個Metadata的檔案。
| |
| 3)資料夾 1Book001 表佛寺志第一輯的第一本數位圖檔,對應1Book001.txt
| |
| (updated by Sophia 2009-06-25)
| |
|
| |
| </syntaxhighlight>
| |
|
| |
| ====Metadata 目錄處理原則====
| |
| 1.皇明觀志metadata
| |
| 會議結論:將佛寺志序、前言及總目錄全拿掉,不放在metadata。(秀麗 99.03.17)
| |
|
| |
| ====Metadata 明丹本與廣陵本更正項目====
| |
| <syntaxhighlight lang="XML">
| |
| 小花建議:
| |
| 1)原稿缺須用中括號括起來,前面要加樹狀結構。(前三個字亦要用中括號括起來)
| |
| ex: <item n="1">1B043P290</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">鶴林寺志-鶴林寺志卷之十二-[原槁缺]</item>
| |
| <item n="4">g045p0005</item>
| |
| <item n="5">[原稿缺]</item>
| |
|
| |
| 2)把分類"杜目錄"變更回"目錄"。如下:
| |
| <item n="2">杜目錄</item> --> <item n="2">目錄</item>
| |
|
| |
| 3)空頁的head <item n="3">none 亦須加上樹狀結構,不作none,
| |
| 用上頁的head,如下:(共292個 + 非空頁但標題為none,僅限內文類。)
| |
|
| |
| <item n="1">1B009P087</item>
| |
| <item n="2">空頁</item>
| |
| <item n="3">重修普陀山志-普陀山志卷一-普陀寺殿圖</item>
| |
| <item n="4">g008p0068</item>
| |
| <item n="5">none</item>
| |
|
| |
| a)書名頁,目錄,及版本說明的<item n="3">none,由小花處理。
| |
| b)先search 空頁,再search none.(none有487個,空頁有292個 + 非空頁但標題為none,)
| |
|
| |
| 4)補上g027 xml (內文第一頁須加上 type="first)
| |
| <div n="1Book028/1B028P311" type="first">
| |
| <list>
| |
| <item n="1">1B028P311</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">雲棲紀事</item>
| |
| <item n="4">g027p0001</item>
| |
| <item n="5">孝義無</item>
| |
| </list>
| |
| </div>
| |
|
| |
| 5)內文的p.1大部份皆為標題名,亦須加上樹狀結構,即志名(type="first"),約100+個。
| |
|
| |
| 6)缺字的部份[?],補上通用字或組字式。若有脫字的部份用<gap/>表示。(明丹本共有880個缺字,其他符號表示的缺字約有400-500)
| |
|
| |
| 7)同一頁有不同層級的title,如下:
| |
| <item n="3">天童寺志-天童寺志卷三-先覺攷-宋-月窗圓禪師/元-環溪一禪師/月坡明禪師</item>
| |
| <item n="4">g012p0231</item>
| |
|
| |
| 改成:用半形的分號隔開,下面的標題作完整的樹狀結構。
| |
|
| |
| <item n="3">
| |
| 天童寺志-天童寺志卷三-先覺攷-宋-月窗圓禪師;
| |
| 天童寺志-天童寺志卷三-先覺攷-元-環溪一禪師/月坡明禪師
| |
| </item>
| |
| <item n="4">g012p0231</item>
| |
|
| |
| 8)g056後之附編一梁京寺記,頁碼為1-4;附編二寺塔記,頁碼為1-6。
| |
| 若照書編,會有頁碼double的問題,故將頁碼續編,為g056p0115~124。(小花建議, 2010/06/07)
| |
|
| |
|
| |
| 小花需處理的問題:
| |
|
| |
| 1)書名頁,目錄及版本說明的<item n="3">none,由小花加上樹狀結構。
| |
| 2)書名頁及目錄的title,小花要用程式加上志名。(每一筆資料皆須志名)
| |
| 3)圖檔切太多:
| |
| 1B042107(頂頭,無匡線),108(少一個字),109(頂頭,無匡線),110(頂頭,無匡線),1B042P639(頂頭,無匡線) 3B023P289(少一個字),2B008P208(圖上面的title不見了)
| |
|
| |
|
| |
| 9)有插圖,貢碼為[前一頁頁碼+英文字母]的部份,將<item n="2">的內容,補上括號”( )”,以與版本說明,亦為[頁碼+英文字母]作為區別。
| |
|
| |
| <div n="1Book015/1B015P050">
| |
| <list>
| |
| <item n="1">1B015P050</item>
| |
| <item n="2">(圖)</item>
| |
| <item n="3">七塔寺志-七塔寺志卷之一-志圖記-七墖報恩禪寺平面全圖</item> <item n="4">g013p0036a</item>
| |
| <item n="5">七墖報</item>
| |
|
| |
| 10)同一頁有兩個以上標題,而第二個標題的內容跨頁時,則目錄上的標題有double的現象。解決方式,第二個標題前加上分號”;”,且作一個完整的樹狀結構。
| |
|
| |
| <div n="1Book001/1B001P078">
| |
| <list>
| |
| <item n="1">1B001P078</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">洛陽伽藍記-洛陽城東伽藍記卷第二-莊嚴寺;洛陽伽藍記-洛陽城東伽藍記卷第二-莊嚴寺秦太上君寺</item> <item n="4">g001p0069</item>
| |
| <item n="5">以石為</item>
| |
|
| |
|
| |
| 11)組字式內有slash出現時,如:[*/*],將slash改成全形,以與標題的slash作為區別。
| |
|
| |
| <div n="1Book026/1B026P151">
| |
| <list>
| |
| <item n="1">1B026P151</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">杭州上天竺講寺志-杭州上天竺講寺志卷之五-尊宿住持品-別傳-[鼓/耳]菴法師/天岸法師</item> <item n="4">g024p0128</item>
| |
| <item n="5">柳公貫</item>
| |
|
| |
|
| |
| </syntaxhighlight>
| |
|
| |
| ====Metadata 問題與解答====
| |
| <syntaxhighlight lang="XML">
| |
|
| |
| 1.目前的 type (書名頁;版本說明;目錄;內文),是否還要再加一個 "圖"的type?---可,
| |
| type多增加一個圖&空頁
| |
| 2. 若內文的漸層超過 3 個以上,是否只取前 3 個即可?---越詳細越好(make sense)
| |
| 3. 前3個字若有一字印刷模糊或者難以辨識,是否可跳過?----以[?]表示
| |
| 4.版本說明及內文插圖無頁碼?
| |
| 版本說明的頁碼:g***none; 內文插圖的頁碼:none (不作g,以跟版本說明作區別)(110冊約只有3~4個無頁碼)
| |
| 5.若是空白頁,標題及末3個字處,統一以"none"表示。
| |
|
| |
| 6.在作metadata時,有些圖檔捨棄不用的原因有:
| |
| 如:g008中,內文頁碼的起始為p3,p3之前掃了4頁,有兩頁是title,另兩頁是空白頁。
| |
| 只能取用兩頁編為p1,p2,另兩頁的空白頁只好沒有編入metadata,原因是沒有頁碼
| |
| 可以使用。(Sophia 2010-3-16)
| |
|
| |
| 7.metadata中,佛寺志圖檔檔名流水號沒有連續的原因是,同一頁double掃瞄了二次,
| |
| 告知伯雍後,delete掉double的部份,故部份的流水號沒有連續。(約有十幾頁左右)(Sophia 2010-3-16)
| |
|
| |
| 8. 原稿缺的表遠方式:
| |
| a)原稿缺的確不是一個tilte,所以最好是作none。
| |
| b)但若想要表達出原稿缺這個問題,但它又不是
| |
| 一個tilte ,即不可作樹狀結構,所以我只作"
| |
| 原稿缺",而無樹狀結構。(Sophia 2010-3-16)
| |
|
| |
| A:開會討論如下,用中括號匡起來。
| |
|
| |
| <div n="1Book043/1B043P345">
| |
| <list>
| |
| <item n="1">1B043P345</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">﹝原稿缺﹞</item>
| |
| <item n="4">g045p0060</item>
| |
| <item n="5">﹝原稿缺﹞</item>
| |
| </list>
| |
| </div>
| |
|
| |
| 9.每一筆資料是否需加志名?(小花提的問題)
| |
|
| |
| <div n="1Book023/1B023P021">
| |
| <list>
| |
| <item n="1">1B023P021</item>
| |
| <item n="2">目錄</item>
| |
| <item n="3">靈隱寺志詳目</item> (靈隱寺志-靈隱寺志詳目)(小花建議)
| |
| <item n="4">g021c018</item>
| |
| <item n="5">靈隱寺</item>
| |
| </list>
| |
| </div>
| |
|
| |
|
| |
| a)請注意:只有內文的title才有樹狀結構,其他部份,如目錄,或書名頁並沒有作樹狀結構,
| |
| 這是當初製作的標準,所以這並不是一個錯誤。目錄及書名頁並沒有第幾卷的問題,也就是說並
| |
| 沒有繁複的層級問題,那是否有作樹狀結構的必要呢?(Sophia 2010-3-16)
| |
|
| |
|
| |
| 10.metadata標題脫漏字的表達方式:(Sophia 3-23)
| |
| a)用一個全形空格。(小花建議)
| |
| b)用一個□。
| |
| c)下標記<gap extent="1" unit="chars" reason="lost"/>
| |
|
| |
| A:開會決議用c) (小花事後建議用 <gap/> )
| |
|
| |
| 11.當文本屬性"不分卷"時,樹狀結構如何產出?
| |
| (1)依內文屬性責成標題。
| |
| (2)如無法責成標題,而自編標題,須加上括弧號{}註明,例如:
| |
| <div n="4Book002/4B002P005" type="first">
| |
| <list>
| |
| <item n="1">4B002P005</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">北京廟宇征存錄-{李圓淨序}/{吳百之序}</item>
| |
| <item n="4">y003p0001</item>
| |
| <item n="5">北京廟</item>
| |
| </list>
| |
| </div>
| |
| (小花跑程式,將括弧號{}轉換中括號[])
| |
| (3)文本"不分卷",因較難產出樹狀結構之層級。惟忠於文本架構,即使到第二層級,也可行。
| |
|
| |
|
| |
| 12.標題如出現簡體字時,是以繁體字為準?
| |
| 不轉換繁體字,仍以簡體字為準。
| |
|
| |
|
| |
| 13.內文同時附有圖表,如何處理?
| |
| 同時做內文與圖表之標題,但以"分號"區分。文本分類屬內文,例如:
| |
| <div n="4Book008/4B008P437">
| |
| <list>
| |
| <item n="1">4B008P437</item>
| |
| <item n="2">內文</item>
| |
| <item n="3">大同武州石窟寺記-支那山西雲岡石窟寺-第二章石窟寺之現狀-大佛殿窟;大同武州石窟寺記-支那山西雲岡石窟寺-第二章石窟寺之現狀-大佛殿平面圖</item>
| |
| <item n="4">y014p0035</item>
| |
| <item n="5">立千仞</item>
| |
| </list>
| |
| </div>
| |
|
| |
| 14.插圖與版本說明的頁碼"a"是如何作區別的?ex:g009p0030a為圖,但左方結構顯示為版本說明。(2010-9-8)
| |
| 加上括孤以為區別,如:<item n="2">(圖)</item>
| |
|
| |
| </syntaxhighlight>
| |
|
| |
| ====metadata 檔案匯入MIX標記架構內====
| |
| MIX架構含:head, mix, map
| |
| 處理人員:小花
| |
|
| |
|
| ===標記作業=== | | ===標記作業=== |
《中國佛寺史志》數位典藏工作手冊
Archive of Buddhist Temple Gazetteers(Service manual)
簡介及目的
簡介:
在中國佛教史料中,佛寺志是一種獨特而重要的文獻,它也是地方志或地方性歷史文獻之一。其主要內容在於:佛寺歷史沿革,建築、建設,高僧傳記、法語詩偈,法脈傳承,感應事跡等,亦有兼及佛寺所在地之地理、人文、風俗的記載,及地圖、建物圖、人像等。通常是由對區域、城市及寺院研究有興趣的學者所編寫,因此此類文獻乃收集各種文本編輯而成。本專案的研究目的,除將佛寺志的珍貴史料數位典藏,廣為流傳之外,並將進行相關佛寺志的書目研究和標記作業,使之成為研究中國佛教歷史不可或缺的數位文獻。適逢財團法人中華佛學研究所推動「漢傳佛教之歷史與教義」研究,本專案有幸獲得該研究經費贊助,執行期間從2008年1月至2010年12月。
有關佛寺志的收集,主要來源為20世紀所印刷的兩套木刻版:
1. Zhongguo Fosi Shizhi Huikan 《中國佛寺史志彙刊》
Taipei, 1980-1985. Compiled by Du Jiexiang 杜潔祥. 110vols
2. Zhongguo fosizhi congkan 《中國佛寺志叢刊》
Hangzhou: Guangling shushe 廣陵書社 2006. Compiled by Zhang Zhi 張智.130 vols.
目的:
本專案預計於2010年之前,將完成超過200座寺志的數位化作業,並公開圖檔資料提供大眾免費使用,其中,至少有12座寺志將提供加上人物、時間與地點標記的數位化全文,同時,在本專案中所識別的人物、時間與地點之資料,將與其他專案的相同資料一併整合至本校「佛學規範資料庫Buddhist Authority Database」之中。除此之外,本專案至2012年之前,將完成相關佛寺志書目研究和標記作業,以提升本典藏之應用價值。
預算及人力
預算:
此專案預計執行年度為97~101,共計5年,由中華佛學研究所贊助。
人力:
程式設計 1人
時程控管 1人
目錄及經緯度建立 1人
標記人員 3人
後設資料建置人員 1人
義工 1人
執行單位
執行單位:法鼓佛教學院數位典藏組
主持人:Marcus Bingenheimer 馬德偉
時程及預算控管:柯春玉
程式及介面撰寫:花金地、李志賢、周邦信
標記技術人員:林智妙、林綉麗、王秀雯、游美燕、何易儒
權威資料庫維護人員:闕慧貞、葛賢敏
參考工具
執行步驟
《中國佛寺志》專案參考工具連結===
標記作業
XML驗證
1Well-form驗證(檢驗文件的標記元素及形式是否正確)
方法:在Oxygen功能列上點選「藍勾勾」
1)若格式正確,則會在文件的右下方出現「綠方格Document is well formed.」訊息。
2)若格式不正確,則會在文件的右下方出現「紅方格Wellformed test - failed. Errors:」訊息,
且在文件下方會列出錯處清單,此時點選條列清單,即可對應到文件的錯區,逐一除錯即可。
ps. 文件若要上傳到FTP,務必得Document is well formed.才能上傳成功。
2Valid驗證(檢驗文件的標記是否符合TEI語法及專案特定的格式)
此項驗證,需借助一支驗證程式(schema):gazetteers.rnc
程式存放路徑 Y:\Projects\fosizhi\master-data\schema\gazetteers.rnc
步驟:
a)在main檔中,Oxygen功能列上點選「紅勾勾旁的倒三角形」
(若未看到紅勾勾,點選功能列上Document→valid→External validation)
b)下拉選單選External validation
c)在validate with 視窗選擇RelaxNG schema,及選擇Compact syntax 模式
d)於URL選擇schema存放路徑
e)按OK
1)若語法正確,則會在文件的右下方出現「綠方格Validation successful」訊息。
2)若語法不正確,則會在文件的右下方出現「紅方格Validtion failed.」訊息,
且在文件下方會列出錯處清單,此時點選條列清單,即可對應到文件的錯區,逐一除錯即可。
規範資料驗證
步驟:1) 若要一次確認多個檔案,請先將XML文本壓縮為.ZIP格式。
2) 在佛學規範資料庫首頁以帳號密碼登入資料庫管理介面
3) 選擇您要進入的部份:5.權威碼檢查
4) 選擇檔案
5) 選擇文本形式:佛寺志
6)(打勾)若驗證成功,自動更新權威資料庫參考
7) 確定
8) 若驗證未成功,則依提示回到文本進行除錯修改,然後再重覆步驟5-7
9) 若驗證成功,則資料庫將會自動更新occurs in
occurs in 呈現在規範資料庫中的原則
1. 不同志,有別名=每一筆都會出現
2. 不同志,同名=每一筆都會出現
3. 同志,有別名=每一筆都會出現
4. 同志,不同卷,同名=只會出現第一筆
上傳到FTP
1上傳文本
步驟:
1)先要設定FTP路徑連線(Freecommand有預設FTP連線功能)
名稱:fosizhi
伺服器主機地址:dev.ddbc.edu.tw
(第一次使用者,請以登入學校信箱的帳號、密碼登入)
按「連線」就完成設定了。
2)將欲上傳的檔案,複製貼到ftp://dev.ddbc.edu.tw/fosizhi_eXist中
3)打開上傳網頁http://dev.ddbc.edu.tw/fosizhi/upload/index.php
(必須以各作業人員學校信箱之帳號與密碼登入網頁)
4)點選"重新檢視"(將會看到預備上傳的檔案)
5)點選"上傳XML"
6)若上傳成功,將出現Upload successful!的訊息
7)回到佛寺志網頁http://dev.ddbc.edu.tw/fosizhi/ui.html
重新載入最新的網頁內容,即可看到更新的資料。
2更新節點
步驟:
1)打開節點上傳網頁http://dev.ddbc.edu.tw/fosizhi/exeQuery.php?getTreeJson=yes
2)點選欲更新節點的志碼
3)稍候片刻,若更新成功,將可看到「資料已寫入/data/projects/fosizhi......」的訊息
4)回到佛寺志網頁http://dev.ddbc.edu.tw/fosizhi/ui.html
重新載入最新的網頁內容,即可看到更新的節點。
Github版本管理操作說明
http://wiki.ddbc.edu.tw/pages/Git
xml轉html
安裝oxygen 9.1
由gxxx_main.xml主檔 呼叫html.xsl
1.開啟gxxx_main.xml主檔,點Configure Transformation Scenario鈕(鉗子+小紅三角形)
進入轉檔介面,選New(第一次建立html檔後,
若所設定的路徑都沒變動的話,以後直接點Transformation now即可;
若有要更改路徑的話,點Edit進入介面去修改即可)
2.進入Edit scenario 介面
a)點XSLT,在XSL URL欄,點選html.xsl檔案的置放路徑(J:\CND\Projects\2008BTG佛寺志\work\標記\標記進行中\html.xsl)
b)點Output,在Save As欄點選html檔案的置放路徑,為html檔命名,然後點OK
3.此時進入到下一個介面,點Transform now,即可產生html檔案
4.轉檔不成功時:修改option/preference/xml/xml parser/xinclude option中有3個選項全打勾
安裝 exist.jnlp 上傳檔案
1. * 沒有java要先安裝(t/java/jdk/jdk-6-windows-i586.exe)
2. 啟動 exist.jnlp 檔才能上傳維護
3. 上傳前具備條件:
(1)main主檔要經valid驗證 --紅勾勾
(2)其他子檔要well form--藍勾勾
4. Uaername:btg → Password:btg →確定
5. 點選BTG(快點兩下)→點選xml(快點兩下)
6. 若要上傳整冊,切勿點選冊數,而要直接點擊工具列上面的 新增icon(+)
找到來源檔案(整冊)→Select files or directories store →Close
7. 若要上傳單卷
請點選冊數,進入冊數後切勿點選分卷,而要直接點擊工具列上面的 新增icon(+)
找到來源檔案(單卷)→Select files or directories store →Close
建立參考書目
●中研院書目參考網址 http://74.125.95.132/search?q=cache:JpyJD9HKveUJ:saturn.ihp.sinica.edu.tw/~dahcr/916c5-b4.doc宋人傳記資料索引&cd=8&hl=zh-TW&ct=clnk
●參考書目人名與書名的中英文寫法<author><hi>Wei</hi> Songshan 魏嵩山</author><title>Zhong Guo Lishi Diming Dacidian 中國歷史地名大辭典</title>
●內文「註」的參考書目寫法(april 9/3)例如:趙一新總編。《杭州佛教文獻叢刊‧慧因寺志》卷七。 (杭州出版社,年代) 參考網址 http://www.ddbc.edu.tw/zh/academic_publishing/submissions_format.html
●存放路徑
Y:\Projects\fosizhi\gazetteerXml\bibliography\gazetteerBibl.XML
● 處理人員:參與此專案有參考到任何書籍者
發行
佛寺志 Web Archives,
佛寺志PDF紙本輸出
一般行政
1. 電腦維修由春玉統一回報資訊組窗口
報修人員並在google文件中,填妥報修情況資訊
內部討論區
(提問者請於問題後註明姓名及日期)
<xml code>
以下為阿賢待處理事項:
sophia:
1.<closer>內頁碼需improve。 (sophia 1/20)
以下紅色字為p.0751的頁首,因整段全包在closer內,故在html上出現在p.0750。
http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g089&cpage=0751
咸[湻=淳]甲戌十月朔旦,迪功郎新寶應軍歲學教授石余亨記,朝奉大夫權戶部尚書兼詳定勅令官浙西安撫制置使兼和臨安府曾淵子篆蓋,當寺僧端楷集,元章米芾書。
p.0751
(元)僧梵琦〈娑羅軒記〉
<closer><date key="j21866902186690" when="1274-11-07">咸<choice><orig>湻</orig><reg>淳</reg></choice>甲戌十月朔旦</date>,迪功郎新寶應軍歲學教授<persName key="A018611">石余亨</persName>記,朝奉大夫權戶部尚書兼詳定勅令官浙西安撫制置使兼和臨安府<persName key="A018613">曾<pb facs="3B010P084.jpg" n="0751"/>淵子</persName>篆蓋,當寺僧<persName key="A018610">端楷</persName>集,<persName key="A004610">元章米芾</persName>書。</closer>
<head>(元)僧<persName key="A001082">梵琦</persName>
〈<placeName key="CN0331023T41AB">娑羅軒</placeName>記〉</head>
2.<figure>內的head無法顯示在左方樹狀結構。(sophia 1/29已寄e-mail通知)
http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g049&cpage=0021
p.0021
普賢菩薩
p.0022
<pb facs="1B045P040.jpg" n="0021"/><figure><head>普賢菩薩</head>
<graphic url="1B045P040.jpg"/></figure>
</xml>