「《中國佛寺志》專案執行步驟」:修訂間差異

出自DILA Wiki
imported>April
imported>Jiayu.xu
無編輯摘要
 
(未顯示由 3 位使用者於中間所作的 61 次修訂)
行 1: 行 1:
== 中國佛寺志專案執行步驟==
中國佛寺志專案執行步驟
===叢書目錄建立===
 
==叢書目錄建立==
1. 明丹本共110冊,廣陵本共130冊,目錄檔路徑:<br>
1. 明丹本共110冊,廣陵本共130冊,目錄檔路徑:<br>
Y:\Projects\fosizhi\master-data\catalog\gazetteerCatalog.xml<br>
Y:\Projects\fosizhi\master-data\catalog\gazetteerCatalog.xml<br>
行 7: 行 8:
Y:\Projects\fosizhi\master-data\catalog\catalogGazetteers_main.xml<br>
Y:\Projects\fosizhi\master-data\catalog\catalogGazetteers_main.xml<br>


===地理資訊建立===
==地理資訊建立==
1. 明丹本檔案路徑:<br>
1. 明丹本檔案路徑:<br>
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfsh.xml<br>
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfsh.xml<br>
行 14: 行 15:
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfc.xml
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfc.xml


=== 輸入===
== 文字 輸入==


====輸入前的準備====
===輸入前的準備===
 搜集網路資料,確認無電子檔時再打字。
 搜集網路資料,確認無電子檔時再打字。


====自行打字 或OCR 或委外輸入====
===自行打字 或OCR 或委外輸入===
=====自行打字=====
====自行打字====
1.量少時適用。<br>
1.量少時適用。<br>
 範例參考:1本書約500頁,10萬字=約5,000元<br>
 範例參考:1本書約500頁,10萬字=約5,000元<br>
http://dev.ddbc.edu.tw/fosizhi/ui.html?book=g019<br>
http://dev.dila.edu.tw/fosizhi/ui.html?book=g019<br>


2.珍貴手 ,不宜外流。<br/>
2.珍貴手 稿 ,不宜外流。<br/>


3.特殊字型<br/>
3.特殊字型<br/>
行 45: 行 46:
  (5)Itranslator 2003:例如打aa,F5:轉換成天城體,F6:轉換成羅馬轉寫,F7:以上二種都有,以上選了F key 後按convert. 註:win7不能用
  (5)Itranslator 2003:例如打aa,F5:轉換成天城體,F6:轉換成羅馬轉寫,F7:以上二種都有,以上選了F key 後按convert. 註:win7不能用
  (6)於網頁上使用:
  (6)於網頁上使用:
    羅馬轉寫字及天城體輸入法:http://www.ashtangayoga.info/philosophy/transkription-tool/ 
    羅馬轉寫字及天城體輸入法:http://www.ashtangayoga.info/philosophy/transkription-tool/


=====OCR=====
====OCR====
 鉛字印刷辨識佳,手抄本錯誤率高。<br/>
 鉛字印刷辨識佳,手抄本錯誤率高。<br/>


=====委外輸入(含粗標)=====
====委外輸入(含粗標)====
 量大時適用<br/>
 量大時適用<br/>


==== 三、 打字份數====
===== 打字份數=====
# 從財力、時程決定打字份數<br>
# 從財力、時程決定打字份數<br>
# 經費不足,且不考慮時程時:輸入1份(電一校)→請義工以書本核對電子檔(電二校)→標記(電三校)→轉PDF(電四校)。<br>
# 經費不足,且不考慮時程時:輸入1份(電一校)→請義工以書本核對電子檔(電二校)→標記(電三校)→轉PDF(電四校)。<br>
# 經費足,時程緊時:輸入2份(含紙一校)→再以2份電子檔以word比對(電二校),目前作業乃到此步驟→有人力再進行電三校。<br>
# 經費足,時程緊時:輸入2份(含紙一校)→再以2份電子檔以word比對(電二校),目前作業乃到此步驟→有人力再進行電三校。<br>


==== 四、 徵選廠商及價格====
=====線上txt檔字數統計=====
http://felix-cat.com/tools/wordcount/
 
===== 徵選廠商及價格=====
 (一)廠商與價格<br/>
 (一)廠商與價格<br/>
   打字價格:(1)中文每千字/80 元 (2)英 文2000bytes( 字母)/80 元(3)日 文1000 / 160元
   打字價格:
(1)中文: 每千字/50~70 。字數計算以word/校閱/字數統計/字元數(不含空白)
(2)英 文:全英文文件:字元數( 含空白)/2*50~70
(3)中英夾雜:以磁碟大小210,000位元組 /2=105,000 ,  (105,000/1000)*50~70=5,250
  詳細計算方式 Y:\Projects\00各專案共用\01行政\04參考範例\通用\外包打字字數計算
(4)日 文500字50元,或1000字160元不等
(5)報價說明檔案 Y:\Projects\行政\外包打
   ●台灣的廠商,價錢通常每千字70至80元。
   ●台灣的廠商,價錢通常每千字70至80元。
   ●大陸的廠商,價錢可壓至每千字50元。
   ●大陸的廠商,價錢可壓至每千字50元。
   ●最佳選擇:台灣有公司且大陸設分部,如此在台灣有連繫窗口,價錢也較低。
   ●最佳選擇:台灣有公司且大陸設分部,如此在台灣有連繫窗口,價錢也較低。
   例1:雅奧出版社中、英文字稿(或中英夾雜),每千字50元,含逐字紙一校。
   例1:雅奧出版社中、英文字稿(或中英夾雜),每千字50元,含逐字紙一校。
   例2:鷄足山書法字難辨識 http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g084
   例2:鷄足山書法字難辨識 http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g084
   以書法字典搜尋:http://www.9610.com/zidian/index.asp?key=%B5%C2& Submit=%CA%E9%B7%A8%D7%D6%B5%E4  
   以書法字典搜尋:http://www.9610.com/zidian/index.asp?key=%B5%C2& Submit=%CA%E9%B7%A8%D7%D6%B5%E4  
   例3:黃檗山志刻本字
   例3:黃檗山志刻本字
     http://buddhistinformatics.ddbc.edu.tw/fosizhi/ui.html?book=g086 
     http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g086 
 (二)人力的配合度:趕工時可增加人力,調配富彈性。<br/>
 (二)人力的配合度:趕工時可增加人力,調配富彈性。<br/>
 (三)財力的配合度:當補助款尚未匯入時,可延遲請款。<br/>
 (三)財力的配合度:當補助款尚未匯入時,可延遲請款。<br/>
 (四)雙方溝通有無障礙。<br/>
 (四)雙方溝通有無障礙。<br/>
 (五)比價 :DDBC 法規:金額 在100 萬元以下 ,20 元(含) 以上者,要請3家(含)以上報價 ,由會計室派員監辦 ,進行三家公開比價、議價。
 (五)比價 :DILA 法規:金額 在20 萬元(含) 以下 者,10 萬以上者,要請3家(含)以上報價,進行三家公開比價、議價。


==== 五、 輸入速度====
===== 輸入速度=====
  視輸入公司的人力而定,通常會配合資方要求的時程。<br/>
  視輸入公司的人力而定,通常會配合資方要求的時程。<br/>
  1分鐘打60字計算,1天約打3萬字,高手1分鐘打100字計算,1天約5萬字。<br/>
  1分鐘打60字計算,1天約打3萬字,高手1分鐘打100字計算,1天約5萬字。<br/>
  例:「漢籍全文佛寺志專案」1個月交件100~150萬字。(含一校及缺字)<br/>
  例:「漢籍全文佛寺志專案」1個月交件100~150萬字。(含一校及缺字)<br/>


==== 六、 錯誤率及減價====
===== 錯誤率及減價=====
  一般錯誤率為千分之四或五。<br/>
  一般錯誤率為千分之四或五。<br/>
  *例:「漢籍佛寺志專案」中研院史語所對廠商的要求為萬分之五;即1萬字錯5字。雙方可協調到認同的階段訂約。<br/>
  *例:「漢籍佛寺志專案」中研院史語所對廠商的要求為萬分之五;即1萬字錯5字。雙方可協調到認同的階段訂約。<br/>
  Y:\Projects\fosizhi\work\標案\中研院\各項規範\輸入採購規範書(100法鼓)_1000516.doc<br/>
  Y:\Projects\fosizhi\work\標案\中研院\各項規範\輸入採購規範書(100法鼓)_1000516.doc<br/>


==== 七、 輸入規範====
===== 輸入規範=====
  1.照書斷行,以利人工校對 。如果以2個電子檔校對就不用照書斷行 。<br/>
  1.照書斷行,以利人工校對。<br/>
  2.底本:以掃瞄圖檔或影印本<br/>
  2.底本:以掃瞄圖檔或影印本<br/>
  3.為達成資源共享,本校數位化作業均以符合國際標準的標記語言進行標記作業,故輸人時會要求廠商加入粗標,以利後段以程式轉成正確TEI Tag其規範書範本,檔案路徑 如下 :Y:\Projects\fosizhi\work\標案\ 中研院\各項規範\ 佛寺志輸入規範書+標記說明.docx<br/>
  3.為達成資源共享,本校數位化作業均以符合國際標準的標記語言進行標記作業,故輸人時會要求廠商加入粗標,以利後段以程式轉成正確TEI Tag其規範書範本,
   檔案路徑:Y:\Projects\2011fosizhi_與 中研院 合作案\04work\各項規範佛寺志輸入規範書+標記說明.docx<br/>
  4.存檔:存成純文字檔.txt,檔名依志、卷、冊順序命名<br/>
  4.存檔:存成純文字檔.txt,檔名依志、卷、冊順序命名<br/>


==== 八、 委外輸入給廠商的檔案方式====
===== 委外輸入 資料 給廠商的檔案方式=====
  1.有掃瞄檔時:以FTP方式傳送<br/>
  1.有掃瞄檔時:以FTP方式傳送<br/>
  2.無掃瞄檔時:影印原書,原書待打完字做為標記使用<br/>
  2.無掃瞄檔時:影印原書,原書待打完字做為標記使用<br/>


==== 九、 輸入完成時交回檔案方式====
===== 輸入完成時交回檔案方式=====
  1. 計算字數:使用word開啟檔案後,點選校閱\字數統計\字元數不含空白的數值計算。<br/>
  1. 計算字數:使用word開啟檔案後,點選校閱\字數統計\字元數不含空白的數值計算。<br/>
  2. 製作google document記錄繳交情形,以掌控進度。<br/>
  2. 製作google document記錄繳交情形,以掌控進度。<br/>
  https://docs.google.com/a/ddbc.edu.tw/spreadsheet/ccc?key=0AvNiyYs1TA4idDhVcmQ2QmprTU4xWTBiYmlFc25KRmc&hl=zh_TW&pli=1#gid=0<br/>
  https://docs.google.com/a/dila.edu.tw/spreadsheet/ccc?key=0AvNiyYs1TA4idDhVcmQ2QmprTU4xWTBiYmlFc25KRmc&hl=zh_TW&pli=1#gid=0<br/>
 
==文字校對==
===有一份輸入電子檔時===
'''以紙本校對電子檔:(精校古字+通用字處理)每小時約可處理1,200字,或每字0.15元 '''<br/>
以書籍+校對稿校對:1天3萬,1小時約3,750字。<br/>
以書籍+校對稿校對:1天3萬~5萬字不等。<br/>
 
打字公司輸入1份(含電一校)→<br/>
請義工以書本核對電子檔(電二校,或每字0.15)→<br/>
標記(電三校)→<br/>
轉PDF(電四校)。<br/>


=== 校對===
=== 有二 份(我方及他方 輸入電子檔時===
1. 有1份輸入電子檔時:<br/>
 打字公司輸入1 份( 含電一校)→<br/>
 請義工以書本核對電子檔(電二校)→<br/>
 標記(電三校)→<br/>
 轉PDF(電四校)。<br/>
2. 有2份( 我方及他方) 輸入電子檔時 :<br/>
  我方打字公司輸入1份(含電一校)→<br/>
  我方打字公司輸入1份(含電一校)→<br/>
  以2份電子檔用word比對(電二校) ,因難免判斷錯誤,故 有餘力時再做電三校 <br/>
  以2份電子檔用word比對(電二校 ,但此法無法周全 →<br/>
  有餘力時再做電三校<br/>


=== 有2 份打字 電子 檔的比對方式===
====二 份打字檔的比對方式====
 可參考方廣錩《藏外佛教文獻》錄文校勘體例
 可參考方廣錩《藏外佛教文獻》錄文校勘體例
http://blog.sina.com.cn/s/blog_53c23f3901009ivf.html
http://blog.sina.com.cn/s/blog_53c23f3901009ivf.html


原則: 儘量 依底本, 打不出來的字 用通用 字。或「 , 底本 都有 時, 一用 「宮 」。
'''每小時約可處理6,000字'''
 
<b> 原則: 第一優先 依底本 字, 打不出來的字 才依循「佛寺志特 處理原則」應對處理之 </b><br>
文件路徑:Y:\Projects\2008fosizhi_全掃描與13志出版\03工作手冊\佛寺志特字處理原則<br>
 
<b>一、比對前先細讀序文 凡例,或能解釋內文難解的符號。</b><br>
 
<b>二、兩檔比對,於文字差異處將會顯示顏色。</b><br>
 
1.比對前注意事項:兩個打字檔的格式應一致。<br>
 (1)兩個打字檔折行與否,應一致。<br>
 (2)先檢查2份打字檔之行首空白格式,如有不同,請用「尋找→取代」功能,統一格式。<br>
 
2.比對前,Word環境的設定<br>
 (1)開啟一空白Word頁面。<br>
 (2)設定修訂格式<br>
    Word功能列→校閱→追蹤修訂→變更追蹤修訂選項(以下設定,可隨個人喜好而設定)<br>
    插入:底線。色彩:紅色<br>
    刪除:刪除線。色彩:藍色<br>
 
3.產生比對檔<br>
 (1)Word功能列→校閱→比較→比較→出現 文件版本比較 小視窗<br>
 (2) 文件版本比較 的設定<br>
   【比較設定】全不勾選<br>
   【顯示變更】變更顯示:文字階層<br>
   【顯示變更】將變更顯示在:新文件<br>
 (3)叫喚打字檔<br>
   1)原始文件:點開欄位旁的資料夾,選擇雅奧打字檔的存放路徑。<br>
     例:Y:\Projects\2014fosizhi_廣陵本粗標\05工作進行\廣陵本電校\雅奧打字檔\.txt檔<br>
     說明:Word是將原始文件當做被修改的 底本 ,因此我們以雅奧的文件當做原始文件<br>
     此時出現檔案轉換小視窗,文字編碼,選擇「其他編碼方式」→Unicode(UTF-8)→確定<br>
   2)修訂的文件:點開欄位旁的資料夾,選擇中研院打字檔的存放路徑。<br>
     例:Y:\Projects\2014fosizhi_廣陵本粗標\05工作進行\廣陵本電校\中研院打字檔\.txt檔<br>
     此時出現檔案轉換小視窗,文字編碼,選擇「其他編碼方式」→Unicode(UTF-8)→確定<br>
 (4)產生比對檔<br>
   此時產生一新word比對檔,依照比對檔中每個相異處,逐一修改於xml檔上。<br>
 
<b>三、使用word比對會遇到的問題</b><br>
(1)比對時,會發現過去打字公司當做通用 處理之罕 字,需另行特字處理。電校 可先以<g/>標之<br>
(2)雙方皆錯產生的差異無法直接採用,要再查證。<br>
(3)比對會顯示標記的不同,無法使之不顯示(因為也是文字)。Word比對功能無法顯示標記與錯字間的差別,而且又多以詞句為單位,所以錯字易摻混其中, 有問題片段需逐字檢查。<br>
(4)顯示方式比較繁雜,需細讀,否則更改後文字次序易混亂。<br>
(5)看不懂的字, 可複製 段文字查網路。<br>
 
<b>四、編碼相容問題處理</b><br>
(1)遇到的問題:目前由於比對是由數名同仁同時處理,所使 電腦之差異造成部分同仁無法以utf-8編碼進行比對的情況,在word校閱->比較->比較(比較文件的兩個版本), 開啟文件選文字編碼時會自動跳到無法正確顯示文字的編碼。(以big5即可開啟)<br>
(2)解決方式:<br>
 (2.1)作比對前以NotePad++將要比對的txt檔編碼編譯(encoding in)為usc 2-Little Endian,待比對結束再轉換(convert to)回utf-8。<br>
 (2.2)以記事本叫txt檔,另存新檔來改變編碼的效果約等於NotePad++的convert to。
   轉為usc 2-Little Endian編碼的txt檔需標為gxxx_gaji_c_B,以利將編碼改回utf-8時的辨認。改回utf-8編碼的txt檔需刪去檔名末尾的「_B 」。<br>
(3)有時候會因為轉檔產生亂碼,因此比對後宜將缺字完成(檔名以"_gaji"結束的檔)與校對完成 (檔名以"_gaji_c_B"或"_gaji_c"結束的檔)的寺志再進行一次比對, 找出亂碼。<br>


一、準備兩檔比對,比對內容為相異字及標逗。<br/>
<b> 五、 案過大問題處理</b><br>
1. 使用notepad++先檢查2份打字電子 之行首空白格式,如有不同請用「尋找.取代」功能,統一格式。<br/>
  (1)遇到 問題 佛寺志篇幅十 龐大 以word 比對 時易造成程式運 遲緩 或產生 問題 。<br>
(1)可避免「問題反映第四項現象問題之產生」。<br/>
  (2) 決方式:轉為xml檔之前 ,可 志分數個 處理,之 併檔 。<br>
2. 使用office的Word校閱/比較 功能來作業,方式如下 <br/>
(1)開啟任一既有Word檔,或空白Word頁面。<br/>
(2)在Word功能列表中「校閱」一項下選「比較」,再選其下有「比較文件的兩個版本」說明文的「比較」。<br/>
(3)Word是將原始文件當做被修改的底本,因此建議最開始就以數典組文件當做原始文件<br/> 
(4)選擇要比較的兩 文件 別當作「原始文件」與「修訂的文件」。並將底下的「顯示變更」設定為將變更顯示在「字 元階層」 將變更顯示於「新文件」。編碼方式選:big5。<br/>
(5)設定完成後點確定並開始參照原文 比對 ,以Word界面上方的「接受」及「拒絕」
對文件做修訂。第一次修訂應以gXXX_gaji_c.txt的檔名另存新檔,文字編碼請選UTF-8,之後則皆以此檔做該文件比對工 。XXX請填各志的三位數編碼。<br/>
(6)摘要資訊中於插入 刪除處按二下即可到文字該處<br/>
(7)原始文件與修訂文件的文字顏色修改:追蹤修訂\變更追蹤選項 <br/>
(8)存檔前,務必先設法紀錄起來修正至文件何處,以利下次繼續比對,並一定要先點選「拒絕文件中的所有變更」才能儲存,否則Word會自動接受文件所有變更。<br/>
如果沒選「拒絕文件中的所有變更」,下次開啟二個檔案時(A:一個是修訂過 產生 的新文件,B:一個是修訂的文件),word有個訊息會出現,回是,A則變成接受所有變更 。<br/>
  回否,最右邊有二個視窗會不見;若由「校閱」點選「檢驗窗格」進入再點選「垂直檢驗窗格」後,則左邊會出現「主文件的變更與註 」視窗 ,可 予以比對。
3. 第二次比對時:
文件的第二次比對時,點選校閱\比較\,原始文件點選新 名:gXXX_gaji_c.txt,修訂文件照舊,\顯示變更\將變更顯示於\點選「原始文件」,這樣才不會不斷產生新文件。
 
4. 使用word比對會遇到的問題<br/>
(1)比對時,會發現過去打字公司當做通用字 處理 之罕用字 需另行特字處理。電校時可先以<g/>標 <br/>
(2)雙方皆錯產生的差異無法直接採用,要 查證。<br/>
(3)比對會顯示標記的不同,無法使之不顯示(因為也是文字)。Word比對功能無法顯示標記與錯字間的差別,而且又多以詞句為單位,所以錯字易摻混其中,
有問題片段需逐字檢查。<br/>
(4)顯示方式比較繁雜,需細讀,否則更改後文字次序易混亂(特別是有一部分的修訂要接受,同時有另一部分的修定要拒絕時) 。<br/>


5. 編碼相容問題處理<br/>
<b> 六、計算「接受變更」 的數 字,以利 析打字公司 錯誤率 步驟如下:</b><br>
(1)遇到 問題:目前由於比對是由 名同仁同時處理,所使用電腦之差異造成部 同仁無法以utf-8編碼進行比對 情況 在word校閱-> 比較->比較( 比較文件的 兩個版本),
(1)以word的 比較(兩個版本 電子檔 功能比較中研院之txt檔及未經電校的dila之txt檔 在畫面上方 「檢閱窗格」項下之任一項, 出現關於修訂 資訊 記下「刪除」的數量得到數字A 。 <br>
開啟文件 文字編碼時 自動跳到無法正確顯示文字 編碼 (以big5即可開啟)<br/> 
  (2)於產生的新檔gXXX_gaji_c.txt經接受、拒絶後檢視窗格插入或刪除的數據業已 改變,故可相減得到一數字B 。<br>
(2)解決方式:<br/>
  (3) 前二步驟所得之A扣去B 得到數字C。C除 總字數後 換算為百分 數字則得 打字公司概括的錯誤率 。<br>
 (2.1)作比對前以NotePad++將要比對的txt檔編碼編譯(encoding in)為usc 2-Little Endian,待比對結束再轉換(convert to)回utf-8 。<br/>
   (2.2)以記事本叫txt檔,另存新檔來 改變 編碼的效果約等於NotePad++的convert to 。<br/>
     轉為usc 2-Little Endian編碼的txt檔需標為gxxx_gaji_c_B,以利 編碼改回utf-8時的辨認。改回utf-8編碼的txt檔需刪去檔名末尾的「_B」。<br/>
(3)有時候會因為轉檔產生亂碼 因此比對後宜將缺字完成(檔名 "_gaji"結束的檔)與校對完成 (檔名以"_gaji_c_B"或"_gaji_c"結束的檔)的寺 志再 進行一次 對,
亂碼 。<br/>


6. 檔案過大 問題 處理
<b>七、 問題 反映</b><br>
(1)遇到 問題:部份佛寺志篇幅十分龐大 以word比對時易造成程式運作遲緩或產生問題
1.各電腦字型顯示有異<br>
(2)解決方式:轉為xml檔之前 ,可 將一志分數個檔案處理,之後再併檔
ex.辦公室電腦能顯示「啟」、「啓」 差別 而筆電法拉利不行 <br>
辦公室電腦則無法正確顯示「為」、 「偽」等字(「為」字上端原有「爪」字頭與倒「八」字頭的差別) 而筆電法拉利 <br>


  二、比對前先細讀序文或凡例,或能解釋內文難解的符號。<br/>
2. 去掉斷行時可用notepad++\取代 輸入\r\n 取代空白即可 。<br>
  三、計算「接受變更」的數字,以利分析打字公司的錯誤率,步驟如下:<br/>
  
  *以word的比較(兩個版本電子檔)功能比較中研院之txt檔及'''未經電校'''的ddbc之txt檔,在畫面上方選「檢閱窗格」項下之任一項,會出現關於修訂的資訊 。<br/> 記下「刪除」的數量得到數字A。
  *於產生的新檔gXXX_gaji_c.txt經接受、拒絶後檢視窗格插入或刪除的數據業已改變,故可相減得到一數字B
  *將前二步驟所得之A扣去B,得到數字C。C除以該志總字數後再換算為百分比數字則得出打字公司概括的錯誤率。
四、看不懂的字,可複製一段文字查網路。


五、電校紀錄
3.TXT檔在WORD無法顯示(亂碼) 且無法自由選擇UTF-8編碼 顯示 呈現。(僅XP作業系統 腦會 此顯示會 此問題)<br>
5.1 與原始文件比對不同 不論刪除、新增等,皆須以「黃色」底線(以下A~D項適用) 顯示 紀錄於gXXX_gaji_c.txt檔,紀錄方式如下要點:
   方法一、先在其他電腦用WORD 確認可正常 顯示 後,點選編譯成UCS2 Little Endian 碼存 檔, 再至 電腦以此檔案用WORD 可用WORD打開 <br>
  5.1.1 兩份打字 子檔皆 ,為字形不同,如戸戶,原始文件為「戶」,比較文件為「戸」,原書木刻板為「戸」,則記錄於原始文件「戶」。 
    方法 用notepad++ 打開 檔案 再全 複製轉貼至WORD轉存為WORD專用 格式 (.dox docx) 即可。<br>
  5.1.2 原始文件漏打字,比較文件 ,則記錄於比較文件之字。
   備註:勿用記事本打開 選複製轉貼,因為仍會有 分異 字會呈現亂碼 識別 <br>
  5.1.3 原始文件多 字(如多打戶) 則記錄於原始文件多打之字並加(d) 顯示(如『戶(d)』)。
  5.1.4 比對兩份打字電子 字形不同(如戸戶) ,原 書木刻板為顯示另一缺字,則兩份 字字形皆做紀錄( 紀錄戸戶)
  5.2 原始文件與原書木刻板比對相同,皆顯示異體字(如戸),如必須改為通用字時,須改字型色彩為「綠色」於原始文件「戸」處,以示區分辨別及記錄,執行 方法 如下:
  5.2.1 使用WORD軟體,執行「尋找及取代」功能(如戸為例),相關欄位點選如下:尋找 取代欄位接填「戸」, 打開 「更多」下拉選項 ,選 取「 格式 」下拉選項/字型
     /所有文字/字型色彩/(無色彩改綠色),按「確定」,再點選「全部取代」 即可 全部一次做完
  5.3  全部 電校完成後, 記得再使用oXygen軟 再開啟檔案 點選「藍色打勾圖示」,check(確認)文件語 是否well-formed 


六、問題反映
4.電校檔案出現錯誤單字連同整行文字出現比對情形 如:g034,p.278原應顯示「來」「来」,卻顯示為「來以一禮數缺卽斥之何以慰後學之心也且追風逐」「来以一禮數缺卽斥之何以慰後學之心也且追風逐」 ,致電校大幅降低電校速度。<br>
  原因:在於比對之兩版本之行首空格格式不同。 一版本行首有空格,一版本行首無空格 )<br>
1.各電腦字型顯示有異
  改善方法:統一比對之兩版本之行首空格格式,即將有行首有空格之版本檔案先用「尋找.取代」功能,去除行首空格並轉存新檔,再重新開啟比對檔,即可。<br>
ex.辦公室電腦能顯示「啟」、「啓」的差別,而筆電法拉利不行。辦公室電腦則無法正確顯示「為」、 「偽」等字(「為」字上端原有「爪」字頭與倒「八」字頭的差別),<br/>而筆電法拉利可以。
  備註:須按原比對方法重新自首行開始作業,無法直接以此版本與另一校對版本做比對 (WORD 會自動識別版本不同,而無法儲存及複製另一校對版本文字資訊。<br>
2. 去掉斷行時可用notepad++\取代 輸入\r\n 取代空白即可。
  ◎因此最好在WORD作業前,先確認兩版本之行首空格格式是否相同 <br>
3.TXT檔在WORD無法顯示(亂碼),且無法自由選擇UTF-8編碼顯示呈現。(僅XP作業系統電腦會有此顯示會有此問題)
  方法一、先在其他電腦用WORD打開,確認可正常顯示後,點選編譯成UCS2 Little Endian 碼存檔,再至原電腦以此檔案用WORD打開即可用WORD打開。
  方法二、用notepad++打開檔案,再全選複製轉貼至WORD轉存為WORD專用格式(.dox docx)即可。
  備註:勿用記事本打開全選複製轉貼,因為仍會有部分異體字會呈現亂碼,無法識別。
4.電校檔案出現錯誤單字連同整行文字出現比對情形( 如:g034,p.278原應顯示「來」「来」,卻顯示為「來以一禮數缺卽斥之何以慰後學之心也且追風逐」<br/> 「来以一禮數缺卽斥之何以慰後學之心也且追風逐」) ,致電校大幅降低電校速度。
  原因:在於比對之兩版本之行首空格格式不同。( 一版本行首有空格,一版本行首無空格)
  改善方法:統一比對之兩版本之行首空格格式,即將有行首有空格之版本檔案先用「尋找.取代」功能,去除行首空格並轉存新檔,再重新開啟比對檔,即可。
    備註:須按原比對方法重新自首行開始作業,無法直接以此版本與另一校對版本做比對(WORD 會自動識別版本不同,而無法儲存及複製另一校對版本文字資訊。
     ◎因此最好<strong> 在WORD作業前,先確認兩版本之行首空格格式是否相同</strong>


== 掃瞄==
== 聽打==
*聽打1小時錄音換算成11.5小時工時,時薪$120來估算。
5 hrs * 11.5 * 120 = $6,900
*聽校依錄音檔時間估算,1小時錄音換算成11.5小時工時,每小時為$120
5 hrs*3*120 = $1,800


    * 選擇掃瞄檔案儲存為Tiff
==掃描==
===掃描工程===
   *掃描廠商資訊Y:\Projects\fosizhi\admin\廠商  
    *選擇掃瞄檔案儲存為Tiff
    * 解析度為400dpi 像素是 1945x2992
    * 解析度為400dpi 像素是 1945x2992
    * 8 bits 灰階。( 不是黑白 )
    * 8 bits 灰階。( 不是黑白 )
行 198: 行 225:
    * jpg檔加浮水印
    * jpg檔加浮水印
    * 切邊
    * 切邊
    * 明丹本掃瞄明細:https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AvNiyYs1TA4idGtaOUJWdldPcy1IclNpN1hmTi1YNlE&hl=zh_TW
    * 明丹本掃瞄明細:https://spreadsheets.google.com/a/dila.edu.tw/ccc?key=0AvNiyYs1TA4idGtaOUJWdldPcy1IclNpN1hmTi1YNlE&hl=zh_TW
    * 廣陵本掃瞄明細:https://spreadsheets.google.com/a/ddbc.edu.tw/ccc?key=0AvNiyYs1TA4icDJXeXRzRF9JNHJUcW5aczR0a1JaRnc&hl=zh_TW
    * 廣陵本掃瞄明細:https://spreadsheets.google.com/a/dila.edu.tw/ccc?key=0AvNiyYs1TA4icDJXeXRzRF9JNHJUcW5aczR0a1JaRnc&hl=zh_TW
    * 檔案:  Y:\Projects\fosizhi\images\
    * 檔案:  Y:\Projects\fosizhi\images\
    * 處理人員:伯雍
    * 處理人員:伯雍
    * 文獻掃瞄要點:http://wiki.ddbc.edu.tw/pages/%E6%96%87%E7%8D%BB%E6%8E%83%E7%9E%84%E4%BD%9C%E6%A5%AD%E8%A6%81%E9%BB%9E
    * 文獻掃瞄要點:http://wiki.dila.edu.tw/pages/%E6%96%87%E7%8D%BB%E6%8E%83%E7%9E%84%E4%BD%9C%E6%A5%AD%E8%A6%81%E9%BB%9E
 
===掃描檔調整===


==圖檔調整==
 準則:以佛寺志兩頁水平一致為原則
 準則:以佛寺志兩頁水平一致為原則
範例:http://dev.dila.edu.tw/fosizhi/ui.html?book=g008


1.以photoshop cs6 開啟圖檔\點選滴管工具\尺標工具
1.以photoshop cs6 開啟圖檔\點選滴管工具\尺標工具
2. 於photoshop\檢視\尺標,可拉出垂直及水平尺標,以檢視線是否有歪掉
3. 在要調整的圖檔,依本有線條的長短拉一直線\再按右上角的拉直圖層


== 檔檢查==
2.於photoshop\檢視\尺標,可拉出垂直及水平尺標,以檢視線是否有歪掉
  目前暫時以下述方式檢查圖檔
 
1.以office picture manager為介面,使用縮圖檢視進行「圖檔檢查」
3.在要調整的圖檔,依本有線條的長短拉一直線\再按右上角的拉直圖層
2.可開一新資料夾將有問題圖檔複製至此資料夾中,以便之後複製圖檔檔名貼上文字文件做成清單,或直接以資料夾當作有問題圖檔之明細
 
=== 掃描 檔檢查===
目前暫時以下述方式檢查圖檔
* 1.以office picture manager為介面,使用縮圖檢視進行「圖檔檢查」
* 2.可開一新資料夾將有問題圖檔複製至此資料夾中,以便之後複製圖檔檔名貼上文字文件做成清單,或直接以資料夾當作有問題圖檔之明細


===Metadata 建置===
==Metadata 建置==


* 建立掃瞄 Tiff 數位圖檔的 Metadata
* 建立掃瞄 Tiff 數位圖檔的 Metadata

於 2021年4月27日 (二) 09:54 的最新修訂

中國佛寺志專案執行步驟

叢書目錄建立

1. 明丹本共110冊,廣陵本共130冊,目錄檔路徑:
Y:\Projects\fosizhi\master-data\catalog\gazetteerCatalog.xml

2. 明丹本與廣陵本版本分析,檔案路徑:
Y:\Projects\fosizhi\master-data\catalog\catalogGazetteers_main.xml

地理資訊建立

1. 明丹本檔案路徑:
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfsh.xml

2. 廣陵本檔案路徑:
Y:\Projects\fosizhi\master-data\catalog\gazetteerKMLzfc.xml

文字輸入

輸入前的準備

搜集網路資料,確認無電子檔時再打字。

自行打字 或OCR 或委外輸入

自行打字

1.量少時適用。
範例參考:1本書約500頁,10萬字=約5,000元
http://dev.dila.edu.tw/fosizhi/ui.html?book=g019

2.珍貴手稿,不宜外流。

3.特殊字型
 ●日文(於控制台\字型\新增日文字型)
 ●羅馬轉寫字、天城體:篇幅不多時打字公司打字時以英文字代替,校對時再修正。

*天城體、羅馬轉寫字、藏文打法如下列:

(1) word內鍵符號,設快速鍵  
(2) 藏文與Wylie(羅馬化的一套文字轉寫系统)互轉:
    軟體:Y:\Projects\fosizhi\work\tools\01輸入法\藏文輸入法_Wylieword\
    作法:word\增益集\按ctrl+T
    註:(A)office2010有相容性的問題,32或64位元。
       (B)安裝在win7時要把程式相容性調成 XP service pack3.
    安裝方式:於程式安裝檔.exe按右鍵點內容,選相容性,以相容性執行這個程式打勾,選XP service pack3.
    例:http://www.asianclassics.org/release6/webdata/monastic/open/html/KD0113M.html
    於上述網址複製一段藏文,按F6 輸入羅馬字可找到藏文
(3)THDL tools:可輸入藏文,且能將藏文以詞譯出英文。且貼上羅馬轉寫字可直接出現藏文。
(4)keyman:多國語言同時完成。
(5)Itranslator 2003:例如打aa,F5:轉換成天城體,F6:轉換成羅馬轉寫,F7:以上二種都有,以上選了F key 後按convert. 註:win7不能用
(6)於網頁上使用:
   羅馬轉寫字及天城體輸入法:http://www.ashtangayoga.info/philosophy/transkription-tool/

OCR

鉛字印刷辨識佳,手抄本錯誤率高。

委外輸入(含粗標)

量大時適用

打字份數
  1. 從財力、時程決定打字份數
  2. 經費不足,且不考慮時程時:輸入1份(電一校)→請義工以書本核對電子檔(電二校)→標記(電三校)→轉PDF(電四校)。
  3. 經費足,時程緊時:輸入2份(含紙一校)→再以2份電子檔以word比對(電二校),目前作業乃到此步驟→有人力再進行電三校。
線上txt檔字數統計

http://felix-cat.com/tools/wordcount/

徵選廠商及價格

(一)廠商與價格

  打字價格:
(1)中文:每千字/50~70元。字數計算以word/校閱/字數統計/字元數(不含空白)
(2)英文:全英文文件:字元數(含空白)/2*50~70元。
(3)中英夾雜:以磁碟大小210,000位元組 /2=105,000 ,  (105,000/1000)*50~70=5,250
 詳細計算方式 Y:\Projects\00各專案共用\01行政\04參考範例\通用\外包打字字數計算
(4)日文500字50元,或1000字160元不等 
(5)報價說明檔案 Y:\Projects\行政\外包打字
 ●台灣的廠商,價錢通常每千字70至80元。
 ●大陸的廠商,價錢可壓至每千字50元。
 ●最佳選擇:台灣有公司且大陸設分部,如此在台灣有連繫窗口,價錢也較低。
  例1:雅奧出版社中、英文字稿(或中英夾雜),每千字50元,含逐字紙一校。
  例2:鷄足山書法字難辨識 http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g084
  以書法字典搜尋:http://www.9610.com/zidian/index.asp?key=%B5%C2& Submit=%CA%E9%B7%A8%D7%D6%B5%E4  
  例3:黃檗山志刻本字
      http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g086 

(二)人力的配合度:趕工時可增加人力,調配富彈性。
(三)財力的配合度:當補助款尚未匯入時,可延遲請款。
(四)雙方溝通有無障礙。
(五)比價:DILA法規:金額在20萬元(含)以下者,10萬以上者,要請3家(含)以上報價,進行三家公開比價、議價。

輸入速度

 視輸入公司的人力而定,通常會配合資方要求的時程。
 1分鐘打60字計算,1天約打3萬字,高手1分鐘打100字計算,1天約5萬字。
 例:「漢籍全文佛寺志專案」1個月交件100~150萬字。(含一校及缺字)

錯誤率及減價

 一般錯誤率為千分之四或五。
 *例:「漢籍佛寺志專案」中研院史語所對廠商的要求為萬分之五;即1萬字錯5字。雙方可協調到認同的階段訂約。
 Y:\Projects\fosizhi\work\標案\中研院\各項規範\輸入採購規範書(100法鼓)_1000516.doc

輸入規範

 1.照書斷行,以利人工校對。
 2.底本:以掃瞄圖檔或影印本
 3.為達成資源共享,本校數位化作業均以符合國際標準的標記語言進行標記作業,故輸人時會要求廠商加入粗標,以利後段以程式轉成正確TEI Tag其規範書範本,

  檔案路徑:Y:\Projects\2011fosizhi_與中研院合作案\04work\各項規範佛寺志輸入規範書+標記說明.docx

 4.存檔:存成純文字檔.txt,檔名依志、卷、冊順序命名

委外輸入資料給廠商的檔案方式

 1.有掃瞄檔時:以FTP方式傳送
 2.無掃瞄檔時:影印原書,原書待打完字做為標記使用

輸入完成時交回檔案方式

 1. 計算字數:使用word開啟檔案後,點選校閱\字數統計\字元數不含空白的數值計算。
 2. 製作google document記錄繳交情形,以掌控進度。
 https://docs.google.com/a/dila.edu.tw/spreadsheet/ccc?key=0AvNiyYs1TA4idDhVcmQ2QmprTU4xWTBiYmlFc25KRmc&hl=zh_TW&pli=1#gid=0

文字校對

有一份輸入電子檔時

以紙本校對電子檔:(精校古字+通用字處理)每小時約可處理1,200字,或每字0.15元 
以書籍+校對稿校對:1天3萬,1小時約3,750字。
以書籍+校對稿校對:1天3萬~5萬字不等。

打字公司輸入1份(含電一校)→
請義工以書本核對電子檔(電二校,或每字0.15)→
標記(電三校)→
轉PDF(電四校)。

有二份(我方及他方)輸入電子檔時

 我方打字公司輸入1份(含電一校)→
 以2份電子檔用word比對(電二校,但此法無法周全)→
 有餘力時再做電三校

二份打字檔的比對方式

可參考方廣錩《藏外佛教文獻》錄文校勘體例 http://blog.sina.com.cn/s/blog_53c23f3901009ivf.html

每小時約可處理6,000字

原則:第一優先依底本字,打不出來的字才依循「佛寺志特字處理原則」應對處理之。
文件路徑:Y:\Projects\2008fosizhi_全掃描與13志出版\03工作手冊\佛寺志特字處理原則

一、比對前先細讀序文或凡例,或能解釋內文難解的符號。

二、兩檔比對,於文字差異處將會顯示顏色。

1.比對前注意事項:兩個打字檔的格式應一致。
 (1)兩個打字檔折行與否,應一致。
 (2)先檢查2份打字檔之行首空白格式,如有不同,請用「尋找→取代」功能,統一格式。

2.比對前,Word環境的設定
 (1)開啟一空白Word頁面。
 (2)設定修訂格式
    Word功能列→校閱→追蹤修訂→變更追蹤修訂選項(以下設定,可隨個人喜好而設定)
    插入:底線。色彩:紅色
    刪除:刪除線。色彩:藍色

3.產生比對檔
 (1)Word功能列→校閱→比較→比較→出現「文件版本比較」小視窗
 (2)「文件版本比較」的設定
   【比較設定】全不勾選
   【顯示變更】變更顯示:文字階層
   【顯示變更】將變更顯示在:新文件
 (3)叫喚打字檔
   1)原始文件:點開欄位旁的資料夾,選擇雅奧打字檔的存放路徑。
     例:Y:\Projects\2014fosizhi_廣陵本粗標\05工作進行\廣陵本電校\雅奧打字檔\.txt檔
     說明:Word是將原始文件當做被修改的底本,因此我們以雅奧的文件當做原始文件
     此時出現檔案轉換小視窗,文字編碼,選擇「其他編碼方式」→Unicode(UTF-8)→確定
   2)修訂的文件:點開欄位旁的資料夾,選擇中研院打字檔的存放路徑。
     例:Y:\Projects\2014fosizhi_廣陵本粗標\05工作進行\廣陵本電校\中研院打字檔\.txt檔
     此時出現檔案轉換小視窗,文字編碼,選擇「其他編碼方式」→Unicode(UTF-8)→確定
 (4)產生比對檔
   此時產生一新word比對檔,依照比對檔中每個相異處,逐一修改於xml檔上。

三、使用word比對會遇到的問題
(1)比對時,會發現過去打字公司當做通用字處理之罕用字,需另行特字處理。電校時可先以<g/>標之
(2)雙方皆錯產生的差異無法直接採用,要再查證。
(3)比對會顯示標記的不同,無法使之不顯示(因為也是文字)。Word比對功能無法顯示標記與錯字間的差別,而且又多以詞句為單位,所以錯字易摻混其中, 有問題片段需逐字檢查。
(4)顯示方式比較繁雜,需細讀,否則更改後文字次序易混亂。
(5)看不懂的字,可複製一段文字查網路。

四、編碼相容問題處理
(1)遇到的問題:目前由於比對是由數名同仁同時處理,所使用電腦之差異造成部分同仁無法以utf-8編碼進行比對的情況,在word校閱->比較->比較(比較文件的兩個版本), 開啟文件選文字編碼時會自動跳到無法正確顯示文字的編碼。(以big5即可開啟)
(2)解決方式:
 (2.1)作比對前以NotePad++將要比對的txt檔編碼編譯(encoding in)為usc 2-Little Endian,待比對結束再轉換(convert to)回utf-8。
 (2.2)以記事本叫txt檔,另存新檔來改變編碼的效果約等於NotePad++的convert to。    轉為usc 2-Little Endian編碼的txt檔需標為gxxx_gaji_c_B,以利將編碼改回utf-8時的辨認。改回utf-8編碼的txt檔需刪去檔名末尾的「_B」。
(3)有時候會因為轉檔產生亂碼,因此比對後宜將缺字完成(檔名以"_gaji"結束的檔)與校對完成 (檔名以"_gaji_c_B"或"_gaji_c"結束的檔)的寺志再進行一次比對, 找出亂碼。

五、檔案過大問題處理
(1)遇到的問題:部份佛寺志篇幅十分龐大,以word比對時易造成程式運作遲緩或產生問題。
(2)解決方式:轉為xml檔之前,可將一志分數個檔案處理,之後再併檔。

六、計算「接受變更」的數字,以利分析打字公司的錯誤率,步驟如下:
(1)以word的比較(兩個版本電子檔)功能比較中研院之txt檔及未經電校的dila之txt檔,在畫面上方選「檢閱窗格」項下之任一項,會出現關於修訂的資訊。記下「刪除」的數量得到數字A。
(2)於產生的新檔gXXX_gaji_c.txt經接受、拒絶後檢視窗格插入或刪除的數據業已改變,故可相減得到一數字B。
(3)將前二步驟所得之A扣去B,得到數字C。C除以該志總字數後再換算為百分比數字則得出打字公司概括的錯誤率。

七、問題反映
1.各電腦字型顯示有異
ex.辦公室電腦能顯示「啟」、「啓」的差別,而筆電法拉利不行。
辦公室電腦則無法正確顯示「為」、 「偽」等字(「為」字上端原有「爪」字頭與倒「八」字頭的差別),而筆電法拉利可以。

2. 去掉斷行時可用notepad++\取代 輸入\r\n 取代空白即可。

3.TXT檔在WORD無法顯示(亂碼),且無法自由選擇UTF-8編碼顯示呈現。(僅XP作業系統電腦會有此顯示會有此問題)
 方法一、先在其他電腦用WORD打開,確認可正常顯示後,點選編譯成UCS2 Little Endian 碼存檔,再至原電腦以此檔案用WORD打開即可用WORD打開。
 方法二、用notepad++打開檔案,再全選複製轉貼至WORD轉存為WORD專用格式(.dox docx)即可。
 備註:勿用記事本打開全選複製轉貼,因為仍會有部分異體字會呈現亂碼,無法識別。

4.電校檔案出現錯誤單字連同整行文字出現比對情形(如:g034,p.278原應顯示「來」「来」,卻顯示為「來以一禮數缺卽斥之何以慰後學之心也且追風逐」「来以一禮數缺卽斥之何以慰後學之心也且追風逐」),致電校大幅降低電校速度。
 原因:在於比對之兩版本之行首空格格式不同。(一版本行首有空格,一版本行首無空格)
 改善方法:統一比對之兩版本之行首空格格式,即將有行首有空格之版本檔案先用「尋找.取代」功能,去除行首空格並轉存新檔,再重新開啟比對檔,即可。
 備註:須按原比對方法重新自首行開始作業,無法直接以此版本與另一校對版本做比對(WORD會自動識別版本不同,而無法儲存及複製另一校對版本文字資訊。
 ◎因此最好在WORD作業前,先確認兩版本之行首空格格式是否相同。

聽打

  • 聽打1小時錄音換算成11.5小時工時,時薪$120來估算。

5 hrs * 11.5 * 120 = $6,900

  • 聽校依錄音檔時間估算,1小時錄音換算成11.5小時工時,每小時為$120

5 hrs*3*120 = $1,800

掃描

掃描工程

   *掃描廠商資訊Y:\Projects\fosizhi\admin\廠商    
   *選擇掃瞄檔案儲存為Tiff
   * 解析度為400dpi 像素是 1945x2992
   * 8 bits 灰階。( 不是黑白 )
   * Tiff 轉 jpg(網頁用)
   * Jpg 為 Tif的4/1 像素是 486x768
   * jpg檔加浮水印
   * 切邊
   * 明丹本掃瞄明細:https://spreadsheets.google.com/a/dila.edu.tw/ccc?key=0AvNiyYs1TA4idGtaOUJWdldPcy1IclNpN1hmTi1YNlE&hl=zh_TW
   * 廣陵本掃瞄明細:https://spreadsheets.google.com/a/dila.edu.tw/ccc?key=0AvNiyYs1TA4icDJXeXRzRF9JNHJUcW5aczR0a1JaRnc&hl=zh_TW
   * 檔案:  Y:\Projects\fosizhi\images\
   * 處理人員:伯雍
   * 文獻掃瞄要點:http://wiki.dila.edu.tw/pages/%E6%96%87%E7%8D%BB%E6%8E%83%E7%9E%84%E4%BD%9C%E6%A5%AD%E8%A6%81%E9%BB%9E

掃描檔調整

準則:以佛寺志兩頁水平一致為原則

範例:http://dev.dila.edu.tw/fosizhi/ui.html?book=g008

1.以photoshop cs6 開啟圖檔\點選滴管工具\尺標工具

2.於photoshop\檢視\尺標,可拉出垂直及水平尺標,以檢視線是否有歪掉

3.在要調整的圖檔,依本有線條的長短拉一直線\再按右上角的拉直圖層

掃描檔檢查

目前暫時以下述方式檢查圖檔

  • 1.以office picture manager為介面,使用縮圖檢視進行「圖檔檢查」。
  • 2.可開一新資料夾將有問題圖檔複製至此資料夾中,以便之後複製圖檔檔名貼上文字文件做成清單,或直接以資料夾當作有問題圖檔之明細。

Metadata 建置

  • 建立掃瞄 Tiff 數位圖檔的 Metadata
  • 一本佛寺志各頁的掃瞄圖檔放在同一資料夾
  • 一本佛寺志掃瞄圖檔資料夾對應一個 Metadata 的檔案
  • Metadata檔案內依序記錄每張掃瞄圖檔之資訊, 關於該 Metadata 檔案說明請參考: 佛寺志_Content_Metadata_Version_2
  • 每張圖檔資訊記於一組 <div></div>
  • 檔案放在: Y:\Projects\fosizhi\gazetteerTxt\
  • 處理人員:家名,秀雯,琇麗,小花
 
(一)內容說明:
<div n="1Book005/1B005P011">
<list>
<item n="1">1B005P011</item>
<item n="2">內文</item>
<item n="3">金陵梵刹志-金陵梵刹志卷二十二-放生池記</item>
<item n="4">g006p0978</item>
<item n="5">放生池</item>
</list>
</div>

A.<item n="1">1B005P011</item>
  1)指數位圖檔的檔名。
  2)每一頁都有一個數位圖檔。

B.<item n="2">內文</item>
 1)志文分成5個分類:a)書名頁或題詞 b)版本說明 c)目錄 d)內文 e)圖 f)空頁。

    注意:a)古文內的目錄,分類屬"內文",標題則作"目錄"。
      (因古籍內的目錄有頁碼,屬古籍內文的一份部,頁碼為g***p****。)
      b)空頁:指全部空白。若有格線,只是沒有文字的話,則作"內文"類。

C.<item n="3">金陵梵刹志-金陵梵刹志卷二十二-放生池記</item>
  1)每頁的標題。
  2)以「-」(dash)表達漸層關係。
  3)以「/」(slash)隔開同一頁上的不同標題。
  4)若是空白頁,無標題,以”none”表示。

D.<item n="4">g006p0978</item>
  1)頁碼:前3碼為志碼,後4碼為內文本身的頁碼。
  2)頁碼種類如下:

    a)書名頁頁碼(f+1碼數字):g***f*
    b)版本說明頁碼(無頁碼):g***p0000a   
    c)目錄頁碼(c+3碼數字):g***c***
    d)內文頁碼(p+4碼數字):g***p****
    
  注意:1)頁碼都以小寫表達,組成方式是:[志碼+頁碼]
       2)若插圖無頁碼,則以[前一頁的頁碼+英文字母]。
       3)需另外記錄插圖的數目,以作統計使用。
     4)無頁碼的編碼原則:前一頁頁碼+英文字母。

         a)舉例:

           g***p0011
           無頁碼-----------則編為:g***p0011a
           g***p0012

          b)版本說明,因無前一頁,故編為:g***p0000a  

E.<item n="5">放生池</item>
  1)"可辨識"的前三個字,從每一頁的右上角數過來。
  2)若無前3個字,如空白頁,則以"none"表示。
  3)若遇糢糊不清的字,則向下遞補,取可辨識的字。(Sophia 10-14-2009 updated according to小花's saying.)

(二)注意:
  1)每一個數位檔都需對照文本,以確定數位檔沒有lost,
    若有任何一個lost,則後面所有的metadata資料無法與圖檔對照起來。
  2)若有數位檔檔lost的部份,請與伯雍聯繫,請他更正補上。

(三)缺字:
 1)至cbeta漢字工具,教育部異體字網站,unicode查找。
 2)若無法貼上,需作缺字庫。(事後決議用通用字或組字式。updated by Sophia 2010-03)

(四)完成檔案:
 1)以.txt 存於 Y:\Projects\fosizhi\images\Temple_Gazetteers_Tiff
   與佛寺志的數位圖檔放在一起。
 2)每一個資料夾對應一個Metadata的檔案。
 3)資料夾 1Book001 表佛寺志第一輯的第一本數位圖檔,對應1Book001.txt
   (updated by Sophia 2009-06-25)

Metadata 目錄處理原則

1.皇明觀志metadata
  會議結論:將佛寺志序、前言及總目錄全拿掉,不放在metadata。(秀麗 99.03.17)

Metadata 明丹本與廣陵本更正項目

小花建議:
1)原稿缺須用中括號括起來,前面要加樹狀結構。(前三個字亦要用中括號括起來)
  ex:       <item n="1">1B043P290</item>
            <item n="2">內文</item>
            <item n="3">鶴林寺志-鶴林寺志卷之十二-[原槁缺]</item>
            <item n="4">g045p0005</item>
            <item n="5">[原稿缺]</item>

2)把分類"杜目錄"變更回"目錄"。如下:
<item n="2">杜目錄</item> -->  <item n="2">目錄</item>

3)空頁的head <item n="3">none 亦須加上樹狀結構,不作none,
  用上頁的head,如下:(共292個 + 非空頁但標題為none,僅限內文類。)

            <item n="1">1B009P087</item>
            <item n="2">空頁</item>
            <item n="3">重修普陀山志-普陀山志卷一-普陀寺殿圖</item>
            <item n="4">g008p0068</item>
            <item n="5">none</item>
         
 a)書名頁,目錄,及版本說明的<item n="3">none,由小花處理。
 b)先search 空頁,再search none.(none有487個,空頁有292個 + 非空頁但標題為none,)

4)補上g027 xml (內文第一頁須加上 type="first)
  <div n="1Book028/1B028P311" type="first">
        <list>
            <item n="1">1B028P311</item>
            <item n="2">內文</item>
            <item n="3">雲棲紀事</item>
            <item n="4">g027p0001</item>
            <item n="5">孝義無</item>
        </list>
    </div>

5)內文的p.1大部份皆為標題名,亦須加上樹狀結構,即志名(type="first"),約100+個。

6)缺字的部份[?],補上通用字或組字式。若有脫字的部份用<gap/>表示。(明丹本共有880個缺字,其他符號表示的缺字約有400-500)

7)同一頁有不同層級的title,如下:
  <item n="3">天童寺志-天童寺志卷三-先覺攷-宋-月窗圓禪師/元-環溪一禪師/月坡明禪師</item> 
  <item n="4">g012p0231</item>

改成:用半形的分號隔開,下面的標題作完整的樹狀結構。

<item n="3">
天童寺志-天童寺志卷三-先覺攷-宋-月窗圓禪師;
天童寺志-天童寺志卷三-先覺攷-元-環溪一禪師/月坡明禪師
</item>
<item n="4">g012p0231</item>

8)g056後之附編一梁京寺記,頁碼為1-4;附編二寺塔記,頁碼為1-6。
 若照書編,會有頁碼double的問題,故將頁碼續編,為g056p0115~124。(小花建議, 2010/06/07)


小花需處理的問題:

1)書名頁,目錄及版本說明的<item n="3">none,由小花加上樹狀結構。
2)書名頁及目錄的title,小花要用程式加上志名。(每一筆資料皆須志名)
3)圖檔切太多:
  1B042107(頂頭,無匡線),108(少一個字),109(頂頭,無匡線),110(頂頭,無匡線),1B042P639(頂頭,無匡線)  3B023P289(少一個字),2B008P208(圖上面的title不見了)


9)有插圖,貢碼為[前一頁頁碼+英文字母]的部份,將<item n="2">的內容,補上括號”( )”,以與版本說明,亦為[頁碼+英文字母]作為區別。

<div n="1Book015/1B015P050">
          <list>
            <item n="1">1B015P050</item>
            <item n="2">(圖)</item>
            <item n="3">七塔寺志-七塔寺志卷之一-志圖記-七墖報恩禪寺平面全圖</item>            <item n="4">g013p0036a</item>
            <item n="5">七墖報</item>

10)同一頁有兩個以上標題,而第二個標題的內容跨頁時,則目錄上的標題有double的現象。解決方式,第二個標題前加上分號”;”,且作一個完整的樹狀結構。

<div n="1Book001/1B001P078">
          <list>
            <item n="1">1B001P078</item>
            <item n="2">內文</item>
            <item n="3">洛陽伽藍記-洛陽城東伽藍記卷第二-莊嚴寺;洛陽伽藍記-洛陽城東伽藍記卷第二-莊嚴寺秦太上君寺</item>            <item n="4">g001p0069</item>
            <item n="5">以石為</item>


11)組字式內有slash出現時,如:[*/*],將slash改成全形,以與標題的slash作為區別。

<div n="1Book026/1B026P151">
          <list>
            <item n="1">1B026P151</item>
            <item n="2">內文</item>
<item n="3">杭州上天竺講寺志-杭州上天竺講寺志卷之五-尊宿住持品-別傳-[鼓/耳]菴法師/天岸法師</item>            <item n="4">g024p0128</item>
            <item n="5">柳公貫</item>

Metadata 問題與解答

1.目前的 type (書名頁;版本說明;目錄;內文),是否還要再加一個 "圖"的type?---可,
   type多增加一個圖&空頁
2. 若內文的漸層超過 3 個以上,是否只取前 3 個即可?---越詳細越好(make sense)
3. 前3個字若有一字印刷模糊或者難以辨識,是否可跳過?----以[?]表示
4.版本說明及內文插圖無頁碼?
  版本說明的頁碼:g***none; 內文插圖的頁碼:none (不作g,以跟版本說明作區別)(110冊約只有3~4個無頁碼)
5.若是空白頁,標題及末3個字處,統一以"none"表示。

6.在作metadata時,有些圖檔捨棄不用的原因有:
   如:g008中,內文頁碼的起始為p3,p3之前掃了4頁,有兩頁是title,另兩頁是空白頁。
   只能取用兩頁編為p1,p2,另兩頁的空白頁只好沒有編入metadata,原因是沒有頁碼
   可以使用。(Sophia 2010-3-16)
 
7.metadata中,佛寺志圖檔檔名流水號沒有連續的原因是,同一頁double掃瞄了二次,
 告知伯雍後,delete掉double的部份,故部份的流水號沒有連續。(約有十幾頁左右)(Sophia 2010-3-16)
 
8. 原稿缺的表遠方式:
    a)原稿缺的確不是一個tilte,所以最好是作none。
    b)但若想要表達出原稿缺這個問題,但它又不是
      一個tilte ,即不可作樹狀結構,所以我只作"
      原稿缺",而無樹狀結構。(Sophia 2010-3-16)
 
    A:開會討論如下,用中括號匡起來。

<div n="1Book043/1B043P345">
          <list>
            <item n="1">1B043P345</item>
            <item n="2">內文</item>
            <item n="3">﹝原稿缺﹞</item>
            <item n="4">g045p0060</item>
            <item n="5">﹝原稿缺﹞</item>
          </list>
        </div>

9.每一筆資料是否需加志名?(小花提的問題)
 
<div n="1Book023/1B023P021">
          <list>
            <item n="1">1B023P021</item>
            <item n="2">目錄</item>
            <item n="3">靈隱寺志詳目</item>  (靈隱寺志-靈隱寺志詳目)(小花建議)
            <item n="4">g021c018</item>
            <item n="5">靈隱寺</item>
          </list>
        </div>
 
 
a)請注意:只有內文的title才有樹狀結構,其他部份,如目錄,或書名頁並沒有作樹狀結構,
這是當初製作的標準,所以這並不是一個錯誤。目錄及書名頁並沒有第幾卷的問題,也就是說並
沒有繁複的層級問題,那是否有作樹狀結構的必要呢?(Sophia 2010-3-16)


10.metadata標題脫漏字的表達方式:(Sophia 3-23)
 a)用一個全形空格。(小花建議)
  b)用一個□。
  c)下標記<gap extent="1" unit="chars" reason="lost"/>

A:開會決議用c)  (小花事後建議用 <gap/> )

11.當文本屬性"不分卷"時,樹狀結構如何產出?
  (1)依內文屬性責成標題。
  (2)如無法責成標題,而自編標題,須加上括弧號{}註明,例如:
<div n="4Book002/4B002P005" type="first">
<list>
<item n="1">4B002P005</item>
<item n="2">內文</item>
<item n="3">北京廟宇征存錄-{李圓淨序}/{吳百之序}</item> 
<item n="4">y003p0001</item>
<item n="5">北京廟</item>
</list>
</div>
(小花跑程式,將括弧號{}轉換中括號[])
  (3)文本"不分卷",因較難產出樹狀結構之層級。惟忠於文本架構,即使到第二層級,也可行。


12.標題如出現簡體字時,是以繁體字為準?
   不轉換繁體字,仍以簡體字為準。


13.內文同時附有圖表,如何處理?
  同時做內文與圖表之標題,但以"分號"區分。文本分類屬內文,例如:
<div n="4Book008/4B008P437">
<list>
<item n="1">4B008P437</item>
<item n="2">內文</item>
<item n="3">大同武州石窟寺記-支那山西雲岡石窟寺-第二章石窟寺之現狀-大佛殿窟;大同武州石窟寺記-支那山西雲岡石窟寺-第二章石窟寺之現狀-大佛殿平面圖</item>
<item n="4">y014p0035</item>
<item n="5">立千仞</item>
</list>
</div>

14.插圖與版本說明的頁碼"a"是如何作區別的?ex:g009p0030a為圖,但左方結構顯示為版本說明。(2010-9-8)
   加上括孤以為區別,如:<item n="2">(圖)</item>

metadata 檔案匯入MIX標記架構內

MIX架構含:head, mix, map
處理人員:小花