於 2012年8月10日 (五) 16:58 的修訂

回《中國佛寺史志》數位典藏工作手冊 Archive of Buddhist Temple Gazetteers（Service manual）

回《中國佛寺史志》標記作業]

佛寺志專案特字處理

作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式：

點選另存新檔。
在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理原則

特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），然後再根據文字本身（或搭配前後文）是否易於辨識而做應對的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。
例如：静，徳，録，䟽

如果 unicode 有編碼，但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到，而「The Unicode Standard」欄位看不到圖檔，例如 U+2F8BB，超出 Extension-D(U+2B740-U+2B81D) 的範圍，現有軟體支援較少。而且這個字容易辨識可與「捨」通用，只是在「口」之上的一豎稍微凸出來一點，就直接採用通用字「捨」，不必另加標記。(根據 2011.9.27 會議結論)

額外的參考做法：以部首為判斷標準，二字間凡具異體字或通用字關係而部首不同者，無論字體多接近，皆加<choice>。例如：「嘗」（口部）與「甞」（甘部），部首不同，判斷要加記號；「峰」與「峯」部首相同，聲符亦未有差異，僅是改變形符（於此例中兼部首）與聲符相對位置，則考慮不標記。

不易辨識

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <choice>。

例如：㝎（定），灋（法），銕（鐵）。（見圖二）

標記：

<choice>
  <orig>文本原字(unicode)</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例：

優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香

（通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）

請注意：同一篇文章（同一最小層級標題之下），有同一字重複出現「不易讀懂，罕用字」情況時，為避免同一字被頻繁標記，惟其第一次出現需加標示。但倘使最小層級標題涵括的內文過短，則易因範圍太小，無法達到的效果；為加大範圍，得斟酌改以較高層級的標題判斷一字是否重覆標記。

有歧義

若文字本身有歧義，易使讀者對句意產生誤會者（即文字本身雖為一般字，但在此另當別解時），則標記 <choice>。
例如：縣（「懸」的通假字），餉（「晌」的通假字）

標法：

<choice>
  <sic>文本原字</sic>
  <reg resp="ddbc.da">消歧字</reg>
</choice>

範例：

萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久

無 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），但有通用字時，則選用其通用字，而不做任何標記。

少一撇、多一點的字：不標記（選擇用通用字）。例：播，余。（見圖一）(註:標記亦不算錯，只要文本一致就可以了。2012/6/1 confirm with Marcus)
刻版慣例，書寫習慣：不標記（選擇用通用字）。例：於，所。（見圖一）
搭配前後文易於辨識者：不標記（選擇用通用字）。例：關。（見圖一）

不易辨識, 有通用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <reg>。
例如：[叠*毛]＝㲲。（見圖三）

標法：

<reg>通用字</reg>

範例：

青天飛一錫，白<reg>㲲</reg>入孤雲。

不易辨識, 無通用字

此字不易於辨識者（不易讀懂，罕用字），無通用字時，則標記 <g>，並需建立缺字檔。（缺字建檔方法見【附一】）
例如：[悖*力]。（見圖四）

標法：

<g ref="#btg圖檔檔名"/>（圖檔檔名＝志碼3碼＋頁碼4碼＋流水號2碼）例：<g ref="#btg010052801"/>

範例：

頓令須彌倒卓，<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。

重複字

如何統一各志間特字處理方式

由於外包打字公司以及特字處理人員，面對同一字，可能因各種因素導致作業前期和作業後期處理方式不同的情況（例如打字人員因時常遇到特定難字，對該字變得熟悉，於是不標代表需做特字處理記號，而直接輸入該字）。若要使各志以及同一志前後文在特字處理上達到一致性，就必須進行統一各志間特字處理方式的工作，建議全套佛寺志完成後再做這部份作業較有效率。

目前處理方式如下：

一、打開NotePad++，並開啟所有已完成特字處理的文件。 p.s.應注意若以NotePad++開啟g032的txt檔時易出問題，則可改開g032的xml檔。

二、挑選一個檔案，建議從最前面或最後面的檔案開始，較不易遺漏。

三、Ctrl+F 使用「找下一個」搜尋「<choice>」，一次找一筆，原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。以g001為例，第一筆<choice>應該會找到「<choice><orig>𠇍</orig>......</choice>」。

四、每找到一筆<choice>，就使用「搜尋所有開啟文件」尋找<orig>　</orig>之間的字。承前例，以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。

五、一一判斷上一步驟搜尋所得的每一筆結果，接著以正確的方式處理之。承前例，判斷各佛寺志出現的「𠇍」字是否都妥當處理，若無，則加以處理。

六、確定所有開啟的佛寺志都完成上一步驟後，才算完成一個字在各志間的「統一各志間特字處理方式」之作業。接著應回步驟三，找到下一個字，然後繼續針對得到的字做步驟四到五。再承前例，全部佛寺志出現過的「𠇍」字都妥當處理後，繼續藉「找下一個」搜尋「<choice>」，找出接下來應處理的字是「䟦」，然後針對「䟦」字做步驟四到五。

七、不斷重覆步驟三至步驟五，直到一個志全部標過<choice>的字都經過步驟三到五的處理，就能換下一個志，但仍應將此志維持開啟，以利處理其他佛寺志特字時，搜到此志應處理而未處理的字。承前例，處理g002時，g001應維持開啟。

八、當所有開啟的佛寺志都完成步驟三至六以後，便算是完成「統一各志間特字處理方式」的工作。

訛字處理

文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。

標法：

<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>

範例：

一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落

漏字處理

文本中的缺漏字，或模糊不清的字，或難以讀懂的字，則標「省略」標記 <gap>。

缺漏字

缺漏幾個文字

標法：<gap extent="1" unit="chars" reason="lost"/>

註：unit 屬性是單位，extent 屬性是有幾個單位，本例中 unit="chars"，extent="1" 便表示有１個字。

缺漏一段文字

標法：<gap extent="unknown" unit="chars" reason="lost"/>

補字標記：

文本原無此字，在他處找到該處可填某字的根據。

標法：<supplied reason="lost">闕漏字</supplied><note resp="ddbc.da">參考來源</note>

呈現方式：[ [ 所補的字 ] ][註]

模糊不清的字

標法：<gap extent="2" unit="chars" reason="unclear"/>

難以讀懂的字（例如草書字）

標法：<gap extent="3" unit="chars" reason="illegible"/>

底本本身的刪塗、訂正字

訂正字
  <del>刪塗字</del>
  <add>原著(編)者訂正字</add>

例：（g094p0206）
  <del>行</del>
  <add>存</add>


呈現方式：
<del>行</del>（劃一橫線表示刪去）
{存}（加上大括弧表示原著(編)者訂正字）

若刪除的字辨識不清時，reason用 "cancelled"：

<del><gap extent="2" unit="chars" reason="cancelled"/></del>

缺字建檔

佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq

缺字建置步驟

登入缺字庫網頁，輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」，按「新增一筆」，產生一個缺字id：<glyph xml:id="">。缺字編碼原則：btg（佛寺志）XXX（志碼3碼）XXXX（頁碼4碼）XX（序號2碼），例如：阿育王山志第298頁第4個缺字[口*斗]的id是：btg010029804
<glyphName>：選擇是否為unicode編碼字，若為unicode編碼字，則採用Decimal碼。
<charProp>：若知其發音，則點選「再增加一個charProp」。
1. <localName>：若知其發音，則選pronunciation。
2. <value>：欄內填入此字之漢語拼音。例：媽ma1，嗎ma5，恰qia4（第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5）
<mapping type>：有common（通用字）、cbeta（CBETA組字式）、cbetaNo（CB碼）、unicode（unicode Decimal碼）、MoEvariant（教育部異體字編碼）五種型態，依其資料一一增加mapping填入。
<note>：若對此字有特殊之考查，可add a note，描述考據的結果。例：韻 [音*貟]，異體字例，部件「口、厶」俗寫多彼此相訛，凡此皆可視為異體。
填寫上述資料後，按「更新資料庫」，即完成一個缺字的建置。

缺字圖檔製作

原則

裁切文本掃瞄檔(.tif)作為字圖。（作法如下）

裁切字圖步驟

利用Gimp軟體處理

開啟Gimp功能表「檔案」.
點選「開啟」.
選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
缺字圖檔請通知妙妙上傳到dev.

缺字給 CBETA Maha 製作流程

請 Maha 幫忙製作缺字無CB碼、無組字式者
須製作(1)的二點資訊者，於缺字介面note註明maha
小花再以 note 註明的 maha 彙整送給 maha
缺字資訊的 note 寫法可參考缺字介面的(8)<add a note>: 為註記資訊用

缺字圖上傳

FTP informations

session:fosizhi
host name:10.10.0.49
user name:april
password:m4tjp

上傳位置

從 Y:\Projects\fosizhi\images\gword\
複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords

上傳週期

從 dev 到informatics 上傳時間為一週

缺字呈現

缺字在佛寺志網頁的呈現順序

組字式
字圖

unicode 編碼字

Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html

CJK漢字編碼範圍

U+20000- U+2A6DF（中日韓統一表意文字擴展B區）
U+2A700-U+2B73F（中日韓統一表意文字擴展C區）
U+2B740- U+2B81F（中日韓統一表意文字擴展D區）
Decimal：131072以上

（以上皆屬 Extension 的擴展字，可直接貼在文本）

編輯器

若u==編輯器== nicode編碼字在Oxygen編輯器下無法直接貼上時，則先以Notepad++開啟此檔，並於內貼上此字、存檔，然後再轉接以Oxygen繼續作業。

此時經過Notepad++轉化的此缺字，將在 Oxygen 以 □ 的形式呈顯，但此字在網頁上應已可以如實呈現。

如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型

Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf

快速尋找unicode的方法

國際電腦漢字及異體字知識庫: http://chardb.iis.sinica.edu.tw/ 得知unicode 的碼及異體字

至unihan網站選unihan search pages 輸入 unicode碼 ,可得到異體字字形 http://www.unicode.org/charts/unihan.html 例如:秋的異體字2584C

註：秋的unicode碼為79CB,於word按ALT+X 可得到該字

有助於增加特字處理效率的工具與方法

1.輸入法整合器

(1)啟用：使用新注音或新倉頡輸入法時，靠語言列右邊的「工具選單」裡，第一個選項即輸入法整合器。

(2)使用方式：

a.滑鼠點選已開啟之文字檔中，欲輸入文字之處。

b.在輸入法整合器左邊大片空白的面板上，以滑鼠劃出字形。

c.看輸入法整合器右邊的選項裡是否出現欲輸入的字形。但需注意，有時還沒劃完就會出現想要的字。

(3)適用時機：

a.造缺字時：直接寫出如亻、阝等筆畫少的偏旁，能避免為找一個字的偏旁而將時間白白耗在等待unihan頁面好幾次開啟。

b.找查難以判斷筆劃、讀音、部首的字或同分類的字庫太龐大時：例如雘（實為隹部）、匼（據教育部異體字典，讀音為ㄎㄜˋ、ㄜˋ或ㄢˇ）、蕟（艸部unihan字庫太龐大）、垂（各字典筆畫算法不同）等字。滑鼠移至輸入法整合器提供之字形選項上，會出現參考讀音（不一定是正確的），也是值得運用的功能。

c.其它：例如辦公的筆電接大螢幕進行報告，倘無大量書寫之必要時可臨時充當白板。

(4)缺點：

a.同樣的字，筆順不同時，會影響程式判斷，使右側選項出現的字跟著不同。

b.此外，欲輸入之字有時會在未劃完完整字形已出現，劃完反而因程式判斷成別的字形而找不到。

c.字庫頗小，能找到的字有限。

參考資源

台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

@@ 行 27： / 行 27： @@
  額外的參考做法：以部首為判斷標準，二字間凡具異體字或通用字關係而部首不同者，無論字體多接近，皆加<choice>。例如：「嘗」（口部）與「甞」（甘部），部首不同，判斷要加記號；「峰」與「峯」部首相同，聲符亦未有差異，僅是改變形符（於此例中兼部首）與聲符相對位置，則考慮不標記。
-==不易 讀懂，罕用字==
+==不易 辨識==
  此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 &lt;choice>。

匿名

搜尋

「佛寺志專案 特字處理」：修訂間差異

於 2012年8月10日 (五) 16:58 的修訂

作業環境

特字處理原則

有 unicode 編碼的字

易於辨識

不易辨識

有歧義

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

重複字

如何統一各志間特字處理方式

訛字處理

漏字處理

缺漏字

缺漏幾個文字

缺漏一段文字

補字標記：

模糊不清的字

難以讀懂的字（例如草書字）

底本本身的刪塗、訂正字

缺字建檔

缺字圖檔製作

原則

裁切字圖步驟

缺字給 CBETA Maha 製作流程

缺字圖上傳

FTP informations

上傳位置

上傳週期

缺字呈現

unicode 編碼字

CJK漢字編碼範圍

編輯器

快速尋找unicode的方法

有助於增加特字處理效率的工具與方法

參考資源

導覽

wiki工具

頁面工具

「佛寺志專案特字處理」：修訂間差異