於 2012年2月29日 (三) 12:00 的修訂

回《中國佛寺史志》數位典藏工作手冊 Archive of Buddhist Temple Gazetteers（Service manual）

回《中國佛寺史志》標記作業]

佛寺志專案特字處理

作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式：

點選另存新檔。
在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理原則

特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），然後再根據文字本身（或搭配前後文）是否易於辨識而做應對的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。
例如：静，徳，録，䟽

如果 unicode 有編碼，但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到，而「The Unicode Standard」欄位看不到圖檔，例如 U+2F8BB，超出 Extension-D(U+2B740-U+2B81D) 的範圍，現有軟體支援較少。而且這個字容易辨識可與「捨」通用，只是在「口」之上的一豎稍微凸出來一點，就直接採用通用字「捨」，不必另加標記。(根據 2011.9.27 會議結論)

額外的參考做法：以部首為判斷標準，二字間凡具異體字或通用字關係而部首不同者，無論字體多接近，皆加<choice>。例如：「嘗」（口部）與「甞」（甘部），部首不同，判斷要加記號；「峰」與「峯」部首相同，聲符亦未有差異，僅是改變形符與聲符相對位置，則不考慮標記。

不易讀懂，罕用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <choice>。

例如：㝎（定），灋（法），銕（鐵）。（見圖二）

標記：

<choice>
  <orig>文本原字(unicode)</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例：

優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香

（通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）

有歧義

若文字本身有歧義，易使讀者對句意產生誤會者（即文字本身雖為一般字，但在此另當別解時），則標記 <choice>。
例如：縣（「懸」的通假字），餉（「晌」的通假字）

標法：

<choice>
  <sic>文本原字</sic>
  <reg resp="ddbc.da">消歧字</reg>
</choice>

範例：

萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久

無 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），但有通用字時，則選用其通用字，而不做任何標記。

少一撇、多一點的字：不標記（選擇用通用字）。例：播，余。（見圖一）
刻版慣例，書寫習慣：不標記（選擇用通用字）。例：於，所。（見圖一）
搭配前後文易於辨識者：不標記（選擇用通用字）。例：關。（見圖一）

不易辨識, 有通用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <reg>。
例如：[叠*毛]＝㲲。（見圖三）

標法：

<reg>通用字</reg>

範例：

青天飛一錫，白<reg>㲲</reg>入孤雲。

不易辨識, 無通用字

此字不易於辨識者（不易讀懂，罕用字），無通用字時，則標記 <g>，並需建立缺字檔。（缺字建檔方法見【附一】）
例如：[悖*力]。（見圖四）

標法：

<g ref="#字圖檔名"/>

範例：

頓令須彌倒卓，<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。

如何統一各志間特字處理方式

由於外包打字公司以及特字處理人員，面對同一字，可能因各種因素導致作業前期和作業後期處理方式不同的情況（例如打字人員因時常遇到特定難字，對該字變得熟悉，於是不標代表需做特字處理記號，而直接輸入該字）。若要使各志以及同一志前後文在特字處理上達到一致性，就必須進行統一各志間特字處理方式的工作，建議全套佛寺志完成後再做這部份作業較有效率。

目前處理方式如下：

一、打開NotePad++，並開啟所有已完成特字處理的文件。 p.s.應注意若以NotePad++開啟g032的txt檔時易出問題，則可改開g032的xml檔。

二、挑選一個檔案，建議從最前面或最後面的檔案開始，較不易遺漏。

三、Ctrl+F 使用「找下一個」搜尋「<choice>」，一次找一筆，原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。以g001為例，第一筆<choice>應該會找到「<choice><orig>𠇍</orig>......</choice>」。

四、每找到一筆<choice>，就使用「搜尋所有開啟文件」尋找<orig>　</orig>之間的字。承前例，以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。

五、一一判斷上一步驟搜尋所得的每一筆結果，接著以正確的方式處理之。承前例，判斷各佛寺志出現的「𠇍」字是否都妥當處理，若無，則加以處理。

六、確定所有開啟的佛寺志都完成上一步驟後，才算完成一個字在各志間的「統一各志間特字處理方式」之作業。接著應回步驟三，找到下一個字，然後繼續針對得到的字做步驟四到五。再承前例，全部佛寺志出現過的「𠇍」字都妥當處理後，繼續藉「找下一個」搜尋「<choice>」，找出接下來應處理的字是「䟦」，然後針對「䟦」字做步驟四到五。

七、不斷重覆步驟三至步驟五，直到一個志全部標過<choice>的字都經過步驟三到五的處理，就能換下一個志，但仍應將此志維持開啟，以利處理其他佛寺志特字時，搜到此志應處理而未處理的字。承前例，處理g002時，g001應維持開啟。

八、當所有開啟的佛寺志都完成步驟三至六以後，便算是完成「統一各志間特字處理方式」的工作。

訛字處理

文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。

訛字修訂：

<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>

範例：

一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落

漏字處理

文本中的缺漏字，或模糊不清的字，或難以讀懂的字，則標「省略」標記 <gap>。

缺漏字

標法：

<gap extent="1" unit="chars" reason="lost"/>

註：unit 屬性是單位，extent 屬性是有幾個單位，本例中 unit="chars"，extent="1" 便表示有１個字。

模糊不清的字

標法：

<gap extent="2" unit="chars" reason="unclear"/>

難以讀懂的字（例如草書字）

標法：

<gap extent="3" unit="chars" reason="illegible"/>

缺漏一段文字

標法：

<gap extent="unknown" unit="chars" reason="lost"/>

底本本身的刪塗、訂正字

1.後人訂正字
<choice>
  <del>刪塗字</del>
  <add>後人訂正字</add>
</choice>

例：（g014p0156）

<choice>
  <del>梦</del>
  <add>愛</add>
</choice>

2.原著(編)者訂正字
  <del>刪塗字</del>
  <add>原著(編)者訂正字</add>

例：（g094p0206）

  <del>行</del>
  <add>存</add>

缺字建檔

佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq

缺字建置步驟

登入缺字庫網頁，輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」，按「新增一筆」，產生一個缺字id：<glyph xml:id="">。缺字編碼原則：btg（佛寺志）XXX（志碼3碼）XXXX（頁碼4碼）XX（序號2碼），例如：阿育王山志第298頁第4個缺字[口*斗]的id是：btg010029804
<glyphName>：選擇是否為unicode編碼字，若為unicode編碼字，則採用Decimal碼。
<charProp>：若知其發音，則點選「再增加一個charProp」。
1. <localName>：若知其發音，則選pronunciation。
2. <value>：欄內填入此字之漢語拼音。例：媽ma1，嗎ma5，恰qia4（第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5）
<mapping type>：有common（通用字）、cbeta（CBETA組字式）、cbetaNo（CB碼）、unicode（unicode Decimal碼）、MoEvariant（教育部異體字編碼）五種型態，依其資料一一增加mapping填入。
<note>：若對此字有特殊之考查，可add a note，描述考據的結果。例：韻 [音*貟]，異體字例，部件「口、厶」俗寫多彼此相訛，凡此皆可視為異體。
填寫上述資料後，按「更新資料庫」，即完成一個缺字的建置。

缺字圖檔製作

原則

裁切文本掃瞄檔(.tif)作為字圖。（作法如下）

裁切字圖步驟

利用Gimp軟體處理

開啟Gimp功能表「檔案」.
點選「開啟」.
選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
缺字圖檔請通知妙妙上傳到dev.

缺字給 CBETA Maha 製作流程

請 Maha 幫忙製作缺字無CB碼、無組字式者
須製作(1)的二點資訊者，於缺字介面note註明maha
小花再以 note 註明的 maha 彙整送給 maha
缺字資訊的 note 寫法可參考缺字介面的(8)<add a note>: 為註記資訊用

缺字圖上傳

FTP informations

session:fosizhi
host name:10.10.0.49
user name:april
password:m4tjp

上傳位置

從 Y:\Projects\fosizhi\images\gword\
複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords

上傳週期

從 dev 到informatics 上傳時間為一週

缺字呈現

缺字在佛寺志網頁的呈現順序

組字式
字圖

unicode 編碼字

Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html

CJK漢字編碼範圍

U+20000- U+2A6DF（中日韓統一表意文字擴展B區）
U+2A700-U+2B73F（中日韓統一表意文字擴展C區）
U+2B740- U+2B81F（中日韓統一表意文字擴展D區）
Decimal：131072以上

（以上皆屬 Extension 的擴展字，可直接貼在文本）

編輯器

若unicode編碼字在Oxygen編輯器下無法直接貼上時，則先以Notepad++開啟此檔，並於內貼上此字、存檔，然後再轉接以Oxygen繼續作業。

此時經過Notepad++轉化的此缺字，將在 Oxygen 以 □ 的形式呈顯，但此字在網頁上應已可以如實呈現。

如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型

Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf

參考資源

台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

@@ 行 25： / 行 25： @@
  如果 unicode 有編碼，但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到，而「The Unicode Standard」欄位看不到圖檔，例如 U+2F8BB，超出 Extension-D(U+2B740-U+2B81D) 的範圍，現有軟體支援較少。而且這個字容易辨識可與「捨」通用，只是在「口」之上的一豎稍微凸出來一點，就直接採用通用字「捨」，不必另加標記。(根據 2011.9.27 會議結論)
- 額外的參考做法：以部首為判斷標準，二字間凡具異體字或通用字關係而部首不同者，無論字體多接近，皆 做<choice><orig>...</orig><reg resp="ddbc.da">...</reg></choice>。例如：「嘗」（口部）與「甞」（甘部）；「峰」與「峯」則不考慮標記。
+ 額外的參考做法：以部首為判斷標準，二字間凡具異體字或通用字關係而部首不同者，無論字體多接近，皆 加<choice>。例如：「嘗」（口部）與「甞」（甘部） ，部首不同，判斷要加記號 ；「峰」與「峯」 部首相同，聲符亦未有差異，僅是改變形符與聲符相對位置， 則不考慮標記。
 ==不易讀懂，罕用字==

匿名

搜尋

「佛寺志專案 特字處理」：修訂間差異

於 2012年2月29日 (三) 12:00 的修訂

作業環境

特字處理原則

有 unicode 編碼的字

易於辨識

不易讀懂，罕用字

有歧義

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

如何統一各志間特字處理方式

訛字處理

漏字處理

缺漏字

模糊不清的字

難以讀懂的字（例如草書字）

缺漏一段文字

底本本身的刪塗、訂正字

缺字建檔

缺字圖檔製作

原則

裁切字圖步驟

缺字給 CBETA Maha 製作流程

缺字圖上傳

FTP informations

上傳位置

上傳週期

缺字呈現

unicode 編碼字

CJK漢字編碼範圍

編輯器

參考資源

導覽

wiki工具

頁面工具

「佛寺志專案特字處理」：修訂間差異