回《中國佛寺史志》數位典藏工作手冊 Archive of Buddhist Temple Gazetteers（Service manual）

佛寺志專案特字處理

作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式：

點選另存新檔。
在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理原則

特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），然後再根據文字本身（或搭配前後文）是否易於辨識而做應對的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。
例如：静，徳，録，䟽

如果 unicode 有編碼，但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到，而「The Unicode Standard」欄位看不到圖檔，例如 U+2F8BB，超出 Extension-D(U+2B740-U+2B81D) 的範圍，現有軟體支援較少。而且這個字容易辨識可與「捨」通用，只是在「口」之上的一豎稍微凸出來一點，就直接採用通用字「捨」，不必另加標記。(根據 2011.9.27 會議結論)

不易讀懂，罕用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <choice>。

例如：㝎（定），灋（法），銕（鐵）。（見圖二）

標記：

<choice>
  <orig>文本原字(unicode)</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例：

優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香

（通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）

有歧義

若文字本身有歧義，易使讀者對句意產生誤會者（即文字本身雖為一般字，但在此另當別解時），則標記 <choice>。
例如：縣（「懸」的通假字），餉（「晌」的通假字）

標法：

<choice>
  <sic>文本原字</sic>
  <reg resp="ddbc.da">消歧字</reg>
</choice>

範例：

萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久

無 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），但有通用字時，則選用其通用字，而不做任何標記。

少一撇、多一點的字：不標記（選擇用通用字）。例：播，余。（見圖一）
刻版慣例，書寫習慣：不標記（選擇用通用字）。例：於，所。（見圖一）
搭配前後文易於辨識者：不標記（選擇用通用字）。例：關。（見圖一）

不易辨識, 有通用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <reg>。
例如：[叠*毛]＝㲲。（見圖三）

標法：

<reg>通用字</reg>

範例：

青天飛一錫，白<reg>㲲</reg>入孤雲。

不易辨識, 無通用字

此字不易於辨識者（不易讀懂，罕用字），無通用字時，則標記 <g>，並需建立缺字檔。（缺字建檔方法見【附一】）
例如：[悖*力]。（見圖四）

標法：

<g ref="#字圖檔名"/>

範例：

頓令須彌倒卓，<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。

訛字處理

文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。

訛字修訂：

<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>

範例：

一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落

漏字處理

文本中的缺漏字，或模糊不清的字，或難以讀懂的字，則標「省略」標記 <gap>。

缺漏字

標法：

<gap extent="1" unit="chars" reason="lost"/>

註：unit 屬性是單位，extent 屬性是有幾個單位，本例中 unit="chars"，extent="1" 便表示有１個字。

模糊不清的字

標法：

<gap extent="2" unit="chars" reason="unclear"/>

難以讀懂的字（例如草書字）

標法：

<gap extent="3" unit="chars" reason="illegible"/>

缺漏一段文字

標法：

<gap extent="unknown" unit="chars" reason="lost"/>

底本本身的刪塗、訂正字

1.後人訂正字
<choice>
  <del>刪塗字</del>
  <add>後人訂正字</add>
</choice>

例：（g014p0156）

<choice>
  <del>梦</del>
  <add>愛</add>
</choice>

2.原著(編)者訂正字
  <del>刪塗字</del>
  <add>原著(編)者訂正字</add>

例：（g094p0206）

<choice>
  <del>行</del>
  <add>存</add>
</choice>

缺字建檔

佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq

缺字建置步驟

登入缺字庫網頁，輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」，按「新增一筆」，產生一個缺字id：<glyph xml:id="">。缺字編碼原則：btg（佛寺志）XXX（志碼3碼）XXXX（頁碼4碼）XX（序號2碼），例如：阿育王山志第298頁第4個缺字[口*斗]的id是：btg010029804
<glyphName>：選擇是否為unicode編碼字，若為unicode編碼字，則採用Decimal碼。
<charProp>：若知其發音，則點選「再增加一個charProp」。
1. <localName>：若知其發音，則選pronunciation。
2. <value>：欄內填入此字之漢語拼音。例：媽ma1，嗎ma5，恰qia4（第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5）
<mapping type>：有common（通用字）、cbeta（CBETA組字式）、cbetaNo（CB碼）、unicode（unicode Decimal碼）、MoEvariant（教育部異體字編碼）五種型態，依其資料一一增加mapping填入。
<note>：若對此字有特殊之考查，可add a note，描述考據的結果。例：韻 [音*貟]，異體字例，部件「口、厶」俗寫多彼此相訛，凡此皆可視為異體。
填寫上述資料後，按「更新資料庫」，即完成一個缺字的建置。

缺字圖檔製作

原則

裁切文本掃瞄檔(.tif)作為字圖。（作法如下）

裁切字圖步驟

利用Gimp軟體處理

開啟Gimp功能表「檔案」.
點選「開啟」.
選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
缺字圖檔請通知妙妙上傳到dev.

缺字給 CBETA Maha 製作流程

請 Maha 幫忙製作缺字無CB碼、無組字式者
須製作(1)的二點資訊者，於缺字介面note註明maha
小花再以 note 註明的 maha 彙整送給 maha
缺字資訊的 note 寫法可參考缺字介面的(8)<add a note>: 為註記資訊用

缺字圖上傳

FTP informations

session:fosizhi
host name:10.10.0.49
user name:april
password:m4tjp

上傳位置

從 Y:\Projects\fosizhi\images\gword\
複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords

上傳週期

從 dev 到informatics 上傳時間為一週

缺字呈現

缺字在佛寺志網頁的呈現順序

組字式
字圖

unicode 編碼字

Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html

CJK漢字編碼範圍

U+20000- U+2A6DF（中日韓統一表意文字擴展B區）
U+2A700-U+2B73F（中日韓統一表意文字擴展C區）
U+2B740- U+2B81F（中日韓統一表意文字擴展D區）
Decimal：131072以上

（以上皆屬 Extension 的擴展字，可直接貼在文本）

編輯器

若unicode編碼字在Oxygen編輯器下無法直接貼上時，則先以Notepad++開啟此檔，並於內貼上此字、存檔，然後再轉接以Oxygen繼續作業。

此時經過Notepad++轉化的此缺字，將在 Oxygen 以 □ 的形式呈顯，但此字在網頁上應已可以如實呈現。

如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型

Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf

參考資源

台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

匿名

搜尋

佛寺志專案 特字處理

作業環境

特字處理原則

有 unicode 編碼的字

易於辨識

不易讀懂，罕用字

有歧義

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

訛字處理

漏字處理

缺漏字

模糊不清的字

難以讀懂的字（例如草書字）

缺漏一段文字

底本本身的刪塗、訂正字

缺字建檔

缺字圖檔製作

原則

裁切字圖步驟

缺字給 CBETA Maha 製作流程

缺字圖上傳

FTP informations

上傳位置

上傳週期

缺字呈現

unicode 編碼字

CJK漢字編碼範圍

編輯器

參考資源

導覽

wiki工具

頁面工具

佛寺志專案特字處理