作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式：

點選另存新檔。
在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理原則

特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），然後再根據文字本身（或搭配前後文）是否易於辨識而做應對的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。
例如：静，徳，録，䟽

不易讀懂，罕用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <choice>。

例如：㝎（定），灋（法），銕（鐵）。（見圖二）

標記：

<choice>
  <orig>文本原字(unicode)</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例：

優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香

（通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）

有歧義

若文字本身有歧義，易使讀者對句意產生誤會者（即文字本身雖為一般字，但在此另當別解時），則標記 <choice>。
例如：縣（「懸」的通假字），餉（「晌」的通假字）

標法：

<choice>
  <sic>文本原字</sic>
  <reg resp="ddbc.da">消歧字</reg>
</choice>

範例：

萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久

無 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），但有通用字時，則選用其通用字，而不做任何標記。

少一撇、多一點的字：不標記（選擇用通用字）。例：播，余。（見圖一）
刻版慣例，書寫習慣：不標記（選擇用通用字）。例：於，所。（見圖一）
搭配前後文易於辨識者：不標記（選擇用通用字）。例：關。（見圖一）

不易辨識, 有通用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <reg>。
例如：[叠*毛]＝㲲。（見圖三）

標法：

<reg>通用字</reg>

範例：

青天飛一錫，白<reg>㲲</reg>入孤雲。

不易辨識, 無通用字

此字不易於辨識者（不易讀懂，罕用字），無通用字時，則標記 <g>，並需建立缺字檔。（缺字建檔方法見【附一】）
例如：[悖*力]。（見圖四）

標法：

<g ref="#字圖檔名"/>

範例：

頓令須彌倒卓，<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。

訛字處理

文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。

訛字修訂：

<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>

範例：

一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落

漏字處理

文本中的缺漏字，或模糊不清的字，或難以讀懂的字，則標「省略」標記 <gap>。

缺漏字

標法：

<gap extent="1" unit="chars" reason="lost"/>

註：unit 屬性是單位，extent 屬性是有幾個單位，本例中 unit="chars"，extent="1" 便表示有１個字。

模糊不清的字

標法：

<gap extent="2" unit="chars" reason="unclear"/>

難以讀懂的字（例如草書字）

標法：

<gap extent="3" unit="chars" reason="illegible"/>

缺漏一段文字

標法：

<gap extent="unknown" unit="chars" reason="lost"/>

底本本身的刪塗、訂正字

<choice>
  <del>刪塗字</del>
  <add>後人訂正字</add>
</choice>

例：（g014p0156）

<choice>
  <del>梦</del>
  <add>愛</add>
</choice>

匿名

搜尋

佛寺志專案特字處理

命名空間

更多

頁面操作

目次

作業環境

特字處理原則

有 unicode 編碼的字

易於辨識

不易讀懂，罕用字

有歧義

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

訛字處理

漏字處理

缺漏字

模糊不清的字

難以讀懂的字（例如草書字）

缺漏一段文字

底本本身的刪塗、訂正字

缺字建檔

缺字圖檔製作

缺字給 CBETA Maha 製作流程

缺字圖上傳

缺字在佛寺志網頁的呈現順序？

unicode 編碼字

參考資源

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

佛寺志專案 特字處理

作業環境

特字處理原則

有 unicode 編碼的字

易於辨識

不易讀懂，罕用字

有歧義

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

訛字處理

漏字處理

缺漏字

模糊不清的字

難以讀懂的字（例如草書字）

缺漏一段文字

底本本身的刪塗、訂正字

缺字建檔

缺字圖檔製作

缺字給 CBETA Maha 製作流程

缺字圖上傳

缺字在佛寺志網頁的呈現順序？

unicode 編碼字

參考資源

導覽

wiki工具

頁面工具

佛寺志專案特字處理