於 2011年9月28日 (三) 09:46 的修訂

作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式：

點選另存新檔。
在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理原則

特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），然後再根據文字本身（或搭配前後文）是否易於辨識而做應對的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。
例如：静，徳，録，䟽

不易讀懂，罕用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <choice>。

例如：㝎（定），灋（法），銕（鐵）。（見圖二）

標記：

<choice>
  <orig>文本原字(unicode)</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例：

優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香

（通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）

有歧義

若文字本身有歧義，易使讀者對句意產生誤會者（即文字本身雖為一般字，但在此另當別解時），則標記 <choice>。
例如：縣（「懸」的通假字），餉（「晌」的通假字）

標法：

<choice>
  <sic>文本原字</sic>
  <reg resp="ddbc.da">消歧字</reg>
</choice>

範例：

萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久

無 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），但有通用字時，則選用其通用字，而不做任何標記。

少一撇、多一點的字：不標記（選擇用通用字）。例：播，余。（見圖一）
刻版慣例，書寫習慣：不標記（選擇用通用字）。例：於，所。（見圖一）
搭配前後文易於辨識者：不標記（選擇用通用字）。例：關。（見圖一）

不易辨識, 有通用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 <reg>。
例如：[叠*毛]＝㲲。（見圖三）

標法：

<reg>通用字</reg>

範例：

青天飛一錫，白<reg>㲲</reg>入孤雲。

不易辨識, 無通用字

此字不易於辨識者（不易讀懂，罕用字），無通用字時，則標記 <g>，並需建立缺字檔。（缺字建檔方法見【附一】）
例如：[悖*力]。（見圖四）

標法：

<g ref="#字圖檔名"/>

範例：

頓令須彌倒卓，<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。

訛字處理

文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。

訛字修訂：

<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>

範例：

一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落

@@ 行 95： / 行 95： @@
 =訛字處理=
+文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。
+訛字修訂：
+<syntaxhighlight lang="XML">
+<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>
+</syntaxhighlight>
+範例：
+<syntaxhighlight lang="XML">
+一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落
+</syntaxhighlight>
 =漏字處理=
 =底本本身的刪塗、訂正字=

匿名

搜尋

「佛寺志專案特字處理」：修訂間差異

命名空間

更多

頁面操作

於 2011年9月28日 (三) 09:46 的修訂

目次

作業環境

特字處理原則

有 unicode 編碼的字

易於辨識

不易讀懂，罕用字

有歧義

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

訛字處理

漏字處理

底本本身的刪塗、訂正字

缺字建檔

缺字圖檔製作

缺字給 CBETA Maha 製作流程

缺字圖上傳

缺字在佛寺志網頁的呈現順序？

unicode 編碼字

參考資源

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

「佛寺志專案 特字處理」：修訂間差異

於 2011年9月28日 (三) 09:46 的修訂

作業環境

特字處理原則

有 unicode 編碼的字

易於辨識

不易讀懂，罕用字

有歧義

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

訛字處理

漏字處理

底本本身的刪塗、訂正字

缺字建檔

缺字圖檔製作

缺字給 CBETA Maha 製作流程

缺字圖上傳

缺字在佛寺志網頁的呈現順序？

unicode 編碼字

參考資源

導覽

wiki工具

頁面工具

「佛寺志專案特字處理」：修訂間差異