佛寺志專案 特字處理
作業環境
皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。
一、將現有 txt 檔更改為 UTF-8 編碼的方式:
- 點選另存新檔。
- 在存檔畫面下方「編碼」那一欄選擇 UTF-8。
二、以 NotePad++ 開啟已更改編碼的 txt 檔案。
特字處理原則
特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C), 然後再根據文字本身(或搭配前後文)是否易於辨識而做應對的標記。
有 unicode 編碼的字
易於辨識
此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。
例如:静,徳,録,䟽
不易讀懂,罕用字
此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <choice>。
例如:㝎(定),灋(法),銕(鐵)。(見圖二)
標記:
<choice>
<orig>文本原字(unicode)</orig>
<reg resp="ddbc.da">通用字</reg>
</choice>
範例:
優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香
(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)
有歧義
若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記 <choice>。
例如:縣(「懸」的通假字),餉(「晌」的通假字)
標法:
<choice>
<sic>文本原字</sic>
<reg resp="ddbc.da">消歧字</reg>
</choice>
範例:
萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久
無 unicode 編碼的字
易於辨識
此字易於辨識者(不會產生懷疑的),但有通用字時,則選用其通用字,而不做任何標記。
- 少一撇、多一點的字:不標記(選擇用通用字)。例:播,余。(見圖一)
- 刻版慣例,書寫習慣:不標記(選擇用通用字)。例:於,所。(見圖一)
- 搭配前後文易於辨識者:不標記(選擇用通用字)。例:關。(見圖一)
不易辨識, 有通用字
此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <reg>。
例如:[叠*毛]=㲲。(見圖三)
標法:
<reg>通用字</reg>
範例:
青天飛一錫,白<reg>㲲</reg>入孤雲。
不易辨識, 無通用字
此字不易於辨識者(不易讀懂,罕用字),無通用字時,則標記 <g>,並需建立缺字檔。(缺字建檔方法見【附一】)
例如:[悖*力]。(見圖四)
標法:
<g ref="#字圖檔名"/>
範例:
頓令須彌倒卓,<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。
訛字處理
文本中的錯字,包含看似錯誤但仍照實轉錄的字,則加以修訂。
訛字修訂:
<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>
範例:
一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落
漏字處理
文本中的缺漏字,或模糊不清的字,或難以讀懂的字,則標「省略」標記 <gap>。
缺漏字
標法:
<gap extent="1" unit="chars" reason="lost"/>
註:unit 屬性是單位,extent 屬性是有幾個單位,本例中 unit="chars",extent="1" 便表示有1個字。
模糊不清的字
標法:
<gap extent="2" unit="chars" reason="unclear"/>
難以讀懂的字(例如草書字)
標法:
<gap extent="3" unit="chars" reason="illegible"/>
缺漏一段文字
標法:
<gap extent="unknown" unit="chars" reason="lost"/>
底本本身的刪塗、訂正字
<choice>
<del>刪塗字</del>
<add>後人訂正字</add>
</choice>
例:(g014p0156)
<choice>
<del>梦</del>
<add>愛</add>
</choice>