「佛寺志專案 特字處理」:修訂間差異
出自DILA Wiki
imported>Ray (→特字處理原則) |
imported>Ray |
||
行 13: | 行 13: | ||
=有 unicode 編碼的字= | =有 unicode 編碼的字= | ||
==易於辨識== | |||
此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。<br> | |||
例如:静,徳,録,䟽 | |||
==不易讀懂,罕用字== | |||
此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <choice>。 | |||
例如:㝎(定),灋(法),銕(鐵)。(見圖二) | |||
標記: | |||
<syntaxhighlight lang="XML"> | |||
<choice> | |||
<orig>文本原字(unicode)</orig> | |||
<reg resp="ddbc.da">通用字</reg> | |||
</choice> | |||
</syntaxhighlight> | |||
範例: | |||
<syntaxhighlight lang="XML"> | |||
優曇華發<choice> | |||
<orig>㝎</orig> | |||
<reg resp="ddbc.da">定</reg></choice>中香 | |||
</syntaxhighlight> | |||
(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等) | |||
==有歧義== | |||
若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記 <choice>。<br> | |||
例如:縣(「懸」的通假字),餉(「晌」的通假字) | |||
標法: | |||
<syntaxhighlight lang="XML"> | |||
<choice> | |||
<sic>文本原字</sic> | |||
<reg resp="ddbc.da">消歧字</reg> | |||
</choice> | |||
</syntaxhighlight> | |||
範例: | |||
<syntaxhighlight lang="XML"> | |||
萬靈八部<choice> | |||
<sic>縣</sic> | |||
<reg resp="ddbc.da">懸</reg></choice>望已久 | |||
</syntaxhighlight> | |||
=無 unicode 編碼的字= | =無 unicode 編碼的字= | ||
=訛字處理= | =訛字處理= |
於 2011年9月28日 (三) 09:40 的修訂
作業環境
皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。
一、將現有 txt 檔更改為 UTF-8 編碼的方式:
- 點選另存新檔。
- 在存檔畫面下方「編碼」那一欄選擇 UTF-8。
二、以 NotePad++ 開啟已更改編碼的 txt 檔案。
特字處理原則
特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C), 然後再根據文字本身(或搭配前後文)是否易於辨識而做應對的標記。
有 unicode 編碼的字
易於辨識
此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。
例如:静,徳,録,䟽
不易讀懂,罕用字
此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <choice>。
例如:㝎(定),灋(法),銕(鐵)。(見圖二)
標記:
<choice>
<orig>文本原字(unicode)</orig>
<reg resp="ddbc.da">通用字</reg>
</choice>
範例:
優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香
(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)
有歧義
若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記 <choice>。
例如:縣(「懸」的通假字),餉(「晌」的通假字)
標法:
<choice>
<sic>文本原字</sic>
<reg resp="ddbc.da">消歧字</reg>
</choice>
範例:
萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久