檢視佛寺志專案特字處理的原始碼

=作業環境=
皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式：
#點選另存新檔。
#在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

=特字處理原則=
特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），
然後再根據文字本身（或搭配前後文）是否易於辨識而做應對的標記。

=有 unicode 編碼的字=
==易於辨識==
此字易於辨識者（不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。<br>
例如：静，徳，録，䟽

==不易讀懂，罕用字==
此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 &lt;choice>。

例如：㝎（定），灋（法），銕（鐵）。（見圖二）

標記：
<syntaxhighlight lang="XML">
<choice>
  <orig>文本原字(unicode)</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>
</syntaxhighlight>

範例：
<syntaxhighlight lang="XML">
優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香
</syntaxhighlight>

（通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）

==有歧義==
若文字本身有歧義，易使讀者對句意產生誤會者（即文字本身雖為一般字，但在此另當別解時），則標記 &lt;choice>。<br>
例如：縣（「懸」的通假字），餉（「晌」的通假字）

標法：
<syntaxhighlight lang="XML">
<choice>
  <sic>文本原字</sic>
  <reg resp="ddbc.da">消歧字</reg>
</choice>
</syntaxhighlight>

範例：
<syntaxhighlight lang="XML">
萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久
</syntaxhighlight>

=無 unicode 編碼的字=

==易於辨識==
此字易於辨識者（不會產生懷疑的），但有通用字時，則選用其通用字，而不做任何標記。
#少一撇、多一點的字：不標記（選擇用通用字）。例：播，余。（見圖一）
#刻版慣例，書寫習慣：不標記（選擇用通用字）。例：於，所。（見圖一）
#搭配前後文易於辨識者：不標記（選擇用通用字）。例：關。（見圖一）

==不易辨識, 有通用字==
此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 &lt;reg>。<br>
例如：[叠*毛]＝㲲。（見圖三）

標法：
<syntaxhighlight lang="XML">
<reg>通用字</reg>
</syntaxhighlight>

範例：
<syntaxhighlight lang="XML">
青天飛一錫，白<reg>㲲</reg>入孤雲。
</syntaxhighlight>

==不易辨識, 無通用字==
此字不易於辨識者（不易讀懂，罕用字），無通用字時，則標記 &lt;g>，並需建立缺字檔。（缺字建檔方法見【附一】）<br>
例如：[悖*力]。（見圖四）

標法：
<syntaxhighlight lang="XML">
<g ref="#字圖檔名"/>
</syntaxhighlight>

範例：
<syntaxhighlight lang="XML">
頓令須彌倒卓，<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。
</syntaxhighlight>

=訛字處理=

文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。

訛字修訂：
<syntaxhighlight lang="XML">
<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>
</syntaxhighlight>

範例：
<syntaxhighlight lang="XML">
一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落
</syntaxhighlight>

=漏字處理=

文本中的缺漏字，或模糊不清的字，或難以讀懂的字，則標「省略」標記 &lt;gap>。

==缺漏字==
標法：
<syntaxhighlight lang="XML">
<gap extent="1" unit="chars" reason="lost"/>
</syntaxhighlight>
註：unit 屬性是單位，extent 屬性是有幾個單位，本例中 unit="chars"，extent="1" 便表示有１個字。

==模糊不清的字==
標法：
<syntaxhighlight lang="XML">
<gap extent="2" unit="chars" reason="unclear"/>
</syntaxhighlight>

==難以讀懂的字（例如草書字）==
標法：
<syntaxhighlight lang="XML">
<gap extent="3" unit="chars" reason="illegible"/>
</syntaxhighlight>

==缺漏一段文字==
標法：
<syntaxhighlight lang="XML">
<gap extent="unknown" unit="chars" reason="lost"/>
</syntaxhighlight>

=底本本身的刪塗、訂正字=

<syntaxhighlight lang="XML">
<choice>
  <del>刪塗字</del>
  <add>後人訂正字</add>
</choice>
</syntaxhighlight>

例：（g014p0156）
<syntaxhighlight lang="XML">
<choice>
  <del>梦</del>
  <add>愛</add>
</choice>
</syntaxhighlight>

=缺字建檔=

佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq

缺字建置步驟
#登入缺字庫網頁，輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」，按「新增一筆」，產生一個缺字id：&lt;glyph xml:id="">。缺字編碼原則：btg（佛寺志）XXX（志碼3碼）XXXX（頁碼4碼）XX（序號2碼），例如：阿育王山志第298頁第4個缺字[口*斗]的id是：btg010029804
#&lt;glyphName>：選擇是否為unicode編碼字，若為unicode編碼字，則採用Decimal碼。
#&lt;charProp>：若知其發音，則點選「再增加一個charProp」。
##&lt;localName>：若知其發音，則選pronunciation。
##&lt;value>：欄內填入此字之漢語拼音。例：媽ma1，嗎ma5，恰qia4（第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5）
#&lt;mapping type>：有common（通用字）、cbeta（CBETA組字式）、cbetaNo（CB碼）、unicode（unicode Decimal碼）、MoEvariant（教育部異體字編碼）五種型態，依其資料一一增加mapping填入。
#&lt;note>：若對此字有特殊之考查，可add a note，描述考據的結果。例：韻 [音*貟]，異體字例，部件「口、厶」俗寫多彼此相訛，凡此皆可視為異體。
#填寫上述資料後，按「更新資料庫」，即完成一個缺字的建置。

=缺字圖檔製作=
=缺字給 CBETA Maha 製作流程=
=缺字圖上傳=
=缺字在佛寺志網頁的呈現順序？=
=unicode 編碼字=
=參考資源=