匿名
尚未登入
登入
DILA Wiki
搜尋
檢視 佛寺志專案 特字處理 的原始碼
出自DILA Wiki
命名空間
頁面
討論
更多
更多
頁面操作
閱讀
檢視原始碼
歷史
←
佛寺志專案 特字處理
由於下列原因,您沒有權限進行編輯此頁面的動作:
您請求的操作只有這個群組的使用者能使用:
使用者
您可以檢視並複製此頁面的原始碼。
=作業環境= 皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。 一、將現有 txt 檔更改為 UTF-8 編碼的方式: #點選另存新檔。 #在存檔畫面下方「編碼」那一欄選擇 UTF-8。 二、以 NotePad++ 開啟已更改編碼的 txt 檔案。 =特字處理原則= 特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C), 然後再根據文字本身(或搭配前後文)是否易於辨識而做應對的標記。 =有 unicode 編碼的字= ==易於辨識== 此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。<br> 例如:静,徳,録,䟽 ==不易讀懂,罕用字== 此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <choice>。 例如:㝎(定),灋(法),銕(鐵)。(見圖二) 標記: <syntaxhighlight lang="XML"> <choice> <orig>文本原字(unicode)</orig> <reg resp="ddbc.da">通用字</reg> </choice> </syntaxhighlight> 範例: <syntaxhighlight lang="XML"> 優曇華發<choice> <orig>㝎</orig> <reg resp="ddbc.da">定</reg></choice>中香 </syntaxhighlight> (通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等) ==有歧義== 若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記 <choice>。<br> 例如:縣(「懸」的通假字),餉(「晌」的通假字) 標法: <syntaxhighlight lang="XML"> <choice> <sic>文本原字</sic> <reg resp="ddbc.da">消歧字</reg> </choice> </syntaxhighlight> 範例: <syntaxhighlight lang="XML"> 萬靈八部<choice> <sic>縣</sic> <reg resp="ddbc.da">懸</reg></choice>望已久 </syntaxhighlight> =無 unicode 編碼的字= ==易於辨識== 此字易於辨識者(不會產生懷疑的),但有通用字時,則選用其通用字,而不做任何標記。 #少一撇、多一點的字:不標記(選擇用通用字)。例:播,余。(見圖一) #刻版慣例,書寫習慣:不標記(選擇用通用字)。例:於,所。(見圖一) #搭配前後文易於辨識者:不標記(選擇用通用字)。例:關。(見圖一) ==不易辨識, 有通用字== 此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <reg>。<br> 例如:[叠*毛]=㲲。(見圖三) 標法: <syntaxhighlight lang="XML"> <reg>通用字</reg> </syntaxhighlight> 範例: <syntaxhighlight lang="XML"> 青天飛一錫,白<reg>㲲</reg>入孤雲。 </syntaxhighlight> ==不易辨識, 無通用字== 此字不易於辨識者(不易讀懂,罕用字),無通用字時,則標記 <g>,並需建立缺字檔。(缺字建檔方法見【附一】)<br> 例如:[悖*力]。(見圖四) 標法: <syntaxhighlight lang="XML"> <g ref="#字圖檔名"/> </syntaxhighlight> 範例: <syntaxhighlight lang="XML"> 頓令須彌倒卓,<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。 </syntaxhighlight> =訛字處理= 文本中的錯字,包含看似錯誤但仍照實轉錄的字,則加以修訂。 訛字修訂: <syntaxhighlight lang="XML"> <choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice> </syntaxhighlight> 範例: <syntaxhighlight lang="XML"> 一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落 </syntaxhighlight> =漏字處理= 文本中的缺漏字,或模糊不清的字,或難以讀懂的字,則標「省略」標記 <gap>。 ==缺漏字== 標法: <syntaxhighlight lang="XML"> <gap extent="1" unit="chars" reason="lost"/> </syntaxhighlight> 註:unit 屬性是單位,extent 屬性是有幾個單位,本例中 unit="chars",extent="1" 便表示有1個字。 ==模糊不清的字== 標法: <syntaxhighlight lang="XML"> <gap extent="2" unit="chars" reason="unclear"/> </syntaxhighlight> ==難以讀懂的字(例如草書字)== 標法: <syntaxhighlight lang="XML"> <gap extent="3" unit="chars" reason="illegible"/> </syntaxhighlight> ==缺漏一段文字== 標法: <syntaxhighlight lang="XML"> <gap extent="unknown" unit="chars" reason="lost"/> </syntaxhighlight> =底本本身的刪塗、訂正字= <syntaxhighlight lang="XML"> <choice> <del>刪塗字</del> <add>後人訂正字</add> </choice> </syntaxhighlight> 例:(g014p0156) <syntaxhighlight lang="XML"> <choice> <del>梦</del> <add>愛</add> </choice> </syntaxhighlight> =缺字建檔= 佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq 缺字建置步驟 #登入缺字庫網頁,輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」,按「新增一筆」,產生一個缺字id:<glyph xml:id="">。缺字編碼原則:btg(佛寺志)XXX(志碼3碼)XXXX(頁碼4碼)XX(序號2碼),例如:阿育王山志第298頁第4個缺字[口*斗]的id是:btg010029804 #<glyphName>:選擇是否為unicode編碼字,若為unicode編碼字,則採用Decimal碼。 #<charProp>:若知其發音,則點選「再增加一個charProp」。 ##<localName>:若知其發音,則選pronunciation。 ##<value>:欄內填入此字之漢語拼音。例:媽ma1,嗎ma5,恰qia4(第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5) #<mapping type>:有common(通用字)、cbeta(CBETA組字式)、cbetaNo(CB碼)、unicode(unicode Decimal碼)、MoEvariant(教育部異體字編碼)五種型態,依其資料一一增加mapping填入。 #<note>:若對此字有特殊之考查,可add a note,描述考據的結果。例:韻 [音*貟],異體字例,部件「口、厶」俗寫多彼此相訛,凡此皆可視為異體。 #填寫上述資料後,按「更新資料庫」,即完成一個缺字的建置。 =缺字圖檔製作= =缺字給 CBETA Maha 製作流程= =缺字圖上傳= =缺字在佛寺志網頁的呈現順序?= =unicode 編碼字= =參考資源=
返回到「
佛寺志專案 特字處理
」。
導覽
導覽
首頁
近期變更
隨機頁面
MediaWiki說明
wiki工具
wiki工具
特殊頁面
頁面工具
頁面工具
使用者頁面工具
更多
連結至此的頁面
相關變更
頁面資訊
頁面日誌