「佛寺志專案 特字處理」:修訂間差異

出自DILA Wiki
imported>Ray
imported>Ray
行 169: 行 169:


=缺字圖檔製作=
=缺字圖檔製作=
==原則==
裁切文本掃瞄檔(.tif)作為字圖。(作法如下)
==裁切字圖步驟==
利用Gimp軟體處理
#開啟Gimp功能表「檔案」.
#點選「開啟」.
#選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
#放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
#點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
#將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
#設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
#點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
#缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
#缺字圖檔請通知妙妙上傳到dev.
=缺字給 CBETA Maha 製作流程=
=缺字給 CBETA Maha 製作流程=
=缺字圖上傳=
=缺字圖上傳=

於 2011年9月28日 (三) 10:03 的修訂

作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式:

  1. 點選另存新檔。
  2. 在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理原則

特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C), 然後再根據文字本身(或搭配前後文)是否易於辨識而做應對的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。
例如:静,徳,録,䟽

不易讀懂,罕用字

此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <choice>。

例如:㝎(定),灋(法),銕(鐵)。(見圖二)

標記:

<choice>
  <orig>文本原字(unicode)</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例:

優曇華發<choice>
<orig></orig>
<reg resp="ddbc.da"></reg></choice>中香

(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)

有歧義

若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記 <choice>。
例如:縣(「懸」的通假字),餉(「晌」的通假字)

標法:

<choice>
  <sic>文本原字</sic>
  <reg resp="ddbc.da">消歧字</reg>
</choice>

範例:

萬靈八部<choice>
<sic></sic>
<reg resp="ddbc.da"></reg></choice>望已久

無 unicode 編碼的字

易於辨識

此字易於辨識者(不會產生懷疑的),但有通用字時,則選用其通用字,而不做任何標記。

  1. 少一撇、多一點的字:不標記(選擇用通用字)。例:播,余。(見圖一)
  2. 刻版慣例,書寫習慣:不標記(選擇用通用字)。例:於,所。(見圖一)
  3. 搭配前後文易於辨識者:不標記(選擇用通用字)。例:關。(見圖一)

不易辨識, 有通用字

此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <reg>。
例如:[叠*毛]=㲲。(見圖三)

標法:

<reg>通用字</reg>

範例:

青天飛一錫,白<reg></reg>入孤雲。

不易辨識, 無通用字

此字不易於辨識者(不易讀懂,罕用字),無通用字時,則標記 <g>,並需建立缺字檔。(缺字建檔方法見【附一】)
例如:[悖*力]。(見圖四)

標法:

<g ref="#字圖檔名"/>

範例:

頓令須彌倒卓,<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。

訛字處理

文本中的錯字,包含看似錯誤但仍照實轉錄的字,則加以修訂。

訛字修訂:

<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>

範例:

一切殿宇皆頹<choice><sic></sic><corr resp="ddbc.da"></corr></choice>剝落

漏字處理

文本中的缺漏字,或模糊不清的字,或難以讀懂的字,則標「省略」標記 <gap>。

缺漏字

標法:

<gap extent="1" unit="chars" reason="lost"/>

註:unit 屬性是單位,extent 屬性是有幾個單位,本例中 unit="chars",extent="1" 便表示有1個字。

模糊不清的字

標法:

<gap extent="2" unit="chars" reason="unclear"/>

難以讀懂的字(例如草書字)

標法:

<gap extent="3" unit="chars" reason="illegible"/>

缺漏一段文字

標法:

<gap extent="unknown" unit="chars" reason="lost"/>

底本本身的刪塗、訂正字

<choice>
  <del>刪塗字</del>
  <add>後人訂正字</add>
</choice>

例:(g014p0156)

<choice>
  <del></del>
  <add></add>
</choice>

缺字建檔

佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq

缺字建置步驟

  1. 登入缺字庫網頁,輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」,按「新增一筆」,產生一個缺字id:<glyph xml:id="">。缺字編碼原則:btg(佛寺志)XXX(志碼3碼)XXXX(頁碼4碼)XX(序號2碼),例如:阿育王山志第298頁第4個缺字[口*斗]的id是:btg010029804
  2. <glyphName>:選擇是否為unicode編碼字,若為unicode編碼字,則採用Decimal碼。
  3. <charProp>:若知其發音,則點選「再增加一個charProp」。
    1. <localName>:若知其發音,則選pronunciation。
    2. <value>:欄內填入此字之漢語拼音。例:媽ma1,嗎ma5,恰qia4(第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5)
  4. <mapping type>:有common(通用字)、cbeta(CBETA組字式)、cbetaNo(CB碼)、unicode(unicode Decimal碼)、MoEvariant(教育部異體字編碼)五種型態,依其資料一一增加mapping填入。
  5. <note>:若對此字有特殊之考查,可add a note,描述考據的結果。例:韻 [音*貟],異體字例,部件「口、厶」俗寫多彼此相訛,凡此皆可視為異體。
  6. 填寫上述資料後,按「更新資料庫」,即完成一個缺字的建置。

缺字圖檔製作

原則

裁切文本掃瞄檔(.tif)作為字圖。(作法如下)

裁切字圖步驟

利用Gimp軟體處理

  1. 開啟Gimp功能表「檔案」.
  2. 點選「開啟」.
  3. 選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
  4. 放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
  5. 點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
  6. 將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
  7. 設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
  8. 點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
  9. 缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
  10. 缺字圖檔請通知妙妙上傳到dev.

缺字給 CBETA Maha 製作流程

缺字圖上傳

缺字在佛寺志網頁的呈現順序?

unicode 編碼字

參考資源