「佛寺志專案 特字處理」:修訂間差異

出自DILA Wiki
imported>Ray
無編輯摘要
imported>Ray
(正在將頁面替換為 '=aaa= bbb')
行 1: 行 1:
= 特字處理的作業環境=
=aaa=
 
bbb
  皆以NotePad++軟體來處理UTF-8編碼的txt檔。
 一、將現有txt檔更改為UTF-8編碼的方式:
  (1)點選另存新檔。
 
  (2)在存檔畫面下方「編碼」那一欄選擇UTF-8。
 二、以NotePad++開啟已更改編碼的txt檔案。
 
=特字處理原則=
  特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C),
  然後再根據文字本身(或搭配前後文)是否易於辨識而做應對的標記。
 
=有 unicode 編碼的字=
  (1)此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。
   例如:静,徳,録,䟽
  (2)此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <choice>。
   例如:㝎(定),灋(法),銕(鐵)。(見圖二)
   標記:
<syntaxhighlight lang="XML">
<choice><orig>文本原字(unicode)</orig><reg resp="ddbc.da">通用字</reg></choice>
</syntaxhighlight>
 
   範例:
<syntaxhighlight lang="XML">
優曇華發<choice><orig>㝎</orig><reg resp="ddbc.da">定</reg></choice>中香
</syntaxhighlight>
 
    (通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)
 
<syntaxhighlight lang="XML">
 
   
  (3)若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記<choice>。
   例如:縣(「懸」的通假字),餉(「晌」的通假字)
   標法:<choice><sic>文本原字</sic><reg resp="ddbc.da">消歧字</reg></choice>
   範例:萬靈八部<choice><sic>縣</sic><reg resp="ddbc.da">懸</reg></choice>望已久
 二、無unicode編碼字
  (1)此字易於辨識者(不會產生懷疑的),但有通用字時,則選用其通用字,而不做任何標記。
   (a) 少一撇、多一點的字:不標記(選擇用通用字)。例:播,余。(見圖一)
   (b) 刻版慣例,書寫習慣:不標記(選擇用通用字)。例:於,所。(見圖一)
   (c) 搭配前後文易於辨識者:不標記(選擇用通用字)。例:關。(見圖一)
  
  (2)此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記<reg>。
   例如:[叠*毛]=㲲。(見圖三)
   標法:<reg>通用字</reg>
   範例:青天飛一錫,白<reg>㲲</reg>入孤雲。
  (3)此字不易於辨識者(不易讀懂,罕用字),無通用字時,則標記<g>,並需建立缺字檔。(缺字建檔方法見【附一】)
   例如:[悖*力]。(見圖四)
   標法:<g ref="#字圖檔名"/>
   範例:頓令須彌倒卓,<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。
 
● 訛字處理
  文本中的錯字,包含看似錯誤但仍照實轉錄的字,則加以修訂。
  訛字修訂:<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>
  範例:一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落
● 漏字處理
  文本中的缺漏字,或模糊不清的字,或難以讀懂的字,則標「省略」標記(gap)。
  1)缺漏字
   標法:<gap extent="1" unit="chars" reason="lost"/>
  2)模糊不清的字
   標法:<gap extent="2" unit="chars" reason="unclear"/>
  3)難以讀懂的字(例如草書字)
   標法:<gap extent="3" unit="chars" reason="illegible"/>
  4)缺漏一段文字
   標法:<gap extent="unknown" unit="chars" reason="lost"/>
   (註)extent:此指字數
● 底本本身的刪塗、訂正字
  <choice><del>刪塗字</del><add>後人訂正字</add></choice>
  例:<choice><del>梦</del><add>愛</add></choice>(g014p0156)
 
【附一】缺字建檔
佛寺志缺字庫網頁http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq
缺字建置步驟
1. 登入缺字庫網頁,輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」,
   按「新增一筆」,產生一個缺字id:<glyph xml:id="">。
   缺字編碼原則:btg(佛寺志)XXX(志碼3碼)XXXX(頁碼4碼)XX(序號2碼)
   例如:阿育王山志第298頁第4個缺字[口*斗]的id是:btg010029804
2. <glyphName>:選擇是否為unicode編碼字,若為unicode編碼字,則採用Decimal碼。
3. <charProp>:若知其發音,則點選「再增加一個charProp」。
   (1) <localName>:若知其發音,則選pronunciation。
   (2) <value>:欄內填入此字之漢語拼音。例:媽ma1,嗎ma5,恰qia4
     (第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5)
4. <mapping type>:有common(通用字)、cbeta(CBETA組字式)、cbetaNo(CB碼)、
   unicode(unicode Decimal碼)、MoEvariant(教育部異體字編碼)五種型態,
   依其資料一一增加mapping填入。
5. <note>:若對此字有特殊之考查,可add a note,描述考據的結果。
   例:韻 [音*貟],異體字例,部件「口、厶」俗寫多彼此相訛,凡此皆可視為異體。
6. 填寫上述資料後,按「更新資料庫」,即完成一個缺字的建置。
【附二】缺字圖檔製作
 1.原則:裁切文本掃瞄檔(.tif)作為字圖。(作法如下)
 
 2.裁切字圖步驟(利用Gimp軟體處理)
  (1)開啟Gimp功能表「檔案」.
  (2)點選「開啟」.
  (3)選擇缺字當頁的掃瞄圖.ex:1B001P077
   (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
  (4)放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
  (5)點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
  (6)將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
  (7)設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定)
 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
  (8)點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
  (9)缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
  (10)缺字圖檔請通知妙妙上傳到dev.
 
  ●●缺字給 CBETA Maha製作流程
(1)請Maha幫忙製作缺字 無CB碼、無組字式 者
(2)須製作(1)的二點資訊者,於缺字介面note註明maha
(3)小花再以note註明的maha 彙整送給maha
(4)缺字資訊的note寫法可參考缺字介面的(8)<add a note>: 為註記資訊用
  ●●缺字圖上傳
  (1) FTP informations:
    session:fosizhi
    host name:10.10.0.49
    user name:april  
    password:m4tjp
  (2)上傳位置 
    從 Y:\Projects\fosizhi\images\gword\
    複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords
  (3)從dev 到informatics 上傳時間為一週
  ●●缺字在佛寺志網頁的呈現順序?
   1.組字式
   2.字圖
 
【附三】unicode編碼字
Unihan網站 http://www.unicode.org/charts/unihanrsindex.html
 
1.utf字符碼CJK漢字的範圍
  * utf-32:U+20000- U+2A6DF(中日韓統一表意文字擴展B區)
  * utf-32:U+2A700-U+2B73F(中日韓統一表意文字擴展C區)
  * utf-32:U+2B740- U+2B81F(中日韓統一表意文字擴展D區)
  * Decimal:131072以上
  (以上皆屬Extension的擴展字,可直接貼在文本)
2.若unicode編碼字在Oxygen編輯器下無法直接貼上時,則先以Notepad++開啟此檔,
  並於內貼上此字、存檔,然後再轉接以Oxygen繼續作業。
  此時經過Notepad++轉化的此缺字,將在Oxygen以□的形式呈顯,
  但此字在網頁上應已可以如實呈現。
  如果此字在介面仍無法顯現,請檢查是否已安裝Undicode擴充字型
  Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
  Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf
 
 
</syntaxhighlight>
  *台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
  *別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

於 2011年9月28日 (三) 09:25 的修訂

aaa

bbb