於 2011年9月28日 (三) 09:25 的修訂

aaa

bbb

取自「https://jiva.dila.edu.tw/index.php?title=佛寺志專案_特字處理&oldid=5129」

@@ 行 1： / 行 1： @@
-= 特字處理的作業環境=
+=aaa=
+bbb
-  皆以NotePad++軟體來處理UTF-8編碼的txt檔。
- 一、將現有txt檔更改為UTF-8編碼的方式：
-  (1)點選另存新檔。
-  (2)在存檔畫面下方「編碼」那一欄選擇UTF-8。
- 二、以NotePad++開啟已更改編碼的txt檔案。
-=特字處理原則=
-  特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），
-  然後再根據文字本身（或搭配前後文）是否易於辨識而做應對的標記。
-=有 unicode 編碼的字=
-  (1)此字易於辨識者（不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。
-   例如：静，徳，録，䟽
-  (2)此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記 &lt;choice>。
-   例如：㝎（定），灋（法），銕（鐵）。（見圖二）
-   標記：
-<syntaxhighlight lang="XML">
-<choice><orig>文本原字(unicode)</orig><reg resp="ddbc.da">通用字</reg></choice>
-</syntaxhighlight>
-   範例：
-<syntaxhighlight lang="XML">
-優曇華發<choice><orig>㝎</orig><reg resp="ddbc.da">定</reg></choice>中香
-</syntaxhighlight>
-    （通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）
-<syntaxhighlight lang="XML">
-  (3)若文字本身有歧義，易使讀者對句意產生誤會者（即文字本身雖為一般字，但在此另當別解時），則標記<choice>。
-   例如：縣（「懸」的通假字），餉（「晌」的通假字）
-   標法：<choice><sic>文本原字</sic><reg resp="ddbc.da">消歧字</reg></choice>
-   範例：萬靈八部<choice><sic>縣</sic><reg resp="ddbc.da">懸</reg></choice>望已久
- 二、無unicode編碼字
-  (1)此字易於辨識者（不會產生懷疑的），但有通用字時，則選用其通用字，而不做任何標記。
-    (a) 少一撇、多一點的字：不標記（選擇用通用字）。例：播，余。（見圖一）
-    (b) 刻版慣例，書寫習慣：不標記（選擇用通用字）。例：於，所。（見圖一）
-    (c) 搭配前後文易於辨識者：不標記（選擇用通用字）。例：關。（見圖一）
-  (2)此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則標記<reg>。
-   例如：[叠*毛]＝㲲。（見圖三）
-   標法：<reg>通用字</reg>
-   範例：青天飛一錫，白<reg>㲲</reg>入孤雲。
-  (3)此字不易於辨識者（不易讀懂，罕用字），無通用字時，則標記<g>，並需建立缺字檔。（缺字建檔方法見【附一】）
-   例如：[悖*力]。（見圖四）
-   標法：<g ref="#字圖檔名"/>
-   範例：頓令須彌倒卓，<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。
-● 訛字處理
-  文本中的錯字，包含看似錯誤但仍照實轉錄的字，則加以修訂。
-  訛字修訂：<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>
-  範例：一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落
-● 漏字處理
-  文本中的缺漏字，或模糊不清的字，或難以讀懂的字，則標「省略」標記（gap）。
-)缺漏字
-   標法：<gap extent="1" unit="chars" reason="lost"/>
-)模糊不清的字
-   標法：<gap extent="2" unit="chars" reason="unclear"/>
-)難以讀懂的字（例如草書字）
-   標法：<gap extent="3" unit="chars" reason="illegible"/>
-)缺漏一段文字
-   標法：<gap extent="unknown" unit="chars" reason="lost"/>
-   （註）extent：此指字數
-● 底本本身的刪塗、訂正字
-  <choice><del>刪塗字</del><add>後人訂正字</add></choice>
-  例：<choice><del>梦</del><add>愛</add></choice>（g014p0156）
-【附一】缺字建檔
-佛寺志缺字庫網頁http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq
-缺字建置步驟
-. 登入缺字庫網頁，輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」，
-   按「新增一筆」，產生一個缺字id：<glyph xml:id="">。
-   缺字編碼原則：btg（佛寺志）XXX（志碼3碼）XXXX（頁碼4碼）XX（序號2碼）
-   例如：阿育王山志第298頁第4個缺字[口*斗]的id是：btg010029804
-. <glyphName>：選擇是否為unicode編碼字，若為unicode編碼字，則採用Decimal碼。
-. <charProp>：若知其發音，則點選「再增加一個charProp」。
-   (1) <localName>：若知其發音，則選pronunciation。
-   (2) <value>：欄內填入此字之漢語拼音。例：媽ma1，嗎ma5，恰qia4
-     （第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5）
-. <mapping type>：有common（通用字）、cbeta（CBETA組字式）、cbetaNo（CB碼）、
-   unicode（unicode Decimal碼）、MoEvariant（教育部異體字編碼）五種型態，
-   依其資料一一增加mapping填入。
-. <note>：若對此字有特殊之考查，可add a note，描述考據的結果。
-   例：韻 [音*貟]，異體字例，部件「口、厶」俗寫多彼此相訛，凡此皆可視為異體。
-. 填寫上述資料後，按「更新資料庫」，即完成一個缺字的建置。
-【附二】缺字圖檔製作
- １.原則：裁切文本掃瞄檔(.tif)作為字圖。（作法如下）
- ２.裁切字圖步驟（利用Gimp軟體處理）
-   (1)開啟Gimp功能表「檔案」.
-   (2)點選「開啟」.
-   (3)選擇缺字當頁的掃瞄圖.ex:1B001P077
-    (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
-   (4)放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
-   (5)點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
-   (6)將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
-   (7)設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定)
- 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
-   (8)點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
-   (9)缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
-   (10)缺字圖檔請通知妙妙上傳到dev.
-  ●●缺字給 CBETA Maha製作流程
- (1)請Maha幫忙製作缺字 無CB碼、無組字式 者
- (2)須製作(1)的二點資訊者，於缺字介面note註明maha
- (3)小花再以note註明的maha 彙整送給maha
- (4)缺字資訊的note寫法可參考缺字介面的(8)<add a note>: 為註記資訊用
-  ●●缺字圖上傳
-   (1) FTP informations:
-     session:fosizhi
-     host name:10.10.0.49
-     user name:april
-     password:m4tjp
-   (2)上傳位置
-    從 Y:\Projects\fosizhi\images\gword\
-    複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords
-   (3)從dev 到informatics 上傳時間為一週
-  ●●缺字在佛寺志網頁的呈現順序？
-.組字式
-.字圖
-【附三】unicode編碼字
- Unihan網站 http://www.unicode.org/charts/unihanrsindex.html
-１.utf字符碼CJK漢字的範圍
-  * utf-32：U+20000- U+2A6DF（中日韓統一表意文字擴展B區）
-  * utf-32：U+2A700-U+2B73F（中日韓統一表意文字擴展C區）
-  * utf-32：U+2B740- U+2B81F（中日韓統一表意文字擴展D區）
-  * Decimal：131072以上
-  （以上皆屬Extension的擴展字，可直接貼在文本）
-２.若unicode編碼字在Oxygen編輯器下無法直接貼上時，則先以Notepad++開啟此檔，
-  並於內貼上此字、存檔，然後再轉接以Oxygen繼續作業。
-  此時經過Notepad++轉化的此缺字，將在Oxygen以□的形式呈顯，
-  但此字在網頁上應已可以如實呈現。
-  如果此字在介面仍無法顯現,請檢查是否已安裝Undicode擴充字型
-   Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
-   Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf
- </syntaxhighlight>
-  ＊台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
-  ＊別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

匿名

搜尋

「佛寺志專案特字處理」：修訂間差異

命名空間

更多

頁面操作

於 2011年9月28日 (三) 09:25 的修訂

aaa

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

「佛寺志專案 特字處理」：修訂間差異

於 2011年9月28日 (三) 09:25 的修訂

aaa

導覽

wiki工具

頁面工具

「佛寺志專案特字處理」：修訂間差異