「佛寺志專案 特字處理」:修訂間差異
imported>Flee62ex |
imported>Flee62ex |
||
行 114: | 行 114: | ||
三、Ctrl+F 使用「找下一個」搜尋「<orig>」,一次找一筆,原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。 | 三、Ctrl+F 使用「找下一個」搜尋「<orig>」,一次找一筆,原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。 | ||
以g001為例,第一筆<orig>應該會找到「<choice><orig>𠇍</orig>......</choice>」。 | 以g001為例,第一筆<orig>應該會找到「<choice><orig>𠇍</orig>......</choice>」。 | ||
註:也能以<choice>當關鍵字來找,但會搜到標<sic>的字。 | |||
四、每找到一筆<orig>,就使用「搜尋所有開啟文件」尋找<orig> </orig>之間的字。承前例,以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。 | 四、每找到一筆<orig>,就使用「搜尋所有開啟文件」尋找<orig> </orig>之間的字。承前例,以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。 | ||
行 124: | 行 126: | ||
八、當所有開啟的佛寺志都完成步驟三至六以後,便算是完成「統一各志間特字處理方式」的工作。 | 八、當所有開啟的佛寺志都完成步驟三至六以後,便算是完成「統一各志間特字處理方式」的工作。 | ||
=訛字處理= | =訛字處理= |
於 2012年2月7日 (二) 15:59 的修訂
回《中國佛寺史志》數位典藏工作手冊 Archive of Buddhist Temple Gazetteers(Service manual)
佛寺志專案 特字處理
作業環境
皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。
一、將現有 txt 檔更改為 UTF-8 編碼的方式:
- 點選另存新檔。
- 在存檔畫面下方「編碼」那一欄選擇 UTF-8。
二、以 NotePad++ 開啟已更改編碼的 txt 檔案。
特字處理原則
特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C), 然後再根據文字本身(或搭配前後文)是否易於辨識而做應對的標記。
有 unicode 編碼的字
易於辨識
此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。
例如:静,徳,録,䟽
如果 unicode 有編碼,但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到,而「The Unicode Standard」欄位看不到圖檔,例如 U+2F8BB,超出 Extension-D(U+2B740-U+2B81D) 的範圍,現有軟體支援較少。而且這個字容易辨識可與「捨」通用,只是在「口」之上的一豎稍微凸出來一點,就直接採用通用字「捨」,不必另加標記。(根據 2011.9.27 會議結論)
不易讀懂,罕用字
此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <choice>。
例如:㝎(定),灋(法),銕(鐵)。(見圖二)
標記:
<choice>
<orig>文本原字(unicode)</orig>
<reg resp="ddbc.da">通用字</reg>
</choice>
範例:
優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香
(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)
有歧義
若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記 <choice>。
例如:縣(「懸」的通假字),餉(「晌」的通假字)
標法:
<choice>
<sic>文本原字</sic>
<reg resp="ddbc.da">消歧字</reg>
</choice>
範例:
萬靈八部<choice>
<sic>縣</sic>
<reg resp="ddbc.da">懸</reg></choice>望已久
無 unicode 編碼的字
易於辨識
此字易於辨識者(不會產生懷疑的),但有通用字時,則選用其通用字,而不做任何標記。
- 少一撇、多一點的字:不標記(選擇用通用字)。例:播,余。(見圖一)
- 刻版慣例,書寫習慣:不標記(選擇用通用字)。例:於,所。(見圖一)
- 搭配前後文易於辨識者:不標記(選擇用通用字)。例:關。(見圖一)
不易辨識, 有通用字
此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記 <reg>。
例如:[叠*毛]=㲲。(見圖三)
標法:
<reg>通用字</reg>
範例:
青天飛一錫,白<reg>㲲</reg>入孤雲。
不易辨識, 無通用字
此字不易於辨識者(不易讀懂,罕用字),無通用字時,則標記 <g>,並需建立缺字檔。(缺字建檔方法見【附一】)
例如:[悖*力]。(見圖四)
標法:
<g ref="#字圖檔名"/>
範例:
頓令須彌倒卓,<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。
如何統一各志間特字處理方式
由於外包打字公司以及特字處理人員,面對同一字,可能因各種因素導致作業前期和作業後期處理方式不同的情況(例如打字人員因時常遇到特定難字,對該字變得熟悉,於是不標代表需做特字處理記號,而直接輸入該字)。若要使各志以及同一志前後文在特字處理上達到一致性,就必須進行統一各志間特字處理方式的工作,建議全套佛寺志完成後再做這部份作業較有效率。
目前處理方式如下:
一、打開NotePad++,並開啟所有已完成特字處理的文件。 p.s.應注意以NotePad++開啟g032的txt檔時易出問題,改開啟g032的xml檔能避免此問題。
二、挑選一個檔案,建議從最前面或最後面的檔案開始,較不易遺漏。
三、Ctrl+F 使用「找下一個」搜尋「<orig>」,一次找一筆,原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。 以g001為例,第一筆<orig>應該會找到「<choice><orig>𠇍</orig>......</choice>」。
註:也能以<choice>當關鍵字來找,但會搜到標<sic>的字。
四、每找到一筆<orig>,就使用「搜尋所有開啟文件」尋找<orig> </orig>之間的字。承前例,以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。
五、一一判斷上一步驟搜尋所得的每一筆結果,接著以正確的方式處理之。承前例,判斷各佛寺志出現的「𠇍」字是否都妥當處理,若無,則加以處理。
六、確定所有開啟的佛寺志都完成上一步驟後,才算完成一個字在各志間的「統一各志間特字處理方式」之作業。接著應回步驟三,找到下一個字,然後繼續針對得到的字做步驟四到五。再承前例,全部佛寺志出現過的「𠇍」字都妥當處理後,繼續藉「找下一個」搜尋「<orig>」,找出接下來應處理的字是「䟦」,然後針對「䟦」字做步驟四到五。
七、不斷重覆步驟三至步驟五,直到一個志全部標過<orig>的字都經過步驟三到五的處理,就能換下一個志,但仍應將此志維持開啟,以利處理其他佛寺志特字時,搜到此志應處理而未處理的字。承前例,處理g002時,g001應維持開啟。
八、當所有開啟的佛寺志都完成步驟三至六以後,便算是完成「統一各志間特字處理方式」的工作。
訛字處理
文本中的錯字,包含看似錯誤但仍照實轉錄的字,則加以修訂。
訛字修訂:
<choice><sic>文本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>
範例:
一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落
漏字處理
文本中的缺漏字,或模糊不清的字,或難以讀懂的字,則標「省略」標記 <gap>。
缺漏字
標法:
<gap extent="1" unit="chars" reason="lost"/>
註:unit 屬性是單位,extent 屬性是有幾個單位,本例中 unit="chars",extent="1" 便表示有1個字。
模糊不清的字
標法:
<gap extent="2" unit="chars" reason="unclear"/>
難以讀懂的字(例如草書字)
標法:
<gap extent="3" unit="chars" reason="illegible"/>
缺漏一段文字
標法:
<gap extent="unknown" unit="chars" reason="lost"/>
底本本身的刪塗、訂正字
1.後人訂正字
<choice>
<del>刪塗字</del>
<add>後人訂正字</add>
</choice>
例:(g014p0156)
<choice>
<del>梦</del>
<add>愛</add>
</choice>
2.原著(編)者訂正字
<del>刪塗字</del>
<add>原著(編)者訂正字</add>
例:(g094p0206)
<del>行</del>
<add>存</add>
缺字建檔
佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq
缺字建置步驟
- 登入缺字庫網頁,輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」,按「新增一筆」,產生一個缺字id:<glyph xml:id="">。缺字編碼原則:btg(佛寺志)XXX(志碼3碼)XXXX(頁碼4碼)XX(序號2碼),例如:阿育王山志第298頁第4個缺字[口*斗]的id是:btg010029804
- <glyphName>:選擇是否為unicode編碼字,若為unicode編碼字,則採用Decimal碼。
- <charProp>:若知其發音,則點選「再增加一個charProp」。
- <localName>:若知其發音,則選pronunciation。
- <value>:欄內填入此字之漢語拼音。例:媽ma1,嗎ma5,恰qia4(第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5)
- <mapping type>:有common(通用字)、cbeta(CBETA組字式)、cbetaNo(CB碼)、unicode(unicode Decimal碼)、MoEvariant(教育部異體字編碼)五種型態,依其資料一一增加mapping填入。
- <note>:若對此字有特殊之考查,可add a note,描述考據的結果。例:韻 [音*貟],異體字例,部件「口、厶」俗寫多彼此相訛,凡此皆可視為異體。
- 填寫上述資料後,按「更新資料庫」,即完成一個缺字的建置。
缺字圖檔製作
原則
裁切文本掃瞄檔(.tif)作為字圖。(作法如下)
裁切字圖步驟
利用Gimp軟體處理
- 開啟Gimp功能表「檔案」.
- 點選「開啟」.
- 選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
- 放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
- 點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
- 將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
- 設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
- 點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
- 缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
- 缺字圖檔請通知妙妙上傳到dev.
缺字給 CBETA Maha 製作流程
- 請 Maha 幫忙製作缺字 無CB碼、無組字式 者
- 須製作(1)的二點資訊者,於缺字介面note註明maha
- 小花再以 note 註明的 maha 彙整送給 maha
- 缺字資訊的 note 寫法可參考缺字介面的(8)<add a note>: 為註記資訊用
缺字圖上傳
FTP informations
- session:fosizhi
- host name:10.10.0.49
- user name:april
- password:m4tjp
上傳位置
從 Y:\Projects\fosizhi\images\gword\
複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords
上傳週期
從 dev 到informatics 上傳時間為一週
缺字呈現
缺字在佛寺志網頁的呈現順序
- 組字式
- 字圖
unicode 編碼字
Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html
CJK漢字編碼範圍
- U+20000- U+2A6DF(中日韓統一表意文字擴展B區)
- U+2A700-U+2B73F(中日韓統一表意文字擴展C區)
- U+2B740- U+2B81F(中日韓統一表意文字擴展D區)
- Decimal:131072以上
(以上皆屬 Extension 的擴展字,可直接貼在文本)
編輯器
若unicode編碼字在Oxygen編輯器下無法直接貼上時,則先以Notepad++開啟此檔,並於內貼上此字、存檔,然後再轉接以Oxygen繼續作業。
此時經過Notepad++轉化的此缺字,將在 Oxygen 以 □ 的形式呈顯,但此字在網頁上應已可以如實呈現。
如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型
- Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
- Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf