「佛寺志專案 特字處理」:修訂間差異

出自DILA Wiki
imported>April
imported>Kitty
行 378: 行 378:


==inkscape造字操作法==
==inkscape造字操作法==
找尋需要造字的字形圖檔


=參考資源=
=參考資源=
*台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
*台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
*別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml
*別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

於 2012年9月27日 (四) 15:57 的修訂

回《中國佛寺史志》數位典藏工作手冊 Archive of Buddhist Temple Gazetteers(Service manual)

回《中國佛寺史志》標記作業]

佛寺志專案 特字處理

作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式:

  1. 點選另存新檔。
  2. 在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理原則

特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C), 然後再根據文字本身(或搭配前後文)是否易於辨識,而做對應的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者(容易讀懂,不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。例如:静(靜),徳(德)。

範例1:於是皇帝屏左右,静坐良乆[=久],再焚香祈禱。g010p0149
範例2:蓋仁慈清淨,其功徳不殊。g008p0032

如果 unicode 有編碼,但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到,而「The Unicode Standard」欄位看不到圖檔,例如 U+2F8BB,超出 Extension-D(U+2B740-U+2B81D) 的範圍,現有軟體支援較少。而且這個字容易辨識可與「捨」通用,只是在「口」之上的一豎稍微凸出來一點,就直接採用通用字「捨」,不必另加標記。(根據 2011.9.27 會議結論)

額外的參考做法:以部首為判斷標準,二字間凡具異體字或通用字關係而部首不同者,無論字體多接近,皆加<choice>。例如:「嘗」(口部)與「甞」(甘部),部首不同,判斷要加記號;「峰」與「峯」部首相同,聲符亦未有差異,僅是改變形符(於此例中兼部首)與聲符相對位置,則考慮不標記。

不易辨識

此字不易於辨識者(不易讀懂,罕用字),但有通用字時,例如:㝎(定),灋(法),銕(鐵)。

標法:

<choice>
  <orig>底本原字</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例:

優曇華發<choice>
<orig></orig>
<reg resp="ddbc.da"></reg></choice>中香  衣裏明珠是宻藏

呈現方式:

網頁呈現:優曇華發㝎[=定]中香  衣裏明珠是宻藏 g008p0543
PDF呈現:(內文)優曇華發㝎1中香  衣裏明珠是宻藏
        (註腳)1 底本「㝎」為「定」的異體字


(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)

請注意:同一篇文章(同一最小層級標題之下),有同一字重複出現「不易讀懂,罕用字」情況時,為避免同一字被頻繁標記,惟其第一次出現需加標示。但倘使最小層級標題涵括的內文過短,則易因範圍太小,無法達到的效果;為加大範圍,得斟酌改以較高層級的標題判斷一字是否重覆標記。

有歧義

若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),例如:「縣」「懸」通假,「餉」「晌」通假)。

標法:

<choice>
<sic>底本原字</sic>
<reg resp="ddbc.da">消歧字</reg>
</choice>

範例:

葢絳節之麓,山君樹神以及萬靈八部<choice>
<sic></sic>
<reg resp="ddbc.da"></reg>
</choice>望已久,始有今日殊勝耳。

呈現方式:

網頁呈現:葢絳節之麓,山君樹神以及萬靈八部縣[≒懸]望已久,始有今日殊勝耳。g086p0251
PDF呈現:(內文)葢絳節之麓,山君樹神以及萬靈八部縣望已久,始有今日殊勝耳。
        (註腳)底本「縣」為「懸」的通假字

無 unicode 編碼的字

易於辨識

此字易於辨識者(不會產生懷疑的),且有通用字,則直接採用其通用字,而不做任何標記。
(註:標記亦不算錯,只要文本一致就可以了。2012/6/1 confirm with Marcus)

類型1:多一點、少一撇的字。例:余,吾。
範例1:余生平事佛 g010p0003
類型2:刻版慣例,書寫習慣。例:所,於。
範例2:與吾靈臺有所發明者而雅尚之 g010p0003
類型3:搭配前後文易於辨識者。例:關。
範例3:舉家百口入於萬死一生之地 g010p0005

不易辨識, 有通用字

此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則直接採用其通用字,並以<reg>標記之。例如:[叠*毛](㲲)。

標法:

<reg>通用字</reg>

範例:

青天飛一錫,白<reg>㲲</reg>入孤雲。

呈現:

網頁呈現:青天飛一錫,白㲲入孤雲。g008p0539
PDF呈現:青天飛一錫,白㲲入孤雲。(㲲字下方有一小黑點,但在wiki無法顯示)

不易辨識, 無通用字

此字不易於辨識者(不易讀懂,罕用字),且無通用字時,則以<g>標記之,並需建立缺字檔。

標法:

<g ref="#btg圖檔檔名"/>
註:圖檔檔名=志碼3碼+頁碼4碼+流水號2碼
例:<g ref="#btg010052801"/>

範例:

頓令須彌倒卓,<g ref="#btg086026901"/>𣿨全枯。

呈現:

頓令須彌倒卓,□𣿨全枯。g0860269

重複字

<choice><orig><g ref="#bty117000301"/><備註組字式拆法!--[?]--></orig><reg(這裏中間要空1格)resp="ddbc.da">重複的字</reg></choice>

如何統一各志間特字處理方式

由於外包打字公司以及特字處理人員,面對同一字,可能因各種因素導致作業前期和作業後期處理方式不同的情況(例如打字人員因時常遇到特定難字,對該字變得熟悉,於是不標代表需做特字處理記號,而直接輸入該字)。若要使各志以及同一志前後文在特字處理上達到一致性,就必須進行統一各志間特字處理方式的工作,建議全套佛寺志完成後再做這部份作業較有效率。

目前處理方式如下:

一、打開NotePad++,並開啟所有已完成特字處理的文件。 p.s.應注意若以NotePad++開啟g032的txt檔時易出問題,則可改開g032的xml檔。

二、挑選一個檔案,建議從最前面或最後面的檔案開始,較不易遺漏。

三、Ctrl+F 使用「找下一個」搜尋「<choice>」,一次找一筆,原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。 以g001為例,第一筆<choice>應該會找到「<choice><orig>𠇍</orig>......</choice>」。

四、每找到一筆<choice>,就使用「搜尋所有開啟文件」尋找<orig> </orig>之間的字。承前例,以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。

五、一一判斷上一步驟搜尋所得的每一筆結果,接著以正確的方式處理之。承前例,判斷各佛寺志出現的「𠇍」字是否都妥當處理,若無,則加以處理。

六、確定所有開啟的佛寺志都完成上一步驟後,才算完成一個字在各志間的「統一各志間特字處理方式」之作業。接著應回步驟三,找到下一個字,然後繼續針對得到的字做步驟四到五。再承前例,全部佛寺志出現過的「𠇍」字都妥當處理後,繼續藉「找下一個」搜尋「<choice>」,找出接下來應處理的字是「䟦」,然後針對「䟦」字做步驟四到五。

七、不斷重覆步驟三至步驟五,直到一個志全部標過<choice>的字都經過步驟三到五的處理,就能換下一個志,但仍應將此志維持開啟,以利處理其他佛寺志特字時,搜到此志應處理而未處理的字。承前例,處理g002時,g001應維持開啟。

八、當所有開啟的佛寺志都完成步驟三至六以後,便算是完成「統一各志間特字處理方式」的工作。

訛字處理

文本中的錯字,包含看似錯誤但仍照實轉錄的字,則加以修訂。

標法:

<choice><sic>底本的字</sic><corr resp="ddbc.da">修訂後的字</corr></choice>

範例:

一切殿宇皆頹<choice><sic></sic><corr resp="ddbc.da"></corr></choice>剝落

呈現方式:

網頁呈現:一切殿宇皆頹圯[>圮]剝落 g010p0264
PDF呈現:(內文)一切殿宇皆頹圮剝落
        (註腳)「圮」為底本「圯」的勘誤

漏字處理

文本中的缺漏字,或模糊不清的字,或難以認識的字,則以 <gap>標記之。

缺漏字

標法1:<gap extent="1" unit="chars" reason="lost"/>(漏字)
標法2:<gap extent="1" unit="chars" reason="unclear"/>(模糊不清的字,例如印刷不清)
標法3:<gap extent="1" unit="chars" reason="illegible"/>(難以認識的字,例如草書)
標法4:<gap extent="unknown" unit="chars" reason="lost"/>(缺漏一段文字)

註:unit 屬性是單位,extent 屬性是單位數量,本例中 unit="chars",extent="1" 便表示有1個字。

範例1:地屬三寶<gap extent="2" unit="chars" reason="lost"/>鬼神護訶。
範例2:有侵佔者,身墮地獄,<gap extent="1" unit="chars" reason="unclear"/>及子孫。
範例3:<gap extent="2" unit="chars" reason="illegible"/>諸寺 
範例4:余曰:「盍行乎?」<gap extent="unknown" reason="lost" unit="chars"/>迄于今甲子周,而事始稍稍竣也。

呈現方式:以一個空白方框代表一個缺漏字。

網頁呈現1:地屬三寶□□鬼神護訶。g043p0072
網頁呈現2:有侵佔者,身墮地獄,□及子孫。g043p0072
網頁呈現3:□□諸寺 g081p0013
網頁呈現4:余曰:「盍行乎?」□...□迄于今甲子周,而事始稍稍竣也。g086p0286
PDF呈現:(內文)與網頁呈現相同

補字

文本原無此字,在他版本找到該處可填某字的根據。

標法:

<supplied reason="lost">闕漏字</supplied><note resp="ddbc.da">參考來源</note>

範例:g043p0069

<supplied reason="lost">木鐸徇于道路,《周官》所以警其頑</supplied>
<note resp="ddbc.da">「木鐸徇于道路周官所以警其頑」十三字底本原缺,此據本志卷一.頁54〈明,唐寅:姑蘇寒山寺化鐘疏〉一文補入。以下本文之闕漏字補入來源例同。</note>
愚;銅鍾司其<supplied reason="lost">晨昬</supplied>,釋氏所以覺夫靈性。

呈現方式:

 網頁呈現:[[木鐸徇于道路,《周官》所以警其頑]][註]愚;銅鍾司其[[晨昬]],釋氏所以覺夫靈性。
 PDF呈現:(內文)[[木鐸徇于道路,《周官》所以警其頑]][註]愚;銅鍾司其[[晨昬]],釋氏所以覺夫靈性。
         (註腳)[註]「木鐸徇于道路周官所以警其頑」十三字底本原缺,此據本志卷一.頁54〈明,唐寅:姑蘇寒山寺化鐘疏〉一文補入。以下本文之闕漏字補入來源例同。

底本本身的刪塗、訂正字

訂正字
  <del>刪塗字</del>
  <add>原著(編)者訂正字</add>

例:(g094p0206)
  <del></del>
  <add></add>


呈現方式:
<del></del>(劃一橫線表示刪去)
{存}(加上大括弧表示原著(編)者訂正字)

若刪除的字辨識不清時,reason用 "cancelled":

<del><gap extent="2" unit="chars" reason="cancelled"/></del>

缺字建檔

佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq

缺字建置步驟

  1. 登入缺字庫網頁,輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」,按「新增一筆」,產生一個缺字id:<glyph xml:id="">。缺字編碼原則:btg(佛寺志)XXX(志碼3碼)XXXX(頁碼4碼)XX(序號2碼),例如:阿育王山志第298頁第4個缺字[口*斗]的id是:btg010029804
  2. <glyphName>:選擇是否為unicode編碼字,若為unicode編碼字,則採用Decimal碼。
  3. <charProp>:若知其發音,則點選「再增加一個charProp」。
    1. <localName>:若知其發音,則選pronunciation。
    2. <value>:欄內填入此字之漢語拼音。例:媽ma1,嗎ma5,恰qia4(第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5)
  4. <mapping type>:有common(通用字)、cbeta(CBETA組字式)、cbetaNo(CB碼)、unicode(unicode Decimal碼)、MoEvariant(教育部異體字編碼)五種型態,依其資料一一增加mapping填入。
  5. <note>:若對此字有特殊之考查,可add a note,描述考據的結果。例:韻 [音*貟],異體字例,部件「口、厶」俗寫多彼此相訛,凡此皆可視為異體。
  6. 填寫上述資料後,按「更新資料庫」,即完成一個缺字的建置。

缺字圖檔製作

原則

裁切文本掃瞄檔(.tif)作為字圖。(作法如下)

裁切字圖步驟

利用Gimp軟體處理

  1. 開啟Gimp功能表「檔案」.
  2. 點選「開啟」.
  3. 選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
  4. 放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
  5. 點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
  6. 將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
  7. 設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定) 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
  8. 點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
  9. 缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
  10. 缺字圖檔請通知妙妙上傳到dev.

缺字給 CBETA Maha 製作流程

  1. 請 Maha 幫忙製作缺字 無CB碼、無組字式 者
  2. 須製作(1)的二點資訊者,於缺字介面note註明maha
  3. 小花再以 note 註明的 maha 彙整送給 maha
  4. 缺字資訊的 note 寫法可參考缺字介面的(8)<add a note>: 為註記資訊用

缺字圖上傳

FTP informations

  • session:fosizhi
  • host name:dev.ddbc.edu.tw
  • user name:自己的帳號
  • password:自己的密碼

上傳後缺字圖檔自動出現在缺字資料庫中

上傳位置

從 Y:\Projects\fosizhi\images\gword\
複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords

上傳週期

從 dev 到informatics 上傳時間為一週

缺字呈現

缺字在佛寺志網頁的呈現順序

  1. 組字式
  2. 字圖

unicode 編碼字

Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html

CJK漢字編碼範圍

  • U+20000- U+2A6DF(中日韓統一表意文字擴展B區)
  • U+2A700-U+2B73F(中日韓統一表意文字擴展C區)
  • U+2B740- U+2B81F(中日韓統一表意文字擴展D區)
  • Decimal:131072以上

(以上皆屬 Extension 的擴展字,可直接貼在文本)

編輯器

若u==編輯器== nicode編碼字在Oxygen編輯器下無法直接貼上時,則先以Notepad++開啟此檔,並於內貼上此字、存檔,然後再轉接以Oxygen繼續作業。

此時經過Notepad++轉化的此缺字,將在 Oxygen 以 □ 的形式呈顯,但此字在網頁上應已可以如實呈現。

如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型

  • Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
  • Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf

快速尋找unicode的方法

國際電腦漢字及異體字知識庫: http://chardb.iis.sinica.edu.tw/ 得知unicode 的碼及異體字

至unihan網站選unihan search pages 輸入 unicode碼 ,可得到異體字字形 http://www.unicode.org/charts/unihan.html 例如:秋的異體字2584C

註:秋的unicode碼為79CB,於word按ALT+X 可得到該字

有助於增加特字處理效率的工具與方法

1.輸入法整合器

(1)啟用:使用新注音或新倉頡輸入法時,靠語言列右邊的「工具選單」裡,第一個選項即輸入法整合器。

(2)使用方式:

a.滑鼠點選已開啟之文字檔中,欲輸入文字之處。

b.在輸入法整合器左邊大片空白的面板上,以滑鼠劃出字形。

c.看輸入法整合器右邊的選項裡是否出現欲輸入的字形。但需注意,有時還沒劃完就會出現想要的字。

(3)適用時機:

a.造缺字時:直接寫出如亻、阝等筆畫少的偏旁,能避免為找一個字的偏旁而將時間白白耗在等待unihan頁面好幾次開啟。

b.找查難以判斷筆劃、讀音、部首的字或同分類的字庫太龐大時:例如雘(實為隹部)、匼(據教育部異體字典,讀音為ㄎㄜˋ、ㄜˋ或ㄢˇ)、蕟(艸部unihan字庫太龐大)、垂(各字典筆畫算法不同)等字。滑鼠移至輸入法整合器提供之字形選項上,會出現參考讀音(不一定是正確的),也是值得運用的功能。

c.其它:例如辦公的筆電接大螢幕進行報告,倘無大量書寫之必要時可臨時充當白板。

(4)缺點:

a.同樣的字,筆順不同時,會影響程式判斷,使右側選項出現的字跟著不同。

b.此外,欲輸入之字有時會在未劃完完整字形已出現,劃完反而因程式判斷成別的字形而找不到。

c.字庫頗小,能找到的字有限。

SVG造字

  • TTF:有圖形,有字碼
  • SVG:無大小尺寸,向量圖檔,有圖形,無字碼


參閱

http://zh.wikipedia.org/wiki/Inkscape

安裝

http://inkscape.org/

inkscape造字操作法

找尋需要造字的字形圖檔

參考資源