「佛寺志專案 特字處理」:修訂間差異

出自DILA Wiki
imported>Ray
(新頁面: <syntaxhighlight lang="XML"> ● 特字處理的作業環境 皆以NotePad++軟體來處理UTF-8編碼的txt檔。 一、將現有txt檔更改為UTF-8編碼的方式: (1)點選另存新檔。 (...)
 
imported>Jiayu.xu
無編輯摘要
 
(未顯示由 6 位使用者於中間所作的 279 次修訂)
行 1: 行 1:
[http://wiki.dila.edu.tw/pages/%E5%90%8D%E5%B1%B1%E5%8F%A4%E5%89%8E-%E3%80%8A%E4%B8%AD%E5%9C%8B%E4%BD%9B%E5%AF%BA%E5%8F%B2%E5%BF%97%E3%80%8B%E6%95%B8%E4%BD%8D%E5%85%B8%E8%97%8F 回《中國佛寺史志》數位典藏工作手冊 Archive of Buddhist Temple Gazetteers(Service manual)]
[http://wiki.dila.edu.tw/pages/%E3%80%8A%E4%B8%AD%E5%9C%8B%E4%BD%9B%E5%AF%BA%E5%8F%B2%E5%BF%97%E3%80%8B%E6%A8%99%E8%A8%98%E4%BD%9C%E6%A5%AD 回《中國佛寺史志》標記作業]]
佛寺志專案 特字處理
=作業環境=
皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。
一、將現有 txt 檔更改為 UTF-8 編碼的方式:
#點選另存新檔。
#在存檔畫面下方「編碼」那一欄選擇 UTF-8。
二、以 NotePad++ 開啟已更改編碼的 txt 檔案。
=特字處理方式及工具=
● 漢典:http://www.zdic.net/  註:可前或後加「?」(半形)進行搜尋。
● CNS:http://www.cns11643.gov.tw/AIDB/welcome.do
● unicode:http://www.unicode.org/charts/unihanrsindex.html
● CBETA:http://dict.cbeta.org/word/index.php  註:通用字打在以字查字,組字式打在以形查字。
● 教育部異體字網站:http://dict.variants.moe.edu.tw/suo.htm
● 草書備考pdf檔:需費苦功
● 線上書法字典:http://9610.com/zidian/index.asp
● 查大小篆為主,應有別的功能,但當時沒用過http://www.chineseetymology.org/CharacterEtymology.aspx?submitButton1=Etymology&characterInput=%E7%B6%A0
● 版本比較:例如g090《幽溪別志》的文章,有許多也出現在《高明寺志》。(訊息可藉由查網路或學校的文淵閣四庫看引文出處得知)
● 字音:適用於韻文,包含駢賦。賦多半只講平仄。必須注意:《平水韻》用於處理唐詩宋詞韻腳、《廣韻》處理中古音音韻問題、《中原音韻》處理元曲韻腳。《廣韻》與《平水韻》雖皆中古音的韻書,然前者分韻過細,詩詞創作一般而言並不使用《廣韻》。
  (a)賦:一般網路常見的那種談及賦體的網站http://hlhk110.blog.163.com/blog/static/17419557420119194427643/
  (b)賦:極推薦的參考網站,教學及討論極詳盡,其訓練有助標逗http://www.zgcfw.com.cn/forum.php?mod=viewthread&tid=69823&extra=page%3D1
  (c)韻書:(c.1)綜合許多韻書的網站(高級檢索功能遇聲韻問題時還蠻好用)http://ytenx.org/
  (c.2) 平水韻http://home.educities.edu.tw/bise/big5/tools/rhyme/rhyme5.htm
  (c.3)舉例:在押一東韻的詩裡,覺得該韻腳字為空(上平聲一東、上聲一董、去聲一送),但又擔心可能為定(去聲二十五徑),至少可刪除為「定」字的可能性。要較大膽地進行猜測也比較有依據。
=特字處理原則=
特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C),
然後再根據文字本身(或搭配前後文)是否易於辨識,而做對應的標記。
==有 unicode 編碼的字==
===易於辨識===
此字易於辨識者(容易讀懂,不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。例如:静(靜),徳(德)。<br>
 範例1:於是皇帝屏左右,静坐良乆[=久],再焚香祈禱。[http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g010&cpage=0149 g010p0149]<br>
 範例2:蓋仁慈清淨,其功徳不殊。[http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g008&cpage=0032 g008p0032]<br>
如果 unicode 有編碼,但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到,而「The Unicode Standard」欄位看不到圖檔,例如 U+2F8BB,超出 Extension-D(U+2B740-U+2B81D) 的範圍,現有軟體支援較少。而且這個字容易辨識可與「捨」通用,只是在「口」之上的一豎稍微凸出來一點,就直接採用通用字「捨」,不必另加標記。(根據 2011.9.27 會議結論)
額外的參考做法:以部首為判斷標準,二字間凡具異體字或通用字關係而部首不同者,無論字體多接近,皆加<choice>。例如:「嘗」(口部)與「甞」(甘部),部首不同,判斷要加記號;「峰」與「峯」部首相同,聲符亦未有差異,僅是改變形符(於此例中兼部首)與聲符相對位置,則考慮不標記。
===不易辨識===
此字不易於辨識者(不易讀懂,罕用字,古字,假借字),但有通用字時,例如:㝎(定),灋(法),銕(鐵)。
標法:
<syntaxhighlight lang="XML">
<syntaxhighlight lang="XML">
  特字處理的作 業環境
<choice>
  皆以NotePad++軟 理UTF-8編碼的txt檔。
  <orig>底本原字(特異字)</orig>
  <reg resp="dila.da">通用字</reg>
</choice>
</syntaxhighlight>
 
範例:
<syntaxhighlight lang="XML">
優曇華發<choice>
<orig>㝎</orig>
<reg resp="dila.da">定</reg></choice>中香  衣裏明珠是宻藏
</syntaxhighlight>
 
  呈現方式:
 網頁呈現:優曇華發㝎[=定]中香  衣裏明珠是宻藏 [http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g008&cpage=0543 g008p0543]
 
  PDF呈現:(內文)優曇華發㝎1中香  衣裏明珠是宻藏
     (註腳)1 底本「㝎」為「定」的異體字
 
 
(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)
 
請注意:同一篇文章(同一最小層級標題之下),有同一字重複出現「不易讀懂,罕用字」情況時,為避免同一字被頻繁標記,惟其第一次出現需加標示。但倘使最小層級標題涵括的內文過短,則易因範圍太小,無法達到的效果;為加大範圍,得斟酌改以較高層級的標題判斷一字是否重覆標記。
 
==無 unicode 編碼的字==
 
===易於辨識===
此字易於辨識者(不會產生懷疑的),且有通用字,則直接採用其通用字,而不做任何標記。<br>
(註:標記亦不算錯,只要文本一致就可以了。2012/6/1 confirm with Marcus)
 
 類型1:多一點、少一撇的字。例:余,吾。
 範例1:余生平事佛 [http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g010&cpage=0003 g010p0003]
 
 類型2:刻版慣例,書寫習慣。例:所,於。
 範例2:與吾靈臺有所發明者而雅尚之 [http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g010&cpage=0003 g010p0003]
 
 類型3:搭配前後文易於辨識者。例:關。
 範例3:舉家百口入於萬死一生之地 [http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g010&cpage=0005 g010p0005]
 
===不易辨識, 有通用字===
此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則直接採用其通用字,並以&lt;reg>標記之。例如:[叠*毛](㲲)。
 
標法:
&lt;reg>通用字&lt;/reg>
 
範例:
 青天飛一錫,白&lt;reg>㲲&lt;/reg>入孤雲。
 
呈現:
 網頁呈現:青天飛一錫,白㲲入孤雲。[http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g008&cpage=0539 g008p0539]
PDF呈現:青天飛一錫,白㲲入孤雲。(㲲字下方有一小黑點,但在wiki無法顯示)
 
===不易辨識, 無通用字===
此字不易於辨識者(不易讀懂,罕用字),且無通用字時,則以&lt;g>標記之,並需建立缺字檔。<br>
 
標法:
&lt;g ref="#btg圖檔檔名"/>
 註:圖檔檔名=志碼3碼+頁碼4碼+流水號2碼
 例:&lt;g ref="#btg010052801"/>
 
範例:
 頓令須彌倒卓,&lt;g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。
 
呈現:
 頓令須彌倒卓,□𣿨全枯。[http://buddhistinformatics.dila.edu.tw/fosizhi/ui.html?book=g086&cpage=0269 g0860269]
 
= 特字處理 新規則=
【目標】製作一便民利眾的實用版本<br/>
【作法】以通用字取代異體字(只在第一次出現時標記)<br/>
 
【理由】<br/>
1. 做不完整,有的有字碼(有字),有的無字碼(無字)。<br/>
  例:𤣥玄、□(少一畫的弦)弦;𠔏共、□(多一畫的洪)洪;<br/>
    □(少一畫的翻)翻;□(多一畫的釋)釋<br/>
2. 費時耗工。例:吕呂;宫宮<br/>
3. 意義不大。例:青靑;淸清<br/>
4. 造成檢索 漏洞。例:眞真;圗圖<br/>
 
【優點】<br/>
1) 減少造字或字圖<br/>
2) 校對省時<br/>
3) 便於閱覽<br/>
4) 便於檢索<br/>
 
法】<br/>
1. 以「志」為單位,第一次出現的異體字(難檢字):
<xml code>
 1)若找得出字,則保留此字,並標出其通用字。
  舉例:畨[=番]
  標記:<choice><orig>畨</orig><reg resp="dila.da">番</reg></choice>
 
 2)若找不出字,則以其通用字替代,並加標記<reg></reg>
   舉例:弦(缺筆)
   標記:<reg>弦</reg>
</xml>
2. 其後,再遇彼異 字(難檢字)時,逕以其通用字取代之,不加任何標記。<br/>
3. 例外:人名,仍是一一保留異體字。例:趙與𥲅[=籌]<br/>
 
=如何統一各志間特字 理方式=
  
  
  一、將現 有txt 更改為UTF-8 編碼的方
由於外包打字公司以及特字處理人員,面對同一字,可能因各種因素導致作業前期和作業後期處理方式不同的情況(例如打字人員因時常遇到特定難字,對該字變得熟悉,於是不標代表需做特字處理記號,而直接輸入該字)。若要使各志以及同一志前後文在特字處理上達到一致性,就必須進行統一各志間特字處理方式的工作,建議全套佛寺志完成後再做這部份作業較有效率。
  (1)點選 另存新 檔。
 
目前處理方式如下:
 
一、 打開NotePad++,並開啟所有已完成特字處理的文件。 p.s.應注意若以NotePad++開啟g032的txt檔時易出問題,則可改開g032的xml檔。
 
二、挑選一個檔案,建議從最前面或最後面的檔案開始,較不易遺漏。
 
三、Ctrl+F 使用「找下一個」搜尋「<choice>」,一次找一筆,原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。
以g001為例,第一筆<choice>應該會找到「<choice><orig>𠇍</orig>......</choice>」。
 
四、每找到一筆<choice>,就使用「搜尋所有開啟文件」尋找<orig> </orig>之間的字。承前例,以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。
 
五、一一判斷上一步驟搜尋所得的每一筆結果,接著以正確的方式處理之。承前例,判斷各佛寺志出現的「𠇍」字是否都妥當處理,若無,則加以處理。
 
六、確定所有開啟的佛寺志都完成上一步驟後,才算完成一個字在各志間的「統一各志間特字處理方式」之作業。接著應回步驟三,找到下一個字,然後繼續針對得到的字做步驟四到五。再承前例,全部佛寺志出現過的「𠇍」字都妥當處理後,繼續藉「找下一個」搜尋「<choice>」,找出接下來應處理的字是「䟦」,然後針對「䟦」字做步驟四到五。
 
七、不斷重覆步驟三至步驟五,直到一個志全部標過<choice>的字都經過步驟三到五的處理,就能換下一個志,但仍應將此志維持開啟,以利處理其他佛寺志特字時,搜到此志應處理而未處理的字。承前例,處理g002時,g001應維持開啟。
 
八、當所有開啟的佛寺志都完成步驟三至六以後,便算是完成「統一各志間特字處理方式」的工作。
 
 
 
 
 
=難檢字庫缺字建檔=
 
1. DILA難檢字庫 http://dev.dila.edu.tw/schar/index.php
 
2. 缺字建檔由DA組果睿及春玉負責,各專案可於google填寫缺字新增或報修表。<br>
https://docs.google.com/a/dila.edu.tw/spreadsheet/ccc?key=0AvNiyYs1TA4idEtlbXEyYTV3OXF4TmJ6OVlJbWdkMHc&usp=drive_web#gid=3
 
3.新增或報修圖檔請放在雲端硬碟的 temp<br>
https://drive.google.com/a/dila.edu.tw/?tab=mo#folders/0B_NiyYs1TA4iNTVtQWVlcTR2ZWM
圖檔檔名:以部件命名,例:土希.gif<br>
 
4.缺字圖.gif上傳位置
Y:\Projects\2008缺字庫圖檔
 
=難檢字庫缺字圖檔製作=
 
==原則==
裁切原文本掃瞄檔(.tif)(作法如下)
 
==製圖步驟==
利用Gimp軟體處理
#軟體存放路徑:Z:\數位典藏組\Software\Gimp
#開啟Gimp功能表「檔案」.
#點選「開啟」.
#選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑P:\2008佛寺志\02主資料庫\01底本掃描檔\tif\)
#放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
#點選「工具」選擇「變換工具」中的「剪裁刀」cut(形狀類似一支筆).
# 「剪裁刀」移至缺字,劃取缺字,然後在選取的字框內點選滑鼠左鍵2次,即出 裁切之缺字圖檔.
#設定圖片尺寸(\image\scale image):點選「影像」或「圖片」,選擇「縮放影像」「縮放圖片」,設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定),水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
#點選「檔案」選擇「另存新檔save as」並以部件命檔名ex:土希.gif再點選下方「Gif影像檔」按2次「儲存」即完成(檔案命名:是以當字的所有部件命名,去掉中括號和運算符號,例如[土*希],檔名:土希)
#在google文件「缺字新增或報修表」填寫缺字建 資料,並將缺字圖上傳至google文件「temp」,以申請Z碼。
#造字組將固定於每週五完成當週的造字,大家自行上google文件中去取得Z碼,標進XML文件中。
 
=缺字呈現=
缺字在佛寺志網頁的呈現順序
#組字式
#字圖
 
=unicode 編碼字=
 
Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html
該網站字無法顯現:點選Code Charts (PDF Version),輸入字碼,download pdf即可知道該字是什麼字。
 
==CJK漢字編碼範圍==
*U+20000- U+2A6DF(中日韓統一表意文字擴展B區)
http://zh.wikipedia.org/wiki/Unicode-%E4%B8%AD%E6%97%A5%E9%9F%93%E8%B6%8A%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97%E6%93%B4%E5%B1%95B%E5%8D%80
 
*U+2A700-U+2B73F(中日韓統一表意文字擴展C區)
*U+2B740- U+2B81F(中日韓統一表意文字擴展D區)
*Decimal:131072以上
 
(以上皆屬 Extension 的擴展字,可直接貼在文本)
 
==編輯器==
若u==編輯器== nicode 編碼 字在Oxygen編輯器下無法直接貼上時,則先以Notepad++開啟此檔,並於內貼上此字、存檔,然後再轉接以Oxygen繼續作業。
 
此時經過Notepad++轉化的此缺字,將在 Oxygen 以 □ 的形式呈顯,但此字在網頁上應已可以如實呈現。
 
如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型
*Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
*Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf
 
==快速尋找unicode 的方 法==
國際電腦漢字及異體字知識庫: http://chardb.iis.sinica.edu.tw/
得知unicode 的碼及異體字
 
至unihan網站選unihan search pages 輸入 unicode碼 ,可得到異體字字形
http://www.unicode.org/charts/unihan.html
例如:秋的異體字2584C
 
秋的unicode碼為79CB,於word按ALT+X 可得到該字碼,
再到此網站找到該字http://www.unicode.org/charts/unihan.html
 
=有助於增加特字處理效率的工具與方法=
 
1.輸入法整合器
 
(1) 啟用:使用新注音或新倉頡輸入法時,靠語言列右邊的「工具選單」裡,第一個選項即輸入法整合器。
 
(2)使用方式:
 
a.滑鼠 點選 已開啟之文字 中,欲輸入文字之處
 
b.在輸入法整合器左邊大片空白的面板上,以滑鼠劃出字形。
 
c.看輸入法整合器右邊的選項裡是否出現欲輸入的字形。但需注意,有時還沒劃完就會出現想要的字。
 
(3)適用時機:
 
a.造缺字時:直接寫出如亻、阝等筆畫少的偏旁,能避免為找一個字的偏旁而將時間白白耗在等待unihan頁面好幾次開啟。
 
b.找查難以判斷筆劃、讀音、部首的字或同分類的字庫太龐大時:例如雘(實為隹部)、匼(據教育部異體字典,讀音為ㄎㄜˋ、ㄜˋ或ㄢˇ)、蕟(艸部unihan字庫太龐大)、垂(各字典筆畫算法不同)等字。滑鼠移至輸入法整合器提供之字形選項上,會出現參考讀音(不一定是正確的),也是值得運用的功能。
 
c.其它:例如辦公的筆電接大螢幕進行報告,倘無大量書寫之必要時可臨時充當白板。
 
(4)缺點:
 
a.同樣的字,筆順不同時,會影響程式判斷,使右側選項出現的字跟著不同。
 
b.此外,欲輸入之字有時會在未劃完完整字形已出現,劃完反而因程式判斷成別的字形而找不到。
 
c.字庫頗小,能找到的字有限。
 
=SVG造字=
 
*TTF:有圖形,有字碼


  (2)在存 畫面下方「編 」那一欄選擇UTF-8。
*SVG:無大小尺寸,向量圖 ,有圖形,無字
 
 二、以NotePad++開啟已更改編 的txt檔案。
*檔名命名規則:依ID順序編4 ,例1174.svg
 
存放路徑:Y:\Projects\fosizhi\master-data\images\Quezi_svg


● 特字處理:
  特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C),
  然後再根據文字本身(或搭配前後文)是否易於辨識而做應對的標記。


 一、有unicode編碼字
==參閱==
  (1)此字易於辨識者(不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。
http://zh.wikipedia.org/wiki/Inkscape
   例如:静,徳,録,䟽


  (2)此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記<choice>。
== 安裝==
   例如:㝎(定),灋(法),銕(鐵)。(見圖二)
http://inkscape.org/
   標記:<choice><orig>文本原字(unicode)</orig><reg resp="ddbc.da">通用字</reg></choice>
   範例:優曇華發<choice><orig>㝎</orig><reg resp="ddbc.da">定</reg></choice>中香
    (通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)
   
  (3)若文字本身有歧義,易使讀者對句意產生誤會者(即文字本身雖為一般字,但在此另當別解時),則標記<choice>。
   例如:縣(「懸」的通假字),餉(「晌」的通假字)
   標法:<choice><sic>文本原字</sic><reg resp="ddbc.da">消歧字</reg></choice>
   範例:萬靈八部<choice><sic>縣</sic><reg resp="ddbc.da">懸</reg></choice>望已久
 二、無unicode編碼字
  (1)此字易於辨識者(不會產生懷疑的),但有通用字時,則選用其通用字,而不做任何標記。
   (a) 少一撇、多一點的字:不標記(選擇用通用字)。例:播,余。(見圖一)
   (b) 刻版慣例,書寫習慣:不標記(選擇用通用字)。例:於,所。(見圖一)
   (c) 搭配前後文易於辨識者:不標記(選擇用通用字)。例:關。(見圖一)
  
  (2)此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則標記<reg>。
   例如:[叠*毛]=㲲。(見圖三)
   標法:<reg>通用字</reg>
   範例:青天飛一錫,白<reg>㲲</reg>入孤雲。
  (3)此字不易於辨識者(不易讀懂,罕用字),無通用字時,則標記<g>,並需建立缺字檔。(缺字建檔方法見【附一】)
   例如:[悖*力]。(見圖四)
   標法:<g ref="#字圖檔名"/>
   範例:頓令須彌倒卓,<g ref="#btg086026901"/><!--[悖*力]-->𣿨全枯。


  處理
==inkscape造字操作法==
  文本中 字, 包含看似錯誤但仍 實轉錄 的字, 則加以修訂
  前題 : 為出版紙本書籍,故須要做.SVG圖檔。如不是要出版紙本書籍,只要於內文剪圖即可(.gif)。
  訛 修訂:<choice><sic>文本的 </sic><corr resp="ddbc.da">修訂後 的字</corr></choice>
  一、造 步驟說明
  範例 :一切殿宇皆頹<choice><sic>圯</sic><corr resp="ddbc.da">圮</corr></choice>剝落
  1.準備需要造字的字形資料。
  
  2.於unicode網站:http://www.unicode.org/charts/unihanrsindex.html,
  ● 漏 處理
   或是於輸入法整合器-手寫辨識,寫入所要造字 的字 形。選擇適合用於inkscape組裝材料字。
  本中的缺漏 字, 或模糊不清 的字, 或難 讀懂的 ,則標「省略」標記(gap)
  3.使用inkscape軟體 所找到之字形圖檔,用適合組裝 的字, 於字框中拆解及組裝成新的字
  1) 缺漏
  4.於openoffice插入新造 ,檢視其是否有變形狀況。
   標法 <gap extent="1" unit="chars" reason="lost"/>
  5.將新造 .svg檔案儲存於 Y:\Projects\2008fosizhi_全掃描與13志出版\02主資料庫\05底本中 圖檔\缺 圖檔\Quezi-svg資料夾內。
  2) 模糊
二、造字步驟 範例
   標法:<gap extent="2" unit="chars" reason="unclear"/>
  1.於DILA難檢字庫 http://dev.dila.edu.tw/schar/index.php ,於ID碼欄輸入0029,按Search鍵,出現組字式為[火*崩]的圖檔。
  3) 難以讀懂 的字 (例如草書
  2.點選電腦螢幕右下角,工具選單\輸入法整合器。於空白處寫入[火崩],並從右方識別結果欄位選擇[燥][蹦]二字為組裝材料字。
   標法:<gap extent="3" unit="chars" reason="illegible"/>
  3.開啟inkscape。
   4) 缺漏
  (1). 新增造字框。於上方選單列點選,檔案\新增\fontforge_glyph,新增一造字框視窗,並將先前的視窗關閉。
   標法:<gap extent="unknown" unit="chars" reason="lost"/>
  (2). 輸入組裝材料
   (註)extent:此指
    a.點選左方工具列,建立和編輯 文字 物件(圖示:A)。
  
    b.於左上方選擇字族欄位下拉選擇PMingLiU字體。
● 底本本身 刪塗、訂
    c.輸入組裝材料字[蹦]於造字框內。
   <choice><del>刪塗字</del><add>後人訂正字</add></choice>
    d.點選左方工具列 選取和變形物件(圖示:黑箭頭)。
  例:<choice><del>梦</del><add>愛</add></choice>(g014p0156)
    e.選取造字框內 [蹦] 字, 拖拉左上角箭頭使之與造字框左上角相合。右上、右下及左上角 同樣方式處理,至材料字完全符合於造 框大小
  (3). 拆解材料字並保留提供造字的部分。
    a.於上方選單列點選,路徑\物件轉成路徑\,將[蹦] 轉成路徑。
    b.點選左方工具列,用節點編輯路徑(圖示 節點)。
    c.選擇足的部分之所有節點,將其刪除,保留崩的部分。
    d.圖層(Layer)\Layers 開啟圖層管理表單。將崩所在的圖層鎖住,防止意外變更或移動。
    e.於圖層管理表單點選,建立新圖層(圖示:+) ,開啟一新圖層。並將崩所在的圖層調整為 顯示(圖示:閉眼),以免干擾另一組裝字 作業。
    f.按照(2)至(3)b 步驟,將組裝材料 [燥]輸入及拆解於新圖層中,保留火的部分。
    g.將崩所在的圖層調整為顯示(圖示:睜眼),檢視所造之新 是否合宜,並做最後修正。
    h.選擇與DILA難檢字庫中相同的ID碼儲存。在此範例中存為0029.svg。
   4.開啟openoffice(至少OpenOffice.org 3.4.1版或以上)
  (1). 插入新造字。於上方選單列點選,開啟新檔\文字文件,開啟 件。在於上方選單列點選,插入\圖片\取自檔案,選擇檔案0029.svg。
  (2). 檢視新 是否有變形。如有變形狀況,於illustrator打開0029.svg檔案,再存為0029.svg,即可改善。
  (3). 重覆4.(1) 步驟,檢視新字是否已 常顯示。
   5.將0029.svg檔案存於 Y:\Projects\fosizhi\master-data\images\Quezi_svg 資料夾內。
* 組裝材。


【附一】缺 建檔
==illustrator造 操作法==
  佛寺志缺字庫網頁http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq
  1. 於inkscape 檔案\新增\fontforge_glyph 存成0.svg Y:\Projects\fosizhi\master-data\images\Quezi-svg
  建置步驟
2. 開啟0.svg,按ctrl+-縮小範圍框
  1登入缺字庫網頁,輸入缺 字的 位置「第幾志、第幾頁、當頁第幾個字」,
  3. 按 T 打
   按「新增一筆」,產生一個缺字id:<glyph xml:id="">。
  4按 黑色箭頭V選取工具 將 拉滿框
   缺 編碼原則:btg(佛寺志)XXX(志碼3碼)XXXX(頁碼4碼)XX(序號2碼)
5. 物件轉路徑,目 為打散部件,才可更改部件,作法: \建立外框
   例如:阿育王山志第298頁第4個缺字[口*斗]的id是:btg010029804
  6. 按 白色箭頭直接 取工具A 取要處理的部份,del= 刪除
  2. <glyphName>: 擇是否為unicode編碼字,若為unicode編碼字,則採用Decimal碼。
  7. ctrl+y  黑色 份會不見
  3. <charProp>:若知其發音,則點 「再增加一個charProp」。
  8. 預設 型:新細明 ,如遇字型出不來時,則 字體 設定ext_b
   (1) <localName>:若知其發音,則選pronunciation。
  9圖層F7 
   (2) <value>:欄內填入此字之漢語拼音。例:媽ma1,嗎ma5,恰qia4
     (第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5)
  4. <mapping type>:有common(通用字)、cbeta(CBETA組 式)、cbetaNo(CB碼)、
   unicode(unicode Decimal碼)、MoEvariant(教育 異體字編碼)五種型態,
   依其資料一一增加mapping填入。
  5. <note>:若對此 有特殊之考查,可add a note,描述考據的結果。
   例:韻 [音*貟],異 體字 例,部件「口、厶」俗寫多彼此相訛,凡此皆可視為異
  6填寫上述資料後,按「更新資料庫」,即完成一個缺字的建置。
  
  
  【附二】缺 圖檔 製作
==參考範例==
 1.原則:裁切文本掃瞄檔(.tif)作為 圖。(作法如下)
  P:\2015華嚴經疏鈔\03工作手冊\ 檔SVG 製作 與缺 處理方式


 2.裁切字圖步驟(利用Gimp軟體處理)
  (1)開啟Gimp功能表「檔案」.
  (2)點選「開啟」.
  (3)選擇缺字當頁的掃瞄圖.ex:1B001P077
   (檔案路徑Y:\Projects\fosizhi\master-data\images\tif\1Book001\1B001P077)
  (4)放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
  (5)點選「工具」選擇「變換工具」中的「剪裁」圖形cut(形狀類似一支筆).
  (6)將「剪裁」圖形移至缺字字體,確認位置後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
  (7)設定圖片尺寸:點選「影像」或「圖片」選擇「縮放影像」「縮放圖片」設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定)
 水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
  (8)點選「檔案」選擇「另存新檔」並提供檔名ex:btg077009601.gif再點選下方「Gif影像檔」按2次「儲存」即完成
  (9)缺字圖檔存放位置Y:\Projects\fosizhi\images\figure\gword\
  (10)缺字圖檔請通知妙妙上傳到dev.


   ●●缺字給 CBETA Maha製作流程
四、字型為ExtB時:
(1)請Maha幫忙製作缺字 無CB碼、無組 式 者
   方法一、
  (2)須製作(1)的二 資訊者,於缺 介面note註明maha
  1. 於unicode網站找到該 ,於inkscape\選A\複製貼上
(3)小花再以note註明的maha 彙整送給maha
  2. 選該 , 型選PmingLia-ExtB
(4)缺字資訊的note寫法可參考缺 介面的(8)<add a note>: 為註記資訊用
   方法二、
  1. 無法貼上inkscape造字框中時,先於Word中輸入Unicode按alt+X,顯現其ExtB字。
   ●●缺字圖上傳
  2. 開啟inkscape,並新增造字框。
  (1) FTP informations:
  3.於 方選單列點選,檔案\文字\字,開啟 編輯表單並於最下方空白欄位貼入顯 於Word中的ExtB字,選擇字族欄位中的PMingLiU-ExtB,接著按右下角添加選項。
    session:fosizhi
  4.ExtB 裝材料 顯現於造 框,其餘步驟皆同。
    host name:10.10.0.49
    user name:april  
    password:m4tjp
  (2)上傳位置 
    從 Y:\Projects\fosizhi\images\gword\
    複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords
  (3)從dev 到informatics  傳時間為一週
  ●●缺 在佛寺志網頁的呈 順序?
   1.組字
   2.


  【附三】unicode 字 
* 造字要求:保持其組裝材料字的 輯造型,只做拆解及組裝的的動作,以維持新造 的重心與平衡
Unihan網站 http://www.unicode.org/charts/unihanrsindex.html


1.utf字符碼CJK漢字的範圍
=參考資源=
  * utf-32:U+20000- U+2A6DF(中日韓統一表意文字擴展B區)
*台北版電子佛典集成缺字作法參考 http://taipei.dila.edu.tw/jiaxing_rare.php
  * utf-32:U+2A700-U+2B73F(中日韓統一表意文字擴展C區)
* 別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml
  * utf-32:U+2B740- U+2B81F(中日韓統一表意文字擴展D區)
  * Decimal:131072以上
  (以上皆屬Extension的擴展字,可直接貼在文本)
2.若unicode編碼字在Oxygen編輯器下無法直接貼上時,則先以Notepad++開啟此檔,
  並於內貼上此字、存檔,然後再轉接以Oxygen繼續作業。
  此時經過Notepad++轉化的此缺字,將在Oxygen以□的形式呈顯,
  但此字在網頁上應已可以如實呈現。
  如果此字在介面仍無法顯現,請檢查是否已安裝Undicode擴充字型
  Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
  Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf
 
 
</syntaxhighlight>
  * 台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
  * 別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

於 2021年4月27日 (二) 09:59 的最新修訂

回《中國佛寺史志》數位典藏工作手冊 Archive of Buddhist Temple Gazetteers(Service manual)

回《中國佛寺史志》標記作業]

佛寺志專案 特字處理

作業環境

皆以 NotePad++ 軟體來處理 UTF-8 編碼的txt檔。

一、將現有 txt 檔更改為 UTF-8 編碼的方式:

  1. 點選另存新檔。
  2. 在存檔畫面下方「編碼」那一欄選擇 UTF-8。

二、以 NotePad++ 開啟已更改編碼的 txt 檔案。

特字處理方式及工具

● 漢典:http://www.zdic.net/ 註:可前或後加「?」(半形)進行搜尋。

● CNS:http://www.cns11643.gov.tw/AIDB/welcome.do

● unicode:http://www.unicode.org/charts/unihanrsindex.html

● CBETA:http://dict.cbeta.org/word/index.php 註:通用字打在以字查字,組字式打在以形查字。

● 教育部異體字網站:http://dict.variants.moe.edu.tw/suo.htm

● 草書備考pdf檔:需費苦功

● 線上書法字典:http://9610.com/zidian/index.asp

● 查大小篆為主,應有別的功能,但當時沒用過http://www.chineseetymology.org/CharacterEtymology.aspx?submitButton1=Etymology&characterInput=%E7%B6%A0

● 版本比較:例如g090《幽溪別志》的文章,有許多也出現在《高明寺志》。(訊息可藉由查網路或學校的文淵閣四庫看引文出處得知)

● 字音:適用於韻文,包含駢賦。賦多半只講平仄。必須注意:《平水韻》用於處理唐詩宋詞韻腳、《廣韻》處理中古音音韻問題、《中原音韻》處理元曲韻腳。《廣韻》與《平水韻》雖皆中古音的韻書,然前者分韻過細,詩詞創作一般而言並不使用《廣韻》。

 (a)賦:一般網路常見的那種談及賦體的網站http://hlhk110.blog.163.com/blog/static/17419557420119194427643/
 (b)賦:極推薦的參考網站,教學及討論極詳盡,其訓練有助標逗http://www.zgcfw.com.cn/forum.php?mod=viewthread&tid=69823&extra=page%3D1
 (c)韻書:(c.1)綜合許多韻書的網站(高級檢索功能遇聲韻問題時還蠻好用)http://ytenx.org/
 (c.2) 平水韻http://home.educities.edu.tw/bise/big5/tools/rhyme/rhyme5.htm
 (c.3)舉例:在押一東韻的詩裡,覺得該韻腳字為空(上平聲一東、上聲一董、去聲一送),但又擔心可能為定(去聲二十五徑),至少可刪除為「定」字的可能性。要較大膽地進行猜測也比較有依據。

特字處理原則

特殊字處理的原則,首先是尋查有無unicode編碼字(包含Extention C), 然後再根據文字本身(或搭配前後文)是否易於辨識,而做對應的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者(容易讀懂,不會產生懷疑的),則直接採用unicode編碼字,不做任何標記。例如:静(靜),徳(德)。

範例1:於是皇帝屏左右,静坐良乆[=久],再焚香祈禱。g010p0149
範例2:蓋仁慈清淨,其功徳不殊。g008p0032

如果 unicode 有編碼,但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到,而「The Unicode Standard」欄位看不到圖檔,例如 U+2F8BB,超出 Extension-D(U+2B740-U+2B81D) 的範圍,現有軟體支援較少。而且這個字容易辨識可與「捨」通用,只是在「口」之上的一豎稍微凸出來一點,就直接採用通用字「捨」,不必另加標記。(根據 2011.9.27 會議結論)

額外的參考做法:以部首為判斷標準,二字間凡具異體字或通用字關係而部首不同者,無論字體多接近,皆加<choice>。例如:「嘗」(口部)與「甞」(甘部),部首不同,判斷要加記號;「峰」與「峯」部首相同,聲符亦未有差異,僅是改變形符(於此例中兼部首)與聲符相對位置,則考慮不標記。

不易辨識

此字不易於辨識者(不易讀懂,罕用字,古字,假借字),但有通用字時,例如:㝎(定),灋(法),銕(鐵)。

標法:

<choice>
  <orig>底本原字(特異字)</orig>
  <reg resp="dila.da">通用字</reg>
</choice>

範例:

優曇華發<choice>
<orig></orig>
<reg resp="dila.da"></reg></choice>中香  衣裏明珠是宻藏

呈現方式:

網頁呈現:優曇華發㝎[=定]中香  衣裏明珠是宻藏 g008p0543
PDF呈現:(內文)優曇華發㝎1中香  衣裏明珠是宻藏
        (註腳)1 底本「㝎」為「定」的異體字


(通用字的查詢,可借助字書工具,如CBETA漢字資料庫,教育部異體字網站等)

請注意:同一篇文章(同一最小層級標題之下),有同一字重複出現「不易讀懂,罕用字」情況時,為避免同一字被頻繁標記,惟其第一次出現需加標示。但倘使最小層級標題涵括的內文過短,則易因範圍太小,無法達到的效果;為加大範圍,得斟酌改以較高層級的標題判斷一字是否重覆標記。

無 unicode 編碼的字

易於辨識

此字易於辨識者(不會產生懷疑的),且有通用字,則直接採用其通用字,而不做任何標記。
(註:標記亦不算錯,只要文本一致就可以了。2012/6/1 confirm with Marcus)

類型1:多一點、少一撇的字。例:余,吾。
範例1:余生平事佛 g010p0003
類型2:刻版慣例,書寫習慣。例:所,於。
範例2:與吾靈臺有所發明者而雅尚之 g010p0003
類型3:搭配前後文易於辨識者。例:關。
範例3:舉家百口入於萬死一生之地 g010p0005

不易辨識, 有通用字

此字不易於辨識者(不易讀懂,罕用字),但有通用字時,則直接採用其通用字,並以<reg>標記之。例如:[叠*毛](㲲)。

標法:

<reg>通用字</reg>

範例:

青天飛一錫,白<reg>㲲</reg>入孤雲。

呈現:

網頁呈現:青天飛一錫,白㲲入孤雲。g008p0539
PDF呈現:青天飛一錫,白㲲入孤雲。(㲲字下方有一小黑點,但在wiki無法顯示)

不易辨識, 無通用字

此字不易於辨識者(不易讀懂,罕用字),且無通用字時,則以<g>標記之,並需建立缺字檔。

標法:

<g ref="#btg圖檔檔名"/>
註:圖檔檔名=志碼3碼+頁碼4碼+流水號2碼
例:<g ref="#btg010052801"/>

範例:

頓令須彌倒卓,<g ref="#btg086026901"/>𣿨全枯。

呈現:

頓令須彌倒卓,□𣿨全枯。g0860269

特字處理新規則

【目標】製作一便民利眾的實用版本
【作法】以通用字取代異體字(只在第一次出現時標記)

【理由】
1. 做不完整,有的有字碼(有字),有的無字碼(無字)。
  例:𤣥玄、□(少一畫的弦)弦;𠔏共、□(多一畫的洪)洪;
    □(少一畫的翻)翻;□(多一畫的釋)釋
2. 費時耗工。例:吕呂;宫宮
3. 意義不大。例:青靑;淸清
4. 造成檢索的漏洞。例:眞真;圗圖

【優點】
1) 減少造字或字圖
2) 校對省時
3) 便於閱覽
4) 便於檢索

【作法】
1. 以「志」為單位,第一次出現的異體字(難檢字): <xml code>  1)若找得出字,則保留此字,並標出其通用字。   舉例:畨[=番]   標記:<choice><orig>畨</orig><reg resp="dila.da">番</reg></choice>

 2)若找不出字,則以其通用字替代,並加標記<reg></reg>    舉例:弦(缺筆)    標記:<reg>弦</reg> </xml> 2. 其後,再遇彼異體字(難檢字)時,逕以其通用字取代之,不加任何標記。
3. 例外:人名,仍是一一保留異體字。例:趙與𥲅[=籌]

如何統一各志間特字處理方式

由於外包打字公司以及特字處理人員,面對同一字,可能因各種因素導致作業前期和作業後期處理方式不同的情況(例如打字人員因時常遇到特定難字,對該字變得熟悉,於是不標代表需做特字處理記號,而直接輸入該字)。若要使各志以及同一志前後文在特字處理上達到一致性,就必須進行統一各志間特字處理方式的工作,建議全套佛寺志完成後再做這部份作業較有效率。

目前處理方式如下:

一、打開NotePad++,並開啟所有已完成特字處理的文件。 p.s.應注意若以NotePad++開啟g032的txt檔時易出問題,則可改開g032的xml檔。

二、挑選一個檔案,建議從最前面或最後面的檔案開始,較不易遺漏。

三、Ctrl+F 使用「找下一個」搜尋「<choice>」,一次找一筆,原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。 以g001為例,第一筆<choice>應該會找到「<choice><orig>𠇍</orig>......</choice>」。

四、每找到一筆<choice>,就使用「搜尋所有開啟文件」尋找<orig> </orig>之間的字。承前例,以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。

五、一一判斷上一步驟搜尋所得的每一筆結果,接著以正確的方式處理之。承前例,判斷各佛寺志出現的「𠇍」字是否都妥當處理,若無,則加以處理。

六、確定所有開啟的佛寺志都完成上一步驟後,才算完成一個字在各志間的「統一各志間特字處理方式」之作業。接著應回步驟三,找到下一個字,然後繼續針對得到的字做步驟四到五。再承前例,全部佛寺志出現過的「𠇍」字都妥當處理後,繼續藉「找下一個」搜尋「<choice>」,找出接下來應處理的字是「䟦」,然後針對「䟦」字做步驟四到五。

七、不斷重覆步驟三至步驟五,直到一個志全部標過<choice>的字都經過步驟三到五的處理,就能換下一個志,但仍應將此志維持開啟,以利處理其他佛寺志特字時,搜到此志應處理而未處理的字。承前例,處理g002時,g001應維持開啟。

八、當所有開啟的佛寺志都完成步驟三至六以後,便算是完成「統一各志間特字處理方式」的工作。



難檢字庫缺字建檔

1. DILA難檢字庫 http://dev.dila.edu.tw/schar/index.php

2. 缺字建檔由DA組果睿及春玉負責,各專案可於google填寫缺字新增或報修表。
https://docs.google.com/a/dila.edu.tw/spreadsheet/ccc?key=0AvNiyYs1TA4idEtlbXEyYTV3OXF4TmJ6OVlJbWdkMHc&usp=drive_web#gid=3

3.新增或報修圖檔請放在雲端硬碟的 temp
https://drive.google.com/a/dila.edu.tw/?tab=mo#folders/0B_NiyYs1TA4iNTVtQWVlcTR2ZWM 圖檔檔名:以部件命名,例:土希.gif

4.缺字圖.gif上傳位置 Y:\Projects\2008缺字庫圖檔

難檢字庫缺字圖檔製作

原則

裁切原文本掃瞄檔(.tif)(作法如下)

製圖步驟

利用Gimp軟體處理

  1. 軟體存放路徑:Z:\數位典藏組\Software\Gimp
  2. 開啟Gimp功能表「檔案」.
  3. 點選「開啟」.
  4. 選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑P:\2008佛寺志\02主資料庫\01底本掃描檔\tif\)
  5. 放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
  6. 點選「工具」選擇「變換工具」中的「剪裁刀」cut(形狀類似一支筆).
  7. 將「剪裁刀」移至缺字,劃取缺字,然後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
  8. 設定圖片尺寸(\image\scale image):點選「影像」或「圖片」,選擇「縮放影像」「縮放圖片」,設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定),水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
  9. 點選「檔案」選擇「另存新檔save as」並以部件命檔名ex:土希.gif再點選下方「Gif影像檔」按2次「儲存」即完成(檔案命名:是以當字的所有部件命名,去掉中括號和運算符號,例如[土*希],檔名:土希)
  10. 在google文件「缺字新增或報修表」填寫缺字建檔資料,並將缺字圖上傳至google文件「temp」,以申請Z碼。
  11. 造字組將固定於每週五完成當週的造字,大家自行上google文件中去取得Z碼,標進XML文件中。

缺字呈現

缺字在佛寺志網頁的呈現順序

  1. 組字式
  2. 字圖

unicode 編碼字

Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html 該網站字無法顯現:點選Code Charts (PDF Version),輸入字碼,download pdf即可知道該字是什麼字。

CJK漢字編碼範圍

  • U+20000- U+2A6DF(中日韓統一表意文字擴展B區)

http://zh.wikipedia.org/wiki/Unicode-%E4%B8%AD%E6%97%A5%E9%9F%93%E8%B6%8A%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97%E6%93%B4%E5%B1%95B%E5%8D%80

  • U+2A700-U+2B73F(中日韓統一表意文字擴展C區)
  • U+2B740- U+2B81F(中日韓統一表意文字擴展D區)
  • Decimal:131072以上

(以上皆屬 Extension 的擴展字,可直接貼在文本)

編輯器

若u==編輯器== nicode編碼字在Oxygen編輯器下無法直接貼上時,則先以Notepad++開啟此檔,並於內貼上此字、存檔,然後再轉接以Oxygen繼續作業。

此時經過Notepad++轉化的此缺字,將在 Oxygen 以 □ 的形式呈顯,但此字在網頁上應已可以如實呈現。

如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型

  • Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
  • Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf

快速尋找unicode的方法

國際電腦漢字及異體字知識庫: http://chardb.iis.sinica.edu.tw/ 得知unicode 的碼及異體字

至unihan網站選unihan search pages 輸入 unicode碼 ,可得到異體字字形 http://www.unicode.org/charts/unihan.html 例如:秋的異體字2584C

註:秋的unicode碼為79CB,於word按ALT+X 可得到該字碼, 再到此網站找到該字http://www.unicode.org/charts/unihan.html

有助於增加特字處理效率的工具與方法

1.輸入法整合器

(1)啟用:使用新注音或新倉頡輸入法時,靠語言列右邊的「工具選單」裡,第一個選項即輸入法整合器。

(2)使用方式:

a.滑鼠點選已開啟之文字檔中,欲輸入文字之處。

b.在輸入法整合器左邊大片空白的面板上,以滑鼠劃出字形。

c.看輸入法整合器右邊的選項裡是否出現欲輸入的字形。但需注意,有時還沒劃完就會出現想要的字。

(3)適用時機:

a.造缺字時:直接寫出如亻、阝等筆畫少的偏旁,能避免為找一個字的偏旁而將時間白白耗在等待unihan頁面好幾次開啟。

b.找查難以判斷筆劃、讀音、部首的字或同分類的字庫太龐大時:例如雘(實為隹部)、匼(據教育部異體字典,讀音為ㄎㄜˋ、ㄜˋ或ㄢˇ)、蕟(艸部unihan字庫太龐大)、垂(各字典筆畫算法不同)等字。滑鼠移至輸入法整合器提供之字形選項上,會出現參考讀音(不一定是正確的),也是值得運用的功能。

c.其它:例如辦公的筆電接大螢幕進行報告,倘無大量書寫之必要時可臨時充當白板。

(4)缺點:

a.同樣的字,筆順不同時,會影響程式判斷,使右側選項出現的字跟著不同。

b.此外,欲輸入之字有時會在未劃完完整字形已出現,劃完反而因程式判斷成別的字形而找不到。

c.字庫頗小,能找到的字有限。

SVG造字

  • TTF:有圖形,有字碼
  • SVG:無大小尺寸,向量圖檔,有圖形,無字碼
  • 檔名命名規則:依ID順序編4碼,例1174.svg

存放路徑:Y:\Projects\fosizhi\master-data\images\Quezi_svg


參閱

http://zh.wikipedia.org/wiki/Inkscape

安裝

http://inkscape.org/

inkscape造字操作法

前題 : 為出版紙本書籍,故須要做.SVG圖檔。如不是要出版紙本書籍,只要於內文剪圖即可(.gif)。 一、造字步驟說明

 1.準備需要造字的字形資料。
 2.於unicode網站:http://www.unicode.org/charts/unihanrsindex.html,
   或是於輸入法整合器-手寫辨識,寫入所要造字的字形。選擇適合用於inkscape組裝材料字。
 3.使用inkscape軟體,依照所找到之字形圖檔,用適合組裝的字,於字框中拆解及組裝成新的字。
 4.於openoffice插入新造字,檢視其是否有變形狀況。
 5.將新造字之.svg檔案儲存於 Y:\Projects\2008fosizhi_全掃描與13志出版\02主資料庫\05底本中的圖檔\缺字圖檔\Quezi-svg資料夾內。

二、造字步驟範例

 1.於DILA難檢字庫 http://dev.dila.edu.tw/schar/index.php ,於ID碼欄輸入0029,按Search鍵,出現組字式為[火*崩]的圖檔。
 2.點選電腦螢幕右下角,工具選單\輸入法整合器。於空白處寫入[火崩],並從右方識別結果欄位選擇[燥][蹦]二字為組裝材料字。
 3.開啟inkscape。
  (1). 新增造字框。於上方選單列點選,檔案\新增\fontforge_glyph,新增一造字框視窗,並將先前的視窗關閉。
  (2). 輸入組裝材料字。
      a.點選左方工具列,建立和編輯文字物件(圖示:A)。
      b.於左上方選擇字族欄位下拉選擇PMingLiU字體。
      c.輸入組裝材料字[蹦]於造字框內。 
      d.點選左方工具列,選取和變形物件(圖示:黑箭頭)。
      e.選取造字框內的[蹦]字,拖拉左上角箭頭使之與造字框左上角相合。右上、右下及左上角以同樣方式處理,至材料字完全符合於造字框大小。
  (3). 拆解材料字並保留提供造字的部分。
      a.於上方選單列點選,路徑\物件轉成路徑\,將[蹦]字轉成路徑。
      b.點選左方工具列,用節點編輯路徑(圖示:節點)。
      c.選擇足的部分之所有節點,將其刪除,保留崩的部分。
      d.圖層(Layer)\Layers 開啟圖層管理表單。將崩所在的圖層鎖住,防止意外變更或移動。
      e.於圖層管理表單點選,建立新圖層(圖示:+),開啟一新圖層。並將崩所在的圖層調整為不顯示(圖示:閉眼),以免干擾另一組裝字的作業。
      f.按照(2)至(3)b的步驟,將組裝材料字[燥]輸入及拆解於新圖層中,保留火的部分。
      g.將崩所在的圖層調整為顯示(圖示:睜眼),檢視所造之新字是否合宜,並做最後修正。
      h.選擇與DILA難檢字庫中相同的ID碼儲存。在此範例中存為0029.svg。
 4.開啟openoffice(至少OpenOffice.org 3.4.1版或以上)。
  (1). 插入新造字。於上方選單列點選,開啟新檔\文字文件,開啟一新文件。在於上方選單列點選,插入\圖片\取自檔案,選擇檔案0029.svg。
  (2). 檢視新字是否有變形。如有變形狀況,於illustrator打開0029.svg檔案,再存為0029.svg,即可改善。
  (3). 重覆4.(1)的步驟,檢視新字是否已正常顯示。
 5.將0029.svg檔案存於 Y:\Projects\fosizhi\master-data\images\Quezi_svg 資料夾內。
  • 組裝材。

illustrator造字操作法

1. 於inkscape 檔案\新增\fontforge_glyph 存成0.svg Y:\Projects\fosizhi\master-data\images\Quezi-svg
2. 開啟0.svg,按ctrl+-縮小範圍框
3. 按 T 打字
4. 按 黑色箭頭V選取工具 將字拉滿框
5. 物件轉路徑,目的為打散部件,才可更改部件,作法:文字\建立外框
6. 按 白色箭頭直接選取工具A 選取要處理的部份,del=刪除 
7. ctrl+y 字黑色部份會不見
8. 預設字型:新細明體,如遇字型出不來時,則字體設定ext_b
9. 圖層F7  

參考範例

P:\2015華嚴經疏鈔\03工作手冊\字檔SVG製作與缺字處理方式


四、字型為ExtB時:

 方法一、
 1. 於unicode網站找到該字,於inkscape\選A\複製貼上
 2. 點選該字,字型選PmingLia-ExtB
 方法二、
 1.無法貼上inkscape造字框中時,先於Word中輸入Unicode按alt+X,顯現其ExtB字。
 2.開啟inkscape,並新增造字框。
 3.於上方選單列點選,檔案\文字\字,開啟字編輯表單並於最下方空白欄位貼入顯現於Word中的ExtB字,選擇字族欄位中的PMingLiU-ExtB,接著按右下角添加選項。
 4.ExtB組裝材料字顯現於造字框,其餘步驟皆同。
  • 造字要求:保持其組裝材料字的編輯造型,只做拆解及組裝的的動作,以維持新造字的重心與平衡

參考資源