於 2013年9月27日 (五) 15:41 的修訂

 (a)賦：一般網路常見的那種談及賦體的網站http://hlhk110.blog.163.com/blog/static/17419557420119194427643/
 (b)賦：極推薦的參考網站，教學及討論極詳盡，其訓練有助標逗http://www.zgcfw.com.cn/forum.php?mod=viewthread&tid=69823&extra=page%3D1
 (c)韻書:(c.1)綜合許多韻書的網站（高級檢索功能遇聲韻問題時還蠻好用）http://ytenx.org/
 (c.2) 平水韻http://home.educities.edu.tw/bise/big5/tools/rhyme/rhyme5.htm
 (c.3)舉例：在押一東韻的詩裡，覺得該韻腳字為空（上平聲一東、上聲一董、去聲一送），但又擔心可能為定（去聲二十五徑），至少可刪除為「定」字的可能性。要較大膽地進行猜測也比較有依據。

特字處理原則

特殊字處理的原則，首先是尋查有無unicode編碼字（包含Extention C），然後再根據文字本身（或搭配前後文）是否易於辨識，而做對應的標記。

有 unicode 編碼的字

易於辨識

此字易於辨識者（容易讀懂，不會產生懷疑的），則直接採用unicode編碼字，不做任何標記。例如：静（靜），徳（德）。

範例1：於是皇帝屏左右，静坐良乆[=久]，再焚香祈禱。g010p0149

範例2：蓋仁慈清淨，其功徳不殊。g008p0032

如果 unicode 有編碼，但是 unicode 網站上在「Your Browser」欄位有的電腦看得到、有的電腦看不到，而「The Unicode Standard」欄位看不到圖檔，例如 U+2F8BB，超出 Extension-D(U+2B740-U+2B81D) 的範圍，現有軟體支援較少。而且這個字容易辨識可與「捨」通用，只是在「口」之上的一豎稍微凸出來一點，就直接採用通用字「捨」，不必另加標記。(根據 2011.9.27 會議結論)

額外的參考做法：以部首為判斷標準，二字間凡具異體字或通用字關係而部首不同者，無論字體多接近，皆加<choice>。例如：「嘗」（口部）與「甞」（甘部），部首不同，判斷要加記號；「峰」與「峯」部首相同，聲符亦未有差異，僅是改變形符（於此例中兼部首）與聲符相對位置，則考慮不標記。

不易辨識

此字不易於辨識者（不易讀懂，罕用字，古字，假借字），但有通用字時，例如：㝎（定），灋（法），銕（鐵）。

標法：

<choice>
  <orig>底本原字（特異字）</orig>
  <reg resp="ddbc.da">通用字</reg>
</choice>

範例：

優曇華發<choice>
<orig>㝎</orig>
<reg resp="ddbc.da">定</reg></choice>中香  衣裏明珠是宻藏

呈現方式：

網頁呈現：優曇華發㝎[=定]中香  衣裏明珠是宻藏 g008p0543

PDF呈現：（內文）優曇華發㝎1中香  衣裏明珠是宻藏
        （註腳）1 底本「㝎」為「定」的異體字

（通用字的查詢，可借助字書工具，如CBETA漢字資料庫，教育部異體字網站等）

請注意：同一篇文章（同一最小層級標題之下），有同一字重複出現「不易讀懂，罕用字」情況時，為避免同一字被頻繁標記，惟其第一次出現需加標示。但倘使最小層級標題涵括的內文過短，則易因範圍太小，無法達到的效果；為加大範圍，得斟酌改以較高層級的標題判斷一字是否重覆標記。

無 unicode 編碼的字

易於辨識

此字易於辨識者（不會產生懷疑的），且有通用字，則直接採用其通用字，而不做任何標記。
（註：標記亦不算錯，只要文本一致就可以了。2012/6/1 confirm with Marcus）

類型1:多一點、少一撇的字。例：余，吾。
範例1：余生平事佛 g010p0003

類型2:刻版慣例，書寫習慣。例：所，於。
範例2：與吾靈臺有所發明者而雅尚之 g010p0003

類型3:搭配前後文易於辨識者。例：關。
範例3：舉家百口入於萬死一生之地 g010p0005

不易辨識, 有通用字

此字不易於辨識者（不易讀懂，罕用字），但有通用字時，則直接採用其通用字，並以<reg>標記之。例如：[叠*毛]（㲲）。

標法：

<reg>通用字</reg>

範例：

青天飛一錫，白<reg>㲲</reg>入孤雲。

呈現：

網頁呈現：青天飛一錫，白㲲入孤雲。g008p0539
PDF呈現：青天飛一錫，白㲲入孤雲。（㲲字下方有一小黑點，但在wiki無法顯示）

不易辨識, 無通用字

此字不易於辨識者（不易讀懂，罕用字），且無通用字時，則以<g>標記之，並需建立缺字檔。

標法：

<g ref="#btg圖檔檔名"/>
註：圖檔檔名＝志碼3碼＋頁碼4碼＋流水號2碼
例：<g ref="#btg010052801"/>

範例：

頓令須彌倒卓，<g ref="#btg086026901"/>𣿨全枯。

呈現：

頓令須彌倒卓，□𣿨全枯。g0860269

如何統一各志間特字處理方式

由於外包打字公司以及特字處理人員，面對同一字，可能因各種因素導致作業前期和作業後期處理方式不同的情況（例如打字人員因時常遇到特定難字，對該字變得熟悉，於是不標代表需做特字處理記號，而直接輸入該字）。若要使各志以及同一志前後文在特字處理上達到一致性，就必須進行統一各志間特字處理方式的工作，建議全套佛寺志完成後再做這部份作業較有效率。

目前處理方式如下：

一、打開NotePad++，並開啟所有已完成特字處理的文件。 p.s.應注意若以NotePad++開啟g032的txt檔時易出問題，則可改開g032的xml檔。

二、挑選一個檔案，建議從最前面或最後面的檔案開始，較不易遺漏。

三、Ctrl+F 使用「找下一個」搜尋「<choice>」，一次找一筆，原理同上建議從文件的最前面往後或最後面往前找比較不會遺漏。以g001為例，第一筆<choice>應該會找到「<choice><orig>𠇍</orig>......</choice>」。

四、每找到一筆<choice>，就使用「搜尋所有開啟文件」尋找<orig>　</orig>之間的字。承前例，以「搜尋所有開啟文件」找出各佛寺志有出現「𠇍」字之處。

五、一一判斷上一步驟搜尋所得的每一筆結果，接著以正確的方式處理之。承前例，判斷各佛寺志出現的「𠇍」字是否都妥當處理，若無，則加以處理。

六、確定所有開啟的佛寺志都完成上一步驟後，才算完成一個字在各志間的「統一各志間特字處理方式」之作業。接著應回步驟三，找到下一個字，然後繼續針對得到的字做步驟四到五。再承前例，全部佛寺志出現過的「𠇍」字都妥當處理後，繼續藉「找下一個」搜尋「<choice>」，找出接下來應處理的字是「䟦」，然後針對「䟦」字做步驟四到五。

七、不斷重覆步驟三至步驟五，直到一個志全部標過<choice>的字都經過步驟三到五的處理，就能換下一個志，但仍應將此志維持開啟，以利處理其他佛寺志特字時，搜到此志應處理而未處理的字。承前例，處理g002時，g001應維持開啟。

八、當所有開啟的佛寺志都完成步驟三至六以後，便算是完成「統一各志間特字處理方式」的工作。

缺字建檔

佛寺志缺字庫網頁 http://dev.ddbc.edu.tw/tomcat/exist/rest/db/fosizhi/xq/gaiji_input/gaiji.xq

缺字建置步驟

登入缺字庫網頁，輸入缺字的位置「第幾志、第幾頁、當頁第幾個字」，按「新增一筆」，產生一個缺字id：<glyph xml:id="">。缺字編碼原則：btg（佛寺志）XXX（志碼3碼）XXXX（頁碼4碼）XX（序號2碼），例如：阿育王山志第298頁第4個缺字[口*斗]的id是：btg010029804
<glyphName>：選擇是否為unicode編碼字，若為unicode編碼字，則採用Decimal碼。
<charProp>：若知其發音，則點選「再增加一個charProp」。
1. <localName>：若知其發音，則選pronunciation。
2. <value>：欄內填入此字之漢語拼音。例：媽ma1，嗎ma5，恰qia4（第幾聲用數字表示一聲、二聲、三聲、四聲、輕聲 = 1、2、3、4、5）
<mapping type>：有common（通用字）、cbeta（CBETA組字式）、cbetaNo（CB碼）、unicode（unicode Decimal碼）、MoEvariant（教育部異體字編碼）五種型態，依其資料一一增加mapping填入。
<note>：若對此字有特殊之考查，可add a note，描述考據的結果。例：韻 [音*貟]，異體字例，部件「口、厶」俗寫多彼此相訛，凡此皆可視為異體。
填寫上述資料後，按「更新資料庫」，即完成一個缺字的建置。

缺字圖檔製作

原則

裁切文本掃瞄檔(.tif)作為字圖。（作法如下）

裁切字圖步驟

利用Gimp軟體處理

軟體存放路徑：Y:\Projects\2013fosizhi_明丹本86志粗標\07工具\應用程式
開啟Gimp功能表「檔案」.
點選「開啟」.
選擇缺字當頁的掃瞄圖.ex:1B001P077 (檔案路徑Y:\Projects\2008fosizhi_全掃描與13志出版\02主資料庫\01底本掃描檔\tif\2Book020\2B020P099)
放大圖片以利裁切:點選「顯示」選擇「縮放1:1(100﹪)」.
點選「工具」選擇「變換工具」中的「剪裁刀」cut(形狀類似一支筆).
將「剪裁刀」移至缺字，劃取缺字,然後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
設定圖片尺寸（\image\scale image）:點選「影像」或「圖片」，選擇「縮放影像」「縮放圖片」，設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定)，水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
點選「檔案」選擇「另存新檔save as」並以部件命檔名ex:土希.gif再點選下方「Gif影像檔」按2次「儲存」即完成

　（檔案命名：是以當字的所有部件命名，去掉中括號和運算符號，例如[土*希]，檔名：土希）

缺字圖檔存放位置Y:\Projects\2013fosizhi_明丹本86志粗標\02主資料庫\05底本中的圖檔\缺字圖檔\gword
將缺字圖寄給春玉師姐（email附加檔案），申請Z碼。
申請到Z碼後，將Z碼標進XML文件中。

缺字給 CBETA Maha 製作流程

請 Maha 幫忙製作缺字無CB碼、無組字式者
須製作(1)的二點資訊者，於缺字介面note註明maha
小花再以 note 註明的 maha 彙整送給 maha
缺字資訊的 note 寫法可參考缺字介面的(8)<add a note>: 為註記資訊用

缺字圖上傳

FTP informations

session:fosizhi
host name:dev.ddbc.edu.tw
user name:自己的帳號
password:自己的密碼

上傳後缺字圖檔自動出現在缺字資料庫中

上傳位置

從 Y:\Projects\fosizhi\images\gword\
複製到 ftp://dev.ddbc.edu.tw/fosizhi_gwords

上傳週期

從 dev 到informatics 上傳時間為一週

缺字呈現

缺字在佛寺志網頁的呈現順序

組字式
字圖

unicode 編碼字

Unihan 網站 http://www.unicode.org/charts/unihanrsindex.html 該網站字無法顯現:點選Code Charts (PDF Version),輸入字碼,download pdf即可知道該字是什麼字。

CJK漢字編碼範圍

U+20000- U+2A6DF（中日韓統一表意文字擴展B區）

http://zh.wikipedia.org/wiki/Unicode-%E4%B8%AD%E6%97%A5%E9%9F%93%E8%B6%8A%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97%E6%93%B4%E5%B1%95B%E5%8D%80

U+2A700-U+2B73F（中日韓統一表意文字擴展C區）
U+2B740- U+2B81F（中日韓統一表意文字擴展D區）
Decimal：131072以上

（以上皆屬 Extension 的擴展字，可直接貼在文本）

編輯器

若u==編輯器== nicode編碼字在Oxygen編輯器下無法直接貼上時，則先以Notepad++開啟此檔，並於內貼上此字、存檔，然後再轉接以Oxygen繼續作業。

此時經過Notepad++轉化的此缺字，將在 Oxygen 以 □ 的形式呈顯，但此字在網頁上應已可以如實呈現。

如果此字在介面仍無法顯現,請檢查是否已安裝 Undicode 擴充字型

Y:\Projects\fosizhi\work\tools\字型\ext_b\PMingLiU Update Pack.msi
Y:\Projects\fosizhi\work\tools\字型\hanazono\hanazono.ttf

快速尋找unicode的方法

國際電腦漢字及異體字知識庫: http://chardb.iis.sinica.edu.tw/ 得知unicode 的碼及異體字

至unihan網站選unihan search pages 輸入 unicode碼 ,可得到異體字字形 http://www.unicode.org/charts/unihan.html 例如:秋的異體字2584C

註：秋的unicode碼為79CB,於word按ALT+X 可得到該字

有助於增加特字處理效率的工具與方法

1.輸入法整合器

(1)啟用：使用新注音或新倉頡輸入法時，靠語言列右邊的「工具選單」裡，第一個選項即輸入法整合器。

(2)使用方式：

a.滑鼠點選已開啟之文字檔中，欲輸入文字之處。

b.在輸入法整合器左邊大片空白的面板上，以滑鼠劃出字形。

c.看輸入法整合器右邊的選項裡是否出現欲輸入的字形。但需注意，有時還沒劃完就會出現想要的字。

(3)適用時機：

a.造缺字時：直接寫出如亻、阝等筆畫少的偏旁，能避免為找一個字的偏旁而將時間白白耗在等待unihan頁面好幾次開啟。

b.找查難以判斷筆劃、讀音、部首的字或同分類的字庫太龐大時：例如雘（實為隹部）、匼（據教育部異體字典，讀音為ㄎㄜˋ、ㄜˋ或ㄢˇ）、蕟（艸部unihan字庫太龐大）、垂（各字典筆畫算法不同）等字。滑鼠移至輸入法整合器提供之字形選項上，會出現參考讀音（不一定是正確的），也是值得運用的功能。

c.其它：例如辦公的筆電接大螢幕進行報告，倘無大量書寫之必要時可臨時充當白板。

(4)缺點：

a.同樣的字，筆順不同時，會影響程式判斷，使右側選項出現的字跟著不同。

b.此外，欲輸入之字有時會在未劃完完整字形已出現，劃完反而因程式判斷成別的字形而找不到。

c.字庫頗小，能找到的字有限。

SVG造字

TTF:有圖形,有字碼

SVG：無大小尺寸，向量圖檔,有圖形,無字碼

檔名命名規則:依ID順序編4碼,例1174.svg

存放路徑:Y:\Projects\fosizhi\master-data\images\Quezi_svg

參閱

http://zh.wikipedia.org/wiki/Inkscape

安裝

http://inkscape.org/

inkscape造字操作法

前題 : 為出版紙本書籍,故須要做.SVG圖檔。如不是要出版紙本書籍,只要於內文剪圖即可(.gif)。一、造字步驟說明

 1.準備需要造字的字形資料。
 2.於unicode網站:http://www.unicode.org/charts/unihanrsindex.html，
   或是於輸入法整合器-手寫辨識，寫入所要造字的字形。選擇適合用於inkscape組裝材料字。
 3.使用inkscape軟體，依照所找到之字形圖檔，用適合組裝的字，於字框中拆解及組裝成新的字。
 4.於openoffice插入新造字，檢視其是否有變形狀況。
 5.將新造字之.svg檔案儲存於 Y:\Projects\2008fosizhi_全掃描與13志出版\02主資料庫\05底本中的圖檔\缺字圖檔\Quezi-svg資料夾內。

二、造字步驟範例

 1.於DDBC難檢字庫 http://dev.ddbc.edu.tw/schar/index.php ，於ID碼欄輸入0029，按Search鍵，出現組字式為[火*崩]的圖檔。
 2.點選電腦螢幕右下角，工具選單\輸入法整合器。於空白處寫入[火崩]，並從右方識別結果欄位選擇[燥][蹦]二字為組裝材料字。
 3.開啟inkscape。
  (1). 新增造字框。於上方選單列點選，檔案\新增\fontforge_glyph，新增一造字框視窗，並將先前的視窗關閉。
  (2). 輸入組裝材料字。
      a.點選左方工具列，建立和編輯文字物件(圖示：A)。
      b.於左上方選擇字族欄位下拉選擇PMingLiU字體。
      c.輸入組裝材料字[蹦]於造字框內。 
      d.點選左方工具列，選取和變形物件(圖示：黑箭頭)。
      e.選取造字框內的[蹦]字，拖拉左上角箭頭使之與造字框左上角相合。右上、右下及左上角以同樣方式處理，至材料字完全符合於造字框大小。
  (3). 拆解材料字並保留提供造字的部分。
      a.於上方選單列點選，路徑\物件轉成路徑\，將[蹦]字轉成路徑。
      b.點選左方工具列，用節點編輯路徑(圖示：節點)。
      c.選擇足的部分之所有節點，將其刪除，保留崩的部分。
      d.圖層（Layer）\Layers 開啟圖層管理表單。將崩所在的圖層鎖住，防止意外變更或移動。
      e.於圖層管理表單點選，建立新圖層(圖示:+)，開啟一新圖層。並將崩所在的圖層調整為不顯示(圖示:閉眼)，以免干擾另一組裝字的作業。
      f.按照(2)至(3)b的步驟，將組裝材料字[燥]輸入及拆解於新圖層中，保留火的部分。
      g.將崩所在的圖層調整為顯示(圖示:睜眼)，檢視所造之新字是否合宜，並做最後修正。
      h.選擇與DDBC難檢字庫中相同的ID碼儲存。在此範例中存為0029.svg。
 4.開啟openoffice(至少OpenOffice.org 3.4.1版或以上)。
  (1). 插入新造字。於上方選單列點選，開啟新檔\文字文件，開啟一新文件。在於上方選單列點選，插入\圖片\取自檔案，選擇檔案0029.svg。
  (2). 檢視新字是否有變形。如有變形狀況，於illustrator打開0029.svg檔案，再存為0029.svg，即可改善。
  (3). 重覆4.(1)的步驟，檢視新字是否已正常顯示。
 5.將0029.svg檔案存於 Y:\Projects\fosizhi\master-data\images\Quezi_svg 資料夾內。

組裝材。

illustrator造字操作法

1. 於inkscape 檔案\新增\fontforge_glyph 存成0.svg Y:\Projects\fosizhi\master-data\images\Quezi-svg
2. 開啟0.svg,按ctrl+-縮小範圍框
3. 按 T 打字
4. 按 黑色箭頭V選取工具 將字拉滿框
5. 物件轉路徑,目的為打散部件,才可更改部件,作法:文字\建立外框
6. 按 白色箭頭直接選取工具A 選取要處理的部份,del=刪除 
7. ctrl+y 字黑色部份會不見
8. 預設字型:新細明體,如遇字型出不來時,則字體設定ext_b
9. 圖層F7

四、字型為ExtB時：

 方法一、
 1. 於unicode網站找到該字，於inkscape＼選A\複製貼上
 2. 點選該字,字型選PmingLia-ExtB
 方法二、
 1.無法貼上inkscape造字框中時，先於Word中輸入Unicode按alt+X，顯現其ExtB字。
 2.開啟inkscape，並新增造字框。
 3.於上方選單列點選，檔案\文字\字，開啟字編輯表單並於最下方空白欄位貼入顯現於Word中的ExtB字，選擇字族欄位中的PMingLiU-ExtB，接著按右下角添加選項。
 4.ExtB組裝材料字顯現於造字框，其餘步驟皆同。

造字要求:保持其組裝材料字的編輯造型，只做拆解及組裝的的動作，以維持新造字的重心與平衡

參考資源

台北版電子佛典集成缺字作法參考 http://taipei.ddbc.edu.tw/jiaxing_rare.php
別譯雜阿含缺字檔範例參考 http://buddhistinformatics.chibs.edu.tw/BZA/getsource.xql?src=b074T02.0101.0498b25.xml

@@ 行 187： / 行 187： @@
 #將「剪裁刀」移至缺字，劃取缺字,然後在選取的字框內點選滑鼠左鍵2次,即出現裁切之缺字圖檔.
 #設定圖片尺寸（\image\scale image）:點選「影像」或「圖片」，選擇「縮放影像」「縮放圖片」，設定尺寸:45X47(點一下右邊鐵鍊圖形--目的是解除固定)，水平及垂直解析度:72像素,完成後點選下方「縮放」即完成.
-#點選「檔案」選擇「另存新 檔 」並 提供 檔名ex:btg075116001.gif再點選下方「Gif影像檔」按2次「儲存」即完成
+#點選「檔案」選擇「另存新 檔save as 」並 以部件命 檔名ex: 土希.gif再點選下方「Gif影像檔」按2次「儲存」即完成<br>
+　（檔案命名：是以當字的所有部件命名，去掉中括號和運算符號，例如[土*希]，檔名：土希）
 #缺字圖檔存放位置Y:\Projects\2013fosizhi_明丹本86志粗標\02主資料庫\05底本中的圖檔\缺字圖檔\gword
 #將缺字圖寄給春玉師姐（email附加檔案），申請Z碼。

匿名

搜尋

「佛寺志專案 特字處理」：修訂間差異

於 2013年9月27日 (五) 15:41 的修訂

作業環境

特字處理方式及工具

特字處理原則

有 unicode 編碼的字

易於辨識

不易辨識

無 unicode 編碼的字

易於辨識

不易辨識, 有通用字

不易辨識, 無通用字

如何統一各志間特字處理方式

缺字建檔

缺字圖檔製作

原則

裁切字圖步驟

缺字給 CBETA Maha 製作流程

缺字圖上傳

FTP informations

上傳位置

上傳週期

缺字呈現

unicode 編碼字

CJK漢字編碼範圍

編輯器

快速尋找unicode的方法

有助於增加特字處理效率的工具與方法

SVG造字

參閱

安裝

inkscape造字操作法

illustrator造字操作法

參考資源

導覽

wiki工具

頁面工具

「佛寺志專案特字處理」：修訂間差異