CBETA 漢字資料庫 gaiji-m.mdb
出自DILA Wiki
gaiji-m.mdb 是由 CBETA 所製作的 Microsoft Access 格式「漢字資料庫」。
這個資料庫有兩個版本,一個是內部使用的,有 unicode 欄位,
另一個版本是比較完整的大資料庫,dict.cbeta.org 就是由這個資料庫產生的,沒有 unicode 欄位。(heaven 2017.8.14)
nor2
頓點
Big5 通用字一對多
例如
cb: 00374 uniword: 劵 des: [券-刀+力] nor2: 券、倦
省略號
「…」表示還有其他非 Big5 的通用字,例如
cb: 00370 uniword: 虬 des: [乳-孚+虫] nor2: 虯…
又有「、」又有「…」,例如
cb: 00025 uniword: 苽 des: [卄/瓜] nor2: 菰、芥…
問號
「?」表示《教育部異體字字典》沒列示為通用字,但我們在經文實例中發現似乎大都可以通用。——所以我們存疑。
例如
cb: 00055 uniword: 㕮 des: [口*父] nor2: 哺?
驚嘆號
表示《教育部異體字字典》列示為通用字,但我們在經文實例中發現不一定完全可以通用。——所以要小心使用。
例如
cb: 11970 uniword: 舤 des: [舟*凡] nor2: 航!帆? 通用字參考:異體字字典通用作「航」,但一切經音義說是「帆」,經文實際用例似乎以「帆」為正。
通用詞
cb: 07087 uniword: 𦬇 des: [卄/廾] nor2: 茻!菩薩?
none
早期沒有處理, 就是空白, 表示還沒有查過. none 表示 maha 查過了, 查不到資料.
cb: 00014 uniword: 𤛓 des: [(殼-一)/牛] nor2: none
nor_uni
Unicode 通用字
cb: 00624 nor_uni: 籨 des: [簽*欠]
uniword
這個欄位的值有兩種可能:
1. 如果 nor_uni 存在的話,那麼這個欄位跟 nor_uni 一樣是「Unicode 通用字」,
cb: 00624 uniword: 籨 nor_uni: 籨 des: [簽*欠]
2. 如果 nor_uni 不存在的話,那麼這個 CB碼 是個 Big5 缺字,但在 Unicode 字集中存在,uniword 欄位放這個缺字對應的 Unicode 字元。
cb: 00018 uniword: 尅 des: [兙-十+寸]