CBETA 漢字資料庫 gaiji-m.mdb

出自DILA Wiki

gaiji-m.mdb 是由 CBETA 所製作的 Microsoft Access 格式「漢字資料庫」。

這個資料庫有兩個版本,一個是內部使用的,有 unicode 欄位,
另一個版本是比較完整的大資料庫,dict.cbeta.org 就是由這個資料庫產生的,沒有 unicode 欄位。(heaven 2017.8.14)

nor2

頓點

Big5 通用字一對多

例如

cb: 00374
uniword: 劵
des: [券-刀+力]
nor2: 券、倦

省略號

「…」表示還有其他非 Big5 的通用字,例如

cb: 00370
uniword: 虬
des: [乳-孚+虫]
nor2: 虯…

又有「、」又有「…」,例如

cb: 00025
uniword: 苽
des: [卄/瓜]
nor2: 菰、芥…

問號

「?」表示《教育部異體字字典》沒列示為通用字,但我們在經文實例中發現似乎大都可以通用。——所以我們存疑。

例如

cb: 00055
uniword: 㕮
des: [口*父]
nor2: 哺?

驚嘆號

表示《教育部異體字字典》列示為通用字,但我們在經文實例中發現不一定完全可以通用。——所以要小心使用。

例如

cb: 11970
uniword: 舤
des: [舟*凡]
nor2: 航!帆?
通用字參考:異體字字典通用作「航」,但一切經音義說是「帆」,經文實際用例似乎以「帆」為正。

通用詞

cb: 07087
uniword: 𦬇
des: [卄/廾]
nor2: 茻!菩薩?

none

早期沒有處理, 就是空白, 表示還沒有查過. none 表示 maha 查過了, 查不到資料.

cb: 00014
uniword: 𤛓
des: [(殼-一)/牛]
nor2: none

nor_uni

Unicode 通用字

cb: 00624
nor_uni: 籨
des: [簽*欠]

uniword

這個欄位的值有兩種可能:

1. 如果 nor_uni 存在的話,那麼這個欄位跟 nor_uni 一樣是「Unicode 通用字」,

cb: 00624
uniword: 籨
nor_uni: 籨
des: [簽*欠]

2. 如果 nor_uni 不存在的話,那麼這個 CB碼 是個 Big5 缺字,但在 Unicode 字集中存在,uniword 欄位放這個缺字對應的 Unicode 字元。

cb: 00018
uniword: 尅
des: [兙-十+寸]