中古佛教寫本資料庫編碼工作手冊
The Database on Medieval Chinese Dūnhuáng Texts
Date: 2015-07-06 Author:林靜慧（Lin Ching-hui）

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲（Hung Jen-jou）、安東平（Christoph Anderl）主持，馬德偉（Marcus Bingenheimer, Temple University）、張伯雍（Zhang Boyong）擔任顧問。（馬德偉與張伯雍另有類似專案可參見敦煌漢文佛教寫卷點校本專案）

中古佛教寫卷資料庫編碼計畫，目前進行三個階段，總計完成寫卷三十卷。

工作圖例一：S-3491.png寫卷影像

工作圖例二：S-3491TEI.png標記

工作圖例三：S-3491TEXT.png的數位版本

壹、工作流程說明

一、下載所需敦煌寫卷影像檔（如至國際敦煌項目），並在PDF檔上標好行號。
二、搜尋寫卷內容是否有文字檔，若有文字檔則下載；若沒有則將影像檔初步打成文字檔。
三、細部分辨寫卷字形，用Notepad＋＋或oxygen開啟寫卷文字檔（xml檔），在文字檔的基礎上，開始加上標記語言。工作時需注意下例幾點：
　　１、注意標記語言的使用（參見「#參、標記語言範例表」）。
　　２、遇到萬國碼（Unicode）已收錄的異體字，需同時維護異體字庫（參見檔案「00-variant-table-Ms-Project」），並注意程式只能判斷一組正字與異體字的關係，所以如果該異體字另兼正字，那麼就不能列入該檔中，需用人工輸入標記：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），以免因程式無法分辦而造成混亂。
　　３、遇到萬國碼（Unicode）沒收錄的異體字，需到教育部異體字字典找出對應字與下載字圖，存入異體字圖庫（參見檔案「gaiji」）；若是異體字典沒有對應的字，先標明缺字並記錄該字的卷次行次字次，稍後需要造字。（如果將來出版實體書，這些Unicode沒有的異體字圖檔皆需造字，將圖檔改成文字。）
　　４、遇到萬國碼（Unicode）、教育部異體字典未收錄，而全字庫中有造字的異體字，到檔案「png_24x24」搜尋字碼，存到「gaiji\png」中，因字檔前面不能是數字，所以在原檔名前加上大寫的Ｑ。
　　５、標明資料來源。
四、完成標記後，用oxygen轉成原抄本檔與標準字檔，初步檢查是否有誤。
五、使用freecommandXE軟體叫出encoding-desc.rb程式，用Oxygen中的Tools/Compare Files將轉好的00-encodingDesc檔案合併，異體字庫中的缺字（專案新增異體字）才能顯示在html的頁面上。
六、最後使用freecommandXE軟體叫出char-reg.rb程式，將異體字庫中的異體字轉成<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），用Oxygen中的Tools/Compare Files將轉好的標記xml檔案合併，最後再檢查是否有誤。

附加說明：

所使用的標記規範為 TEI P5。
最好安裝 Unicode Super-CJK Fonts v6.0。

貳、編碼語言使用說明

異體字（包含通同字）的標記

　　１、在標明異體字或通同字時使用，標為：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字）。
　　２、當Ｙ為萬國碼（Unicode）所沒有的字時，則代換成<g ref="#Ｚ"/>（Ｚ代表教育部異體字典中的字碼或缺字所在的卷次行次字次）。
　　３、檔案「00-variant-table-Ms-Project」收錄的異體字，freecommandXE程式會自動轉成<orig reg="Ｘ">Ｙ</orig>的標記並出現type（Unicode常用罕用字分類），但是若在<orig reg="Ｘ">中放進「00-variant-table-Ms-Project」收錄的異體字，卻會被程式自動略過，字形不會產生變動，因此若遇到一字兼兩種正字的異體時，要選擇其中一種收入「00-variant-table-Ms-Project」，另外一種則採用人工輸入，如仏字同時是佛與似的異體字，「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體，程式只會自動將仏轉成佛，那麼遇到似的異體時，便要標為：<orig reg="似">仏</orig>。
　　４、所謂通同字，意指兩字有時有通用的情形，又各自另兼正字，如：鍾鐘為通同字，但其各有本義，鍾為酒器，鐘為樂器，在「二口金鍾」此文之鍾字作樂器解時，其本字當為鐘，此時編碼作<orig reg="鐘">鍾</orig>；又如：「有願尅從」，剋與尅為同音同義的通同字，克與剋為通同字，此文尅當作「能夠」解，克與尅都有「能夠」之意，而此尅依據教育部異體字典考定：因與正字剋形體相近而成為常用之俗寫異體字，此時編碼作<orig reg="剋">尅</orig>。
　　５、或有因字形相近，導致書寫習慣將兩字通用者，如：无（無的異體）與元，師與帥，客與容，雨與兩，此雖有通用的事實，但為書寫筆畫的習慣，而非意義有相通處，因此被歸入形近而誤的錯字，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原文字形，Ｂ代表編碼者修定的標準字）。
　　

錯字（包含假借字）的標記

　　１、一般錯字：在標明字形書寫錯誤時使用，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原寫本的字形，Ｂ代表編碼者修定的標準字，當Ａ為Unicode所沒有的字時，則代換成<orig reg="Ｘ">Ｙ</orig>），若有他本可以作為校勘證據，便用<note>說明出處（出處可使用簡稱，並在凡例中將完整出處說明）。除了單字對應的錯字之外，還有一字誤為兩者：
　　　１）一字誤拆為二字者，如：S-3491有臭的異體字臰被誤拆成自㤪二字，則標成：<choice><sic>自㤪</sic><corr>臰</corr></choice>。
　　　２）一字誤拆為二字，並換行者，則加入<lb/>，如：S-3491有尖被誤拆成五人二字，其中人字換行書寫，則標成：<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。
　　２、同音通假（假借字）視為因音同或音近而造成的錯字，如:S-2113「吝此明珠如姓明」，姓明二字語義不通，當為性命之同音假借的錯字，此時標為：<choice><sic>姓明</sic><corr>性命</corr></choice>。
　　３、形近而誤的錯字，如：S-3491「跂覢電作朱旗」，跂乃形近跛而誤，而跛與披音近通假，有另一版本P-2187降魔變押座文與本卷之語為證，故標為：<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語，故知跂為跛之誤，且跂覢二字P-2187作披閃，蓋跛假作披。</note>。

特殊符號的標記

　　１、以萬國碼「雁點」（レ点 U+3191）與乙字為倒乙符號（參見：媒體:敦煌古代的標點符號.pdf、維基百科：訓読），在標明文字倒乙時使用，標為：<orig reg="ＡＢ">Ｂ<add place="inline-right">㆑</add>Ａ</orig>或<orig reg="ＡＢ">Ｂ<add place="inline-right">乙</add>Ａ</orig>。
　　　　１）倒乙字若是萬國碼（Unicode）已收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）倒乙字若是萬國碼（Unicode）未收錄的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）<orig reg="ＡＢ">中的Ａ、Ｂ字體須為標準字，Ｂ<add place="inline-right">㆑</add>Ａ此處的Ａ、Ｂ則可放入異體字。
　　２、以萬國碼「疊字符號」（踊り字 U+303B）為重文符號，在標明省書重文時使用，如：<choice>Ａ〻<expan>ＡＡ</expan></choice>或<choice>Ａ〻Ｂ〻<expan>ＡＢＡＢ</expan></choice>（所有的 <expan> 標記中已視為「正規化」，故不再有如 <unclear> 等標記）。
　　　　１）重文字若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）重文字若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）省書符號前有行號時的標法：只標省書符號。
　　３、另有一種省書方式沒有特殊符號的標示，而是對常用字形直接減筆書寫，如𦬇為菩薩的省書符號，此時則標為：<choice>卄卄<expan>菩薩</expan></choice>。
　　　　１）包含的字形若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）包含的字形若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）<expan>只在表示的縮寫還原時使用， <expan> 標記中已視為「正規化」，故不再有如 <reg>或<unclear> 等標記。
　　

字形模糊不清、損毀、塗改的標記

　　１、<unclear>：當文字墨色模糊（如：退色或磨損）或文字筆畫不清（如：行書、草書）難以判斷，需依賴上下文才能判讀時使用；若需要其他文獻校勘才能判讀時，便加上<note>說明文獻出處。
　　　　１）若是遇到文字模糊不清無法確切辨識清楚時使用（原有的<reg>標號不用），標成：<unclear>Ａ</unclear>（Ａ代表該字）；若是雖然字形不甚清晰，但仍有50%以上的把握能判斷該字，則直其書其字。
　　　　２）若是異體字的字形不清楚，亦直接以<unclear>包覆標準字，不再使用<orig reg="Ｘ">或<choice>。
　　　　３）若是因行書、草書的寫法導致筆畫不清，則不管字跡是否模糊，皆使以<unclear>包覆標準字。
　　２、<damage>：當文字損毀時使用。
　　　　１）文字略有損毀，尚可辨識時使用，標成：<damage>Ａ</damage>（Ａ代表損毀字）。
　　　　２）若因破損而無法辨識，則標成：<damage unit="char" extent="Ｘ"/>（Ｘ代表損毀的字數）。
　　　　３）損毀嚴重，需參酌他本，理校出正字，則標成：<choice><unclear><damage unit="char" extent="1"/></unclear><reg>Ａ</reg></choice>（Ａ代表編碼者理校出的正字）。（<unit="chars"> 是早期的標記，現在統一作 unit="char"）
　　３、<gap>：文字並非損毀，或因塗改或其他原因，使得完全無法分辨字形時使用，標成：<gap unit="char" extent="1"/>。

刪除字的標記

　　１、當某字被刪去時，標為：<del>Ａ</del>（Ａ代表被刪去的字）；若Ａ為異體字，則代入<orig reg="Ｘ">Ｙ</orig>。
　　２、同一行中，先刪去某字，隨後寫上正確的字時，標為：<del>Ａ</del>À（Ａ代表原本寫錯的字，À代表改正後的字）。
　　３、當某字被刪去後，又在其右邊加上改正的字時，標為：<subst><del>Ａ</del><add place="inline-right">À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　４、當某字被塗毀時，導致無法辨別字體時，標為：。
　　５、當在錯字上添加筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　６、寫卷表示刪除字，除了直接劃掉、塗改筆畫，還有在被刪字的右邊標上卜字或是頓點等符號，詳細例證可參見媒體:敦煌古代的標點符號.pdf，在此並不特別標出符號形式，統一採用<del>標記。

插入字的標記

　　１、在字的右邊插入文字時，標為：<add place="inline-right">Ａ</add>（Ａ代表被插入的字）。
　　２、在筆劃不清的字右邊插入文字時，標為：<subst><add place="inline-right">Ａ</add></subst>。
　　３、在錯字上添加筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　４、當被刪去的某字被塗毀而無法辨識，又在右邊加入改正字時，標為：<subst><gap unit="char" extent="1"/><add place="inline-right">Ａ</add></subst>（Ａ代表被插入的字）。
　　５、當被刪改的錯字被標記者判定為誤時，在<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>（Ａ代表原文字形，Ｂ代表編碼者修訂的字）後加上<note>作說明。

標點符號的標記

　　１、一般標點標為：<pc>Ｘ</pc>（Ｘ代表編碼者插入的中式全型標點符號，只會在標準字體化的版本顯示）。
　　２、當標點剛好落在重文符號中間時，如：以手遮<choice>日〻<expan>日日</expan></choice>光所下之䖏，兩個日中間當斷句時，可標為：<expan>日<pc>，</pc>日</expan>，或是日<pc>，</pc><choice>〻<expan>日</expan></choice>。

注解的標記

１、小字雙行夾注，標為：<hi rendition="#inline-para">Ｘ<lb/>Ｘ</hi>（Ｘ代表注解內容，<lb/>代表換行點）。
　　２、後人寫的雙行小字注解文字，標為：<note resp="hand2" rendition="#inline-para">Ｘ<lb/>Ｘ</note>（Ｘ代表注解內容，<lb/>代表換行點）。
　　３、後人寫在右邊注解文字，標為：<note resp="hand2" rendition="#inline-right">Ｘ</note>（Ｘ代表注解內容）。
　　４、編碼者的說明（會公開顯示），標為：<note>Ｘ</note>（Ｘ代表注解內容）。
　　５、編碼者給自己看的提示（不會公開顯示），標為：。
　　６、《敦煌變校注》的錨點（目前顯示為□）：<anchor type="dh-bw-jiaozhu" n="Ｘ"/>（Ｘ代表原書注解序號）。

空格的標記

凡是文獻末尾的空格不予以標記。

　　１、韻文的空格：在散文描述中，插入一段偈語或詩歌時，往往換行縮排，並在句與句之間空若干字，此時在空下的位置標記<space type="verseSpacing" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　２、段落的空格：在另起一段，或徵引文獻時，行首會空下若干字，此時在空下的位置標記<space type="punctuation" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　３、挪抬的空格：在行文中，有為表示敬意而空一字者，此時在空下的位置標記<space type="honorific" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　４、無意義的空格：有在標題上空下數字，或在行文中有不該有空字而空者，此時在空下的位置標記<space type="simpleSpace" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。

參、標記語言範例表

關於標記語言的規範與實例，請參見：媒體:編碼語言範例(修訂版).pdf。

肆、標記原則

基本原則一：不論原文使用何種字體（楷書、行書、草書等），皆迻錄為楷書（楷化）。
基本原則二：沒有特殊標記之字即標準字，此所謂標準字指的是2015年前後時期教育部異體字字典所定正字。

依照寫卷字形情況分成下面幾類標記規則：
　　一、標準字
　　　　１、字形筆畫與教育部異體字典所定正字完全相同者，即直書其字型而不作任何標記。
　　　　２、字形與標準字大致相同，但筆畫因書寫習慣而有細部不同時，亦直書其字型而不作任何標記。
　　　　３、當字形可辨識為某字，但細部筆畫不易辨識時，即標示為<unclear>標準字</unclear>。
　　二、異體字（包含通同字）
　　　　１、當字形筆畫與標準字有結構性的不同，而此不同並非因為書寫習慣造成時，判定為異體字。
　　　　２、萬國碼（Unicode）有收錄者，按原字型迻錄（此類將由freecommandXE程式轉成< orig >，顯示在原文抄本時為原字型，在標準字體化則呈現為藍色標準字）。
　　　　３、萬國碼（Unicode）無收錄，而教育部異體字典有收錄，能夠以所對應的正字表達出來，教育部異體字字典對該字的編號會記錄在<g>@ref標記中，如：<orig reg="那"><g ref="#A04204-023"/></orig>。
　　　　４、萬國碼（Unicode）與教育部異體字典皆無收錄，但字形結構上能夠分辨者：
　　　　　　１）字形與教育部異體字典收錄之字雖不完全相同，但差異不大者，標為：<orig reg="那"><g ref="#A04204-023"/></orig>。
　　　　　　２）字形與教育部異體字典有明顯不同者，<g>@ref標記編號為該字的卷次、行次、字次，如：<orig reg="福"><g ref="#S-2113-036-09"/></orig>（S-2113為卷次，036為行次，09為字次）。
　　　　５、古今通同字：兩者字形不同，但為古今字或有通用的情形，標例同異體字：如：紅旗初<orig reg="震">辰</orig><note>《說文》段注云：辰，震也。震振古通用，此亦可作振。</note>。
　　三、錯字（包含同音通假、形近而誤）
　　　　１、當字形筆畫與標準字有結構性的不同，且確定其與音義標準字也不同，判定為錯字。一般錯字標為：<choice><sic>錯字</sic><corr>標準字</corr></choice>，其後加<note>判定錯誤的依據</note>
　　　　２、形近而誤：因此字形相近而產生錯誤，如：雹子空中自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分，此處客當作容，而容通溶。</note>。
　　　　３、同音通假：因字音相近而產錯誤，如：恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice><note>見蘇遠鳴：〈敦煌石窟中的瑞像圖〉。</note>。

伍、所見異體字表

關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理，詳見所見異體字表。
關於＂所見異體字表＂裡的一些規範：

　一、EUC：是Unicode未收，但全字庫字碼有的字型。
　二、Unicode已收之字，教育部異體字典必定有收，因此不附異體字典字碼。
　三、本專案在標記異體字的順序為：
　　１、萬國碼（Unicode）已收之字，不附異體字典碼；
　　２、萬國碼（Unicode）未收，但EUC有的字碼，採用EUC字碼，而不用異體字典字碼；
　　３、萬國碼（Unicode）已收之字，但電腦字型打不出來，則採用異體字典字碼；
　　４、萬國碼（Unicode）未收，則採用異體字典字碼；
　　５、萬國碼（Unicode）與異體字典皆未收，則採用專案自訂字碼（通常是字圖的位置）。
　四、在備註欄標註＂同F252-049-07＂，＂F252-049-07＂為Unicode與教育部異體字典皆未收，表示此字型在標記時，因其字型與此字碼相同，因此標為同一字。
　五、拼音欄皆依照台灣常用注音為準（某些字的讀音有破音字，或其聲調在大陸與台灣有別）。

陸、完成寫卷

第一階段

時間：2015-07-06~2017-03-31
工作內容：進行敦煌佛教寫本之數位化標記寫卷七種，總計十四卷：

諸佛瑞像記S.5659、S.2113
破魔變P.2187、S.3491
難陀出家經起P.2324
佛說楞伽經禪門悉談章P.2204、P.2212
太子成道經P.2999、S.2682、S.4626
維摩詰經講經文F.101、F.252
菩提達摩南宗定是非論P.2045、P3488

第二階段

時間：2017-04-01至2017-12-31
工作內容：進行破魔變P.2187、S.3491之中英對照校注出版，可參見中古佛教寫寫卷資料庫出版專案。

第三階段

時間：2018-01-01至2018-12-31
工作內容：進行敦煌佛教寫本之數位化標記寫卷有十二種，總計十六卷：

南宗定邪正五更轉Db.77、BD.8325、S.2679
五更轉南宗贊S.4173、S.4654
菩提達摩南宗定是非論Dunbo77
南陽和尚頓教解脫禪門直了性壇語Db.77、P.2045
淨覺註般若波羅蜜多心經S.4556
興山寺禪師沙門定慧詩朁S.5809
第七祖大照和尚寂滅日齋贊文S.2512
大晉敦煌郡張和尚寫真贊P.3792
前河西僧統翟和尚邈真贊P.4660
晉敦煌郡張和尚寫真贊P.3792
悉達太子修道因緣R.48
妙法蓮華經講經文P.2305

柒、標記工作的心得與問題討論

異體字與通同字並不等同，是否該分同一類？
通假字是否該視為錯字？
專案新增之異體字，亦可能是錯字，或需考證？或需更多證據？證據數量的標準？
異體字書寫筆畫之判讀，如：辵字旁寫作辶，或作人字型；水字旁寫作兩點，或作一直豎；戈字旁的點畫或在橫筆之下，或與撇筆相連；艹字旁或相連，或不相連，這些筆畫是否該分清楚？
"所遇異體字表"在增至兩百頁左右，因圖檔太多，Word檔容易產遲緩反應，或許可改用另一種方式制作表，目前資料庫數量太大，不宜重新制做，以待後人。
使用"教育部異體字典"時，發現字典收錄的字有若干問題，待資料增多之後，可一併討論。
塗改字佔一個字位還是兩個字位？（塗毀一個字位＋插入一個字位）

匿名

搜尋

中古佛教寫本資料庫工作手冊

命名空間

更多

頁面操作

目次

壹、工作流程說明

貳、編碼語言使用說明

異體字（包含通同字）的標記

錯字（包含假借字）的標記

特殊符號的標記

字形模糊不清、損毀、塗改的標記

刪除字的標記

插入字的標記

標點符號的標記

注解的標記

空格的標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

陸、完成寫卷

第一階段

第二階段

第三階段

柒、標記工作的心得與問題討論

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

中古佛教寫本資料庫工作手冊

壹、工作流程說明

貳、編碼語言使用說明

異體字（包含通同字）的標記

錯字（包含假借字）的標記

特殊符號的標記

字形模糊不清、損毀、塗改的標記

刪除字的標記

插入字的標記

標點符號的標記

注解的標記

空格的標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

陸、完成寫卷

第一階段

第二階段

第三階段

柒、標記工作的心得與問題討論

導覽

wiki工具

頁面工具