於 2018年10月17日 (三) 10:33 的修訂

中古佛教寫本資料庫編碼工作手冊
The Database on Medieval Chinese Dūnhuáng Texts
Date: 2015-07-06 Author:林靜慧（Lin Ching-hui）

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲（Hung Jen-jou）、安東平（Christoph Anderl）主持，馬德偉（Marcus Bingenheimer, Temple University）、張伯雍（Zhang Boyong）擔任顧問。（馬德偉與張伯雍另有類似專案可參見敦煌漢文佛教寫卷點校本專案）

中古佛教寫卷資料庫編碼計畫，目前進行三個階段，總計完成寫卷三十卷。

工作圖例一：S-3491.png寫卷影像

工作圖例二：S-3491TEI.png標記

工作圖例三：S-3491TEXT.png的數位版本

壹、工作流程說明

一、下載所需敦煌寫卷影像檔（如至國際敦煌項目），並在PDF檔上標好行號。
二、搜尋寫卷內容是否有文字檔，若有文字檔則下載；若沒有則將影像檔初步打成文字檔。
三、細部分辨寫卷字形，用Notepad＋＋或oxygen開啟寫卷文字檔（xml檔），在文字檔的基礎上，開始加上標記語言。工作時需注意下例幾點：
　　１、注意標記語言的使用（參見「#參、標記語言範例表」）。
　　２、遇到萬國碼（Unicode）已收錄的異體字，需同時維護異體字庫（參見檔案「00-variant-table-Ms-Project」），並注意程式只能判斷一組正字與異體字的關係，所以如果該異體字另兼正字，那麼就不能列入該檔中，需用人工輸入標記：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），以免因程式無法分辦而造成混亂。
　　３、遇到萬國碼（Unicode）沒收錄的異體字，需到教育部異體字字典找出對應字與下載字圖，存入異體字圖庫（參見檔案「gaiji」）；若是異體字典沒有對應的字，先標明缺字並記錄該字的卷次行次字次，稍後需要造字。（如果將來出版實體書，這些Unicode沒有的異體字圖檔皆需造字，將圖檔改成文字。）
　　４、遇到萬國碼（Unicode）、教育部異體字典未收錄，而全字庫中有造字的異體字，到檔案「png_24x24」搜尋字碼，存到「gaiji\png」中，因字檔前面不能是數字，所以在原檔名前加上大寫的Ｑ。
　　５、標明資料來源。
四、完成標記後，用oxygen轉成原抄本檔與標準字檔，初步檢查是否有誤。
五、使用freecommandXE軟體叫出encoding-desc.rb程式，用Oxygen中的Tools/Compare Files將轉好的00-encodingDesc檔案合併，異體字庫中的缺字（專案新增異體字）才能顯示在html的頁面上。
六、最後使用freecommandXE軟體叫出char-reg.rb程式，將異體字庫中的異體字轉成<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），用Oxygen中的Tools/Compare Files將轉好的標記xml檔案合併，最後再檢查是否有誤。

附加說明：

所使用的標記規範為 TEI P5。
最好安裝 Unicode Super-CJK Fonts v6.0。

貳、編碼語言使用說明

異體字（包含通同字）的標記

　　１、在標明異體字或通同字時使用，標為：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字）。
　　２、當Ｙ為萬國碼（Unicode）所沒有的字時，則代換成<g ref="#Ｚ"/>（Ｚ代表教育部異體字典中的字碼或缺字所在的卷次行次字次）。
　　３、檔案「00-variant-table-Ms-Project」收錄的異體字，freecommandXE程式會自動轉成<orig reg="Ｘ">Ｙ</orig>的標記並出現type（Unicode常用罕用字分類），但是若在<orig reg="Ｘ">中放進「00-variant-table-Ms-Project」收錄的異體字，卻會被程式自動略過，字形不會產生變動，因此若遇到一字兼兩種正字的異體時，要選擇其中一種收入「00-variant-table-Ms-Project」，另外一種則採用人工輸入，如仏字同時是佛與似的異體字，「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體，程式只會自動將仏轉成佛，那麼遇到似的異體時，便要標為：<orig reg="似">仏</orig>。
　　４、所謂通同字，意指兩字有時有通用的情形，又各自另兼正字，如：鍾鐘為通同字，但其各有本義，鍾為酒器，鐘為樂器，在「二口金鍾」此文之鍾字作樂器解時，其本字當為鐘，此時編碼作<orig reg="鐘">鍾</orig>；又如：「有願尅從」，剋與尅為同音同義的通同字，克與剋為通同字，此文尅當作「能夠」解，克與尅都有「能夠」之意，而此尅依據教育部異體字典考定：因與正字剋形體相近而成為常用之俗寫異體字，此時編碼作<orig reg="剋">尅</orig>。
　　５、或有因字形相近，導致書寫習慣將兩字通用者，如：无（無的異體）與元，師與帥，客與容，雨與兩，此雖有通用的事實，但為書寫筆畫的習慣，而非意義有相通處，因此被歸入形近而誤的錯字，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原文字形，Ｂ代表編碼者修定的標準字）。
　　

錯字（包含假借字）的標記

　　１、一般錯字：在標明字形書寫錯誤時使用，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原寫本的字形，Ｂ代表編碼者修定的標準字，當Ａ為Unicode所沒有的字時，則代換成<orig reg="Ｘ">Ｙ</orig>），若有他本可以作為校勘證據，便用<note>說明出處（出處可使用簡稱，並在凡例中將完整出處說明）。除了單字對應的錯字之外，還有一字誤為兩者：
　　　１）一字誤拆為二字者，如：S-3491有臭的異體字臰被誤拆成自㤪二字，則標成：<choice><sic>自㤪</sic><corr>臰</corr></choice>。
　　　２）一字誤拆為二字，並換行者，則加入<lb/>，如：S-3491有尖被誤拆成五人二字，其中人字換行書寫，則標成：<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。
　　２、同音通假（假借字）視為因音同或音近而造成的錯字，如:S-2113「吝此明珠如姓明」，姓明二字語義不通，當為性命之同音假借的錯字，此時標為：<choice><sic>姓明</sic><corr>性命</corr></choice>。
　　３、形近而誤的錯字，如：S-3491「跂覢電作朱旗」，跂乃形近跛而誤，而跛與披音近通假，有另一版本P-2187降魔變押座文與本卷之語為證，故標為：<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語，故知跂為跛之誤，且跂覢二字P-2187作披閃，蓋跛假作披。</note>。

特殊符號的標記

　　１、以萬國碼「雁點」（レ点 U+3191）與乙字為倒乙符號（參見：媒體:敦煌古代的標點符號.pdf、維基百科：訓読），在標明文字倒乙時使用，標為：<orig reg="ＡＢ">Ｂ<add place="inline-right">㆑</add>Ａ</orig>或<orig reg="ＡＢ">Ｂ<add place="inline-right">乙</add>Ａ</orig>。
　　　　１）倒乙字若是萬國碼（Unicode）已收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）倒乙字若是萬國碼（Unicode）未收錄的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）<orig reg="ＡＢ">中的Ａ、Ｂ字體須為標準字，Ｂ<add place="inline-right">㆑</add>Ａ此處的Ａ、Ｂ則可放入異體字。
　　２、以萬國碼「疊字符號」（踊り字 U+303B）為重文符號，在標明省書重文時使用，如：<choice>Ａ〻<expan>ＡＡ</expan></choice>或<choice>Ａ〻Ｂ〻<expan>ＡＢＡＢ</expan></choice>（所有的 <expan> 標記中已視為「正規化」，故不再有如 <unclear> 等標記）。
　　　　１）重文字若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）重文字若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）省書符號前有行號時的標法：只標省書符號。
　　３、另有一種省書方式沒有特殊符號的標示，而是對常用字形直接減筆書寫，如𦬇為菩薩的省書符號，此時則標為：<choice>卄卄<expan>菩薩</expan></choice>。
　　　　１）包含的字形若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）包含的字形若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）<expan>只在表示的縮寫還原時使用， <expan> 標記中已視為「正規化」，故不再有如 <reg>或<unclear> 等標記。
　　

字形模糊不清、損毀、塗改的標記

　　１、<unclear>：當文字墨色模糊（如：退色或磨損）或文字筆畫不清（如：行書、草書）難以判斷，需依賴上下文才能判讀時使用；若需要其他文獻校勘才能判讀時，便加上<note>說明文獻出處。
　　　　１）若是遇到文字模糊不清無法確切辨識清楚時使用（原有的<reg>標號不用），標成：<unclear>Ａ</unclear>（Ａ代表該字）；若是雖然字形不甚清晰，但仍有50%以上的把握能判斷該字，則直其書其字。
　　　　２）若是異體字的字形不清楚，亦直接以<unclear>包覆標準字，不再使用<orig reg="Ｘ">或<choice>。
　　　　３）若是因行書、草書的寫法導致筆畫不清，則不管字跡是否模糊，皆使以<unclear>包覆標準字。
　　２、<damage>：當文字損毀時使用。
　　　　１）文字略有損毀，尚可辨識時使用，標成：<damage>Ａ</damage>（Ａ代表損毀字）。
　　　　２）若因破損而無法辨識，則標成：<damage unit="char" extent="Ｘ"/>（Ｘ代表損毀的字數）。
　　　　３）損毀嚴重，需參酌他本，理校出正字，則標成：<choice><unclear><damage unit="char" extent="1"/></unclear><reg>Ａ</reg></choice>（Ａ代表編碼者理校出的正字）。（<unit="chars"> 是早期的標記，現在統一作 unit="char"）
　　３、<gap>：文字並非損毀，或因塗改或其他原因，使得完全無法分辨字形時使用，標成：<gap unit="char" extent="1"/>。

刪除字的標記

　　１、當某字被刪去時，標為：<del>Ａ</del>（Ａ代表被刪去的字）；若Ａ為異體字，則代入<orig reg="Ｘ">Ｙ</orig>。
　　２、同一行中，先刪去某字，隨後寫上正確的字時，標為：<del>Ａ</del>À（Ａ代表原本寫錯的字，À代表改正後的字）。
　　３、當某字被刪去後，又在其右邊加上改正的字時，標為：<subst><del>Ａ</del><add place="inline-right">À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　４、當某字被塗毀時，導致無法辨別字體時，標為：。
　　５、當在錯字上添加筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　６、寫卷表示刪除字，除了直接劃掉、塗改筆畫，還有在被刪字的右邊標上卜字或是頓點等符號，詳細例證可參見媒體:敦煌古代的標點符號.pdf，在此並不特別標出符號形式，統一採用<del>標記。

插入字的標記

　　１、在字的右邊插入文字時，標為：<add place="inline-right">Ａ</add>（Ａ代表被插入的字）。
　　２、在筆劃不清的字右邊插入文字時，標為：<subst><add place="inline-right">Ａ</add></subst>。
　　３、在錯字上添加筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　４、當被刪去的某字被塗毀而無法辨識，又在右邊加入改正字時，標為：<subst><gap unit="char" extent="1"/><add place="inline-right">Ａ</add></subst>（Ａ代表被插入的字）。
　　５、當被刪改的錯字被標記者判定為誤時，在<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>（Ａ代表原文字形，Ｂ代表編碼者修訂的字）後加上<note>作說明。

標點符號的標記

　　１、一般標點標為：<pc>Ｘ</pc>（Ｘ代表編碼者插入的中式全型標點符號，只會在標準字體化的版本顯示）。
　　２、當標點剛好落在重文符號中間時，如：以手遮<choice>日〻<expan>日日</expan></choice>光所下之䖏，兩個日中間當斷句時，可標為：<expan>日<pc>，</pc>日</expan>，或是日<pc>，</pc><choice>〻<expan>日</expan></choice>。

注解的標記

１、小字雙行夾注，標為：<hi rendition="#inline-para">Ｘ<lb/>Ｘ</hi>（Ｘ代表注解內容，<lb/>代表換行點）。
　　２、後人寫的雙行小字注解文字，標為：<note resp="hand2" rendition="#inline-para">Ｘ<lb/>Ｘ</note>（Ｘ代表注解內容，<lb/>代表換行點）。
　　３、後人寫在右邊注解文字，標為：<note resp="hand2" rendition="#inline-right">Ｘ</note>（Ｘ代表注解內容）。
　　４、編碼者的說明（會公開顯示），標為：<note>Ｘ</note>（Ｘ代表注解內容）。
　　５、編碼者給自己看的提示（不會公開顯示），標為：。
　　６、《敦煌變校注》的錨點（目前顯示為□）：<anchor type="dh-bw-jiaozhu" n="Ｘ"/>（Ｘ代表原書注解序號）。

空格的標記

凡是文獻末尾的空格不予以標記。

　　１、韻文的空格：在散文描述中，插入一段偈語或詩歌時，往往換行縮排，並在句與句之間空若干字，此時在空下的位置標記<space type="verseSpacing" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　２、段落的空格：在另起一段，或徵引文獻時，行首會空下若干字，此時在空下的位置標記<space type="punctuation" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　３、挪抬的空格：在行文中，有為表示敬意而空一字者，此時在空下的位置標記<space type="honorific" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　４、無意義的空格：有在標題上空下數字，或在行文中有不該有空字而空者，此時在空下的位置標記<space type="simpleSpace" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。

參、標記語言範例表

關於標記語言的規範與實例，請參見：媒體:編碼語言範例(修訂版).pdf。

肆、標記原則

基本原則一：不論原文使用何種字體（楷書、行書、草書等），皆迻錄為楷書（楷化）。
基本原則二：沒有特殊標記之字即標準字，此所謂標準字指的是2015年前後時期教育部異體字字典所定正字。

依照寫卷字形情況分成下面幾類標記規則：
　　一、標準字
　　　　１、字形筆畫與教育部異體字典所定正字完全相同者，即直書其字型而不作任何標記。
　　　　２、字形與標準字大致相同，但筆畫因書寫習慣而有細部不同時，亦直書其字型而不作任何標記。
　　　　３、當字形可辨識為某字，但細部筆畫不易辨識時，即標示為<unclear>標準字</unclear>。
　　二、異體字（包含通同字）
　　　　１、當字形筆畫與標準字有結構性的不同，而此不同並非因為書寫習慣造成時，判定為異體字。
　　　　２、萬國碼（Unicode）有收錄者，按原字型迻錄（此類將由freecommandXE程式轉成< orig >，顯示在原文抄本時為原字型，在標準字體化則呈現為藍色標準字）。
　　　　３、萬國碼（Unicode）無收錄，而教育部異體字典有收錄，能夠以所對應的正字表達出來，教育部異體字字典對該字的編號會記錄在<g>@ref標記中，如：<orig reg="那"><g ref="#A04204-023"/></orig>。
　　　　４、萬國碼（Unicode）與教育部異體字典皆無收錄，但字形結構上能夠分辨者：
　　　　　　１）字形與教育部異體字典收錄之字雖不完全相同，但差異不大者，標為：<orig reg="那"><g ref="#A04204-023"/></orig>。
　　　　　　２）字形與教育部異體字典有明顯不同者，<g>@ref標記編號為該字的卷次、行次、字次，如：<orig reg="福"><g ref="#S-2113-036-09"/></orig>（S-2113為卷次，036為行次，09為字次）。
　　　　５、古今通同字：兩者字形不同，但為古今字或有通用的情形，標例同異體字：如：紅旗初<orig reg="震">辰</orig><note>《說文》段注云：辰，震也。震振古通用，此亦可作振。</note>。
　　三、錯字（包含同音通假、形近而誤）
　　　　１、當字形筆畫與標準字有結構性的不同，且確定其與音義標準字也不同，判定為錯字。一般錯字標為：<choice><sic>錯字</sic><corr>標準字</corr></choice>，其後加<note>判定錯誤的依據</note>
　　　　２、形近而誤：因此字形相近而產生錯誤，如：雹子空中自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分，此處客當作容，而容通溶。</note>。
　　　　３、同音通假：因字音相近而產錯誤，如：恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice><note>見蘇遠鳴：〈敦煌石窟中的瑞像圖〉。</note>。

伍、所見異體字表

關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理，詳見所見異體字表。
關於＂所見異體字表＂裡的一些規範：

　一、EUC：是Unicode未收，但全字庫字碼有的字型。
　二、Unicode已收之字，教育部異體字典必定有收，因此不附異體字典字碼。
　三、本專案在標記異體字的順序為：
　　１、萬國碼（Unicode）已收之字，不附異體字典碼；
　　２、萬國碼（Unicode）未收，但EUC有的字碼，採用EUC字碼，而不用異體字典字碼；
　　３、萬國碼（Unicode）已收之字，但電腦字型打不出來，則採用異體字典字碼；
　　４、萬國碼（Unicode）未收，則採用異體字典字碼；
　　５、萬國碼（Unicode）與異體字典皆未收，則採用專案自訂字碼（通常是字圖的位置）。
　四、在備註欄標註＂同F252-049-07＂，＂F252-049-07＂為Unicode與教育部異體字典皆未收，表示此字型在標記時，因其字型與此字碼相同，因此標為同一字。
　五、拼音欄皆依照台灣常用注音為準（某些字的讀音有破音字，或其聲調在大陸與台灣有別）。

陸、完成寫卷

第一階段

時間：2015-07-06至2017-03-31
工作內容：進行敦煌佛教寫本之數位化標記寫卷七種，總計十四卷：
諸佛瑞像記S.5659、S.2113
破魔變P.2187、S.3491
難陀出家經起P.2324
佛說楞伽經禪門悉談章P.2204、P.2212
太子成道經P.2999、S.2682、S.4626
維摩詰經講經文F.101、F.252
菩提達摩南宗定是非論P.2045、P3488

第二階段

時間：2017-04-01至2017-12-31
工作內容：進行破魔變P.2187、S.3491之中英對照校注出版，可參見中古佛教寫寫卷資料庫出版專案。

第三階段

時間：2018-01-01至2018-12-31
工作內容：進行敦煌佛教寫本之數位化標記寫卷有十二種，總計十六卷：
南宗定邪正五更轉Db.77、BD.8325、S.2679
五更轉南宗贊S.4173、S.4654
菩提達摩南宗定是非論Dunbo77
南陽和尚頓教解脫禪門直了性壇語Db.77、P.2045
凈覺註般若波羅蜜多心經S.4556
興山寺禪師沙門定慧詩朁S.5809
第七祖大照和尚寂滅日齋贊文S.2512
大晉敦煌郡張和尚寫真贊P.3792
前河西僧統翟和尚邈真贊P.4660
晉敦煌郡張和尚寫真贊P.3792
悉達太子修道因緣R.48
妙法蓮華經講經文P.2305

柒、標記工作的心得與問題討論

異體字與通同字並不等同，是否該分同一類？
通假字是否該視為錯字？
專案新增之異體字，亦可能是錯字，或需考證？或需更多證據？證據數量的標準？
異體字書寫筆畫之判讀，如：辵字旁寫作辶，或作人字型；水字旁寫作兩點，或作一直豎；戈字旁的點畫或在橫筆之下，或與撇筆相連；艹字旁或相連，或不相連，這些筆畫是否該分清楚？
"所遇異體字表"在增至兩百頁左右，因圖檔太多，Word檔容易產遲緩反應，或許可改用另一種方式制作表，目前資料庫數量太大，不宜重新制做，以待後人。
使用"教育部異體字典"時，發現字典收錄的字有若干問題，待資料增多之後，可一併討論。
塗改字佔一個字位還是兩個字位？（塗毀一個字位＋插入一個字位）

@@ 行 171： / 行 171： @@
  悉達太子修道因緣R.48<br/>
  妙法蓮華經講經文P.2305<br/>
-<br/>
 =柒、標記工作的心得與問題討論=

匿名

搜尋

「中古佛教寫本資料庫工作手冊」：修訂間差異

命名空間

更多

頁面操作

於 2018年10月17日 (三) 10:33 的修訂

目次

壹、工作流程說明

貳、編碼語言使用說明

異體字（包含通同字）的標記

錯字（包含假借字）的標記

特殊符號的標記

字形模糊不清、損毀、塗改的標記

刪除字的標記

插入字的標記

標點符號的標記

注解的標記

空格的標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

陸、完成寫卷

第一階段

第二階段

第三階段

柒、標記工作的心得與問題討論

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

「中古佛教寫本資料庫工作手冊」：修訂間差異

於 2018年10月17日 (三) 10:33 的修訂

壹、工作流程說明

貳、編碼語言使用說明

異體字（包含通同字）的標記

錯字（包含假借字）的標記

特殊符號的標記

字形模糊不清、損毀、塗改的標記

刪除字的標記

插入字的標記

標點符號的標記

注解的標記

空格的標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

陸、完成寫卷

第一階段

第二階段

第三階段

柒、標記工作的心得與問題討論

導覽

wiki工具

頁面工具