於 2021年12月1日 (三) 15:06 的最新修訂

中古佛教寫本資料庫編碼工作手冊
The Database of Medieval Buddhist Texts（DMBT）
Date: 2015-07-06 Author:林靜慧（Lin Ching-hui）

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲（Hung Jen-jou）、安東平（Christoph Anderl）主持，馬德偉（Marcus Bingenheimer, Temple University）、張伯雍（Zhang Boyong）擔任顧問。（馬德偉與張伯雍另有類似專案可參見敦煌漢文佛教寫卷點校本專案）

本專案目前進行四個階段，總計完成敦煌寫本五十卷。

工作圖例一：S-3491.png寫卷影像

工作圖例二：S-3491TEI.png標記

工作圖例三：S-3491TEXT.png的數位版本

壹、工作流程說明

一、下載所需敦煌寫卷影像檔（如至國際敦煌項目），並在PDF檔上標好行號。
二、搜尋寫卷內容是否有文字檔，若有文字檔則下載；若沒有則將影像檔初步打成文字檔。
三、細部分辨寫卷字形，用Notepad＋＋或oxygen開啟寫卷文字檔（xml檔），在文字檔的基礎上，開始加上標記語言。工作時需注意下例幾點：
　　１、注意標記語言的使用（參見「#參、標記語言範例表」）。
　　２、遇到萬國碼（Unicode）已收錄的異體字，需同時維護異體字庫（參見檔案「00-variant-table-Ms-Project」），並注意程式只能判斷一組正字與異體字的關係，所以如果該異體字另兼正字，那麼就不能列入該檔中，需用人工輸入標記：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），以免因程式無法分辦而造成混亂。
　　３、遇到萬國碼（Unicode）沒收錄的異體字，需到教育部異體字字典找出對應字與下載字圖，存入異體字圖庫（參見檔案「gaiji」）；若是異體字典沒有對應的字，先標明缺字並記錄該字的卷次行次字次，稍後需要造字。（如果將來出版實體書，這些Unicode沒有的異體字圖檔皆需造字，將圖檔改成文字。）
　　４、遇到萬國碼（Unicode）、教育部異體字典未收錄，而全字庫中有造字的異體字，到檔案「png_24x24」搜尋字碼，存到「gaiji\png」中，因字檔前面不能是數字，所以在原檔名前加上大寫的Ｑ。
　　５、標明資料來源。
四、完成標記後，用oxygen轉成原抄本檔與標準字檔，初步檢查是否有誤。
五、使用freecommandXE軟體叫出encoding-desc.rb程式，用Oxygen中的Tools/Compare Files將轉好的00-encodingDesc檔案合併，異體字庫中的缺字（專案新增異體字）才能顯示在html的頁面上。
六、最後使用freecommandXE軟體叫出char-reg.rb程式，將異體字庫中的異體字轉成<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），用Oxygen中的Tools/Compare Files將轉好的標記xml檔案合併，最後再檢查是否有誤。

附加說明：

所使用的標記規範為 TEI P5。
最好安裝 Unicode Super-CJK Fonts v6.0。

貳、編碼語言使用說明

異體字（包含通同字）的標記

　　１、在標明異體字或通同字時使用，標為：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字）。
　　２、當Ｙ為萬國碼（Unicode）所沒有的字時，則代換成<g ref="#Ｚ"/>（Ｚ代表教育部異體字典中的字碼或缺字所在的卷次行次字次）。
　　３、檔案「00-variant-table-Ms-Project」收錄的異體字，freecommandXE程式會自動轉成<orig reg="Ｘ">Ｙ</orig>的標記並出現type（Unicode常用罕用字分類），但是若在<orig reg="Ｘ">中放進「00-variant-table-Ms-Project」收錄的異體字，卻會被程式自動略過，字形不會產生變動，因此若遇到一字兼兩種正字的異體時，要選擇其中一種收入「00-variant-table-Ms-Project」，另外一種則採用人工輸入，如仏字同時是佛與似的異體字，「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體，程式只會自動將仏轉成佛，那麼遇到似的異體時，便要標為：<orig reg="似">仏</orig>。
　　４、所謂通同字，意指兩字有時有通用的情形，又各自另兼正字，如：鍾鐘為通同字，但其各有本義，鍾為酒器，鐘為樂器，在「二口金鍾」此文之鍾字作樂器解時，其本字當為鐘，此時編碼作<orig reg="鐘">鍾</orig>；又如：「有願尅從」，剋與尅為同音同義的通同字，克與剋為通同字，此文尅當作「能夠」解，克與尅都有「能夠」之意，而此尅依據教育部異體字典考定：因與正字剋形體相近而成為常用之俗寫異體字，此時編碼作<orig reg="剋">尅</orig>。
　　５、或有因字形相近，導致書寫習慣將兩字通用者，如：无（無的異體）與元，師與帥，客與容，雨與兩，此雖有通用的事實，但為書寫筆畫的習慣，而非意義有相通處，因此被歸入形近而誤的錯字，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原文字形，Ｂ代表編碼者修定的標準字）。
　　

錯字（包含假借字）的標記

　　１、一般錯字：在標明字形書寫錯誤時使用，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原寫本的字形，Ｂ代表編碼者修定的標準字，當Ａ為Unicode所沒有的字時，則代換成<orig reg="Ｘ">Ｙ</orig>），若有他本可以作為校勘證據，便用<note>說明出處（出處可使用簡稱，並在凡例中將完整出處說明）。除了單字對應的錯字之外，還有一字誤為兩者：
　　　１）一字誤拆為二字者，如：S-3491有臭的異體字臰被誤拆成自㤪二字，則標成：<choice><sic>自㤪</sic><corr>臰</corr></choice>。
　　　２）一字誤拆為二字，並換行者，則加入<lb/>，如：S-3491有尖被誤拆成五人二字，其中人字換行書寫，則標成：<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。
　　２、同音通假（假借字）視為因音同或音近而造成的錯字，如:S-2113「吝此明珠如姓明」，姓明二字語義不通，當為性命之同音假借的錯字，此時標為：<choice><sic>姓明</sic><corr>性命</corr></choice>。
　　３、形近而誤的錯字，如：S-3491「跂覢電作朱旗」，跂乃形近跛而誤，而跛與披音近通假，有另一版本P-2187降魔變押座文與本卷之語為證，故標為：<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語，故知跂為跛之誤，且跂覢二字P-2187作披閃，蓋跛假作披。</note>。

特殊符號的標記

　　１、以萬國碼「雁點」（レ点 U+3191）與乙字為倒乙符號（參見：媒體:敦煌古代的標點符號.pdf、維基百科：訓読），在標明文字倒乙時使用，標為：<orig reg="ＡＢ">Ｂ<add place="inline-right">㆑</add>Ａ</orig>或<orig reg="ＡＢ">Ｂ<add place="inline-right">乙</add>Ａ</orig>。
　　　　１）倒乙字若是萬國碼（Unicode）已收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）倒乙字若是萬國碼（Unicode）未收錄的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）<orig reg="ＡＢ">中的Ａ、Ｂ字體須為標準字，Ｂ<add place="inline-right">㆑</add>Ａ此處的Ａ、Ｂ則可放入異體字。
　　２、以萬國碼「疊字符號」（踊り字 U+303B）為重文符號，在標明省書重文時使用，如：<choice>Ａ〻<expan>ＡＡ</expan></choice>或<choice>Ａ〻Ｂ〻<expan>ＡＢＡＢ</expan></choice>（所有的 <expan> 標記中已視為「正規化」，故不再有如 <unclear> 等標記）。
　　　　１）重文字若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）重文字若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）省書符號前有行號時的標法：只標省書符號。
　　３、另有一種省書方式沒有特殊符號的標示，而是對常用字形直接減筆書寫，如𦬇為菩薩的省書符號，此時則標為：<choice>卄卄<expan>菩薩</expan></choice>。
　　　　１）包含的字形若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）包含的字形若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）<expan>只在表示的縮寫還原時使用， <expan> 標記中已視為「正規化」，故不再有如 <reg>或<unclear> 等標記。
　　

字形模糊不清、損毀、塗改的標記

　　１、<unclear>：當文字墨色模糊（如：退色或磨損）或文字筆畫不清（如：行書、草書）難以判斷，需依賴上下文才能判讀時使用；若需要其他文獻校勘才能判讀時，便加上<note>說明文獻出處。
　　　　１）若是遇到文字模糊不清無法確切辨識清楚時使用（原有的<reg>標號不用），標成：<unclear>Ａ</unclear>（Ａ代表該字）；若是雖然字形不甚清晰，但仍有50%以上的把握能判斷該字，則直其書其字。
　　　　２）若是異體字的字形不清楚，亦直接以<unclear>包覆標準字，不再使用<orig reg="Ｘ">或<choice>。
　　　　３）若是因行書、草書的寫法導致筆畫不清，則不管字跡是否模糊，皆使以<unclear>包覆標準字。
　　２、<damage>：當文字損毀時使用。
　　　　１）文字略有損毀，尚可辨識時使用，標成：<damage>Ａ</damage>（Ａ代表損毀字）。
　　　　２）若因破損而無法辨識，則標成：<damage unit="char" extent="Ｘ"/>（Ｘ代表損毀的字數）。
　　　　３）損毀嚴重，需參酌他本，理校出正字，則標成：<choice><unclear><damage unit="char" extent="1"/></unclear><reg>Ａ</reg></choice>（Ａ代表編碼者理校出的正字）。（<unit="chars"> 是早期的標記，現在統一作 unit="char"）
　　３、<gap>：文字並非損毀，或因塗改或其他原因，使得完全無法分辨字形時使用，標成：<gap unit="char" extent="1"/>。

刪除字的標記

　　１、當某字被刪去時，標為：<del>Ａ</del>（Ａ代表被刪去的字）；若Ａ為異體字，則代入<orig reg="Ｘ">Ｙ</orig>。
　　２、同一行中，先刪去某字，隨後寫上正確的字時，標為：<del>Ａ</del>À（Ａ代表原本寫錯的字，À代表改正後的字）。
　　３、當某字被刪去後，又在其右邊加上改正的字時，標為：<subst><del>Ａ</del><add place="inline-right">À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　４、當某字被塗毀時，導致無法辨別字體時，標為：。
　　５、當在錯字上添加筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　６、寫卷表示刪除字，除了直接劃掉、塗改筆畫，還有在被刪字的右邊標上卜字或是頓點等符號，詳細例證可參見媒體:敦煌古代的標點符號.pdf，在此並不特別標出符號形式，統一採用<del>標記。

插入字的標記

　　１、在字的右邊插入文字時，標為：<add place="inline-right">Ａ</add>（Ａ代表被插入的字）。
　　２、在筆劃不清的字右邊插入文字時，標為：<subst><add place="inline-right">Ａ</add></subst>。
　　３、在錯字上添加筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　４、當被刪去的某字被塗毀而無法辨識，又在右邊加入改正字時，標為：<subst><gap unit="char" extent="1"/><add place="inline-right">Ａ</add></subst>（Ａ代表被插入的字）。
　　５、當被刪改的錯字被標記者判定為誤時，在<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>（Ａ代表原文字形，Ｂ代表編碼者修訂的字）後加上<note>作說明。

標點符號的標記

　　１、一般標點標為：<pc>Ｘ</pc>（Ｘ代表編碼者插入的中式全型標點符號，只會在標準字體化的版本顯示）。
　　２、當標點剛好落在重文符號中間時，如：以手遮<choice>日〻<expan>日日</expan></choice>光所下之䖏，兩個日中間當斷句時，可標為：<expan>日<pc>，</pc>日</expan>，或是日<pc>，</pc><choice>〻<expan>日</expan></choice>。

注解的標記

１、小字雙行夾注，標為：<hi rendition="#inline-para">Ｘ<lb/>Ｘ</hi>（Ｘ代表注解內容，<lb/>代表換行點）。
　　２、後人寫的雙行小字注解文字，標為：<note resp="hand2" rendition="#inline-para">Ｘ<lb/>Ｘ</note>（Ｘ代表注解內容，<lb/>代表換行點）。
　　３、後人寫在右邊注解文字，標為：<note resp="hand2" rendition="#inline-right">Ｘ</note>（Ｘ代表注解內容）。
　　４、編碼者的說明（會公開顯示），標為：<note>Ｘ</note>（Ｘ代表注解內容）。
　　５、編碼者給自己看的提示（不會公開顯示），標為：。
　　６、《敦煌變校注》的錨點（目前顯示為□）：<anchor type="dh-bw-jiaozhu" n="Ｘ"/>（Ｘ代表原書注解序號）。

空格的標記

凡是文獻末尾的空格不予以標記。

　　１、韻文的空格：在散文描述中，插入一段偈語或詩歌時，往往換行縮排，並在句與句之間空若干字，此時在空下的位置標記<space type="verseSpacing" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　２、段落的空格：在另起一段，或徵引文獻時，行首會空下若干字，此時在空下的位置標記<space type="punctuation" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　３、挪抬的空格：在行文中，有為表示敬意而空一字者，此時在空下的位置標記<space type="honorific" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　４、無意義的空格：有在標題上空下數字，或在行文中有不該有空字而空者，此時在空下的位置標記<space type="simpleSpace" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。

參、標記語言範例表

關於標記語言的規範與實例，請參見：媒體:編碼語言範例(修訂版).pdf。

肆、標記原則

基本原則一：不論原文使用何種字體（楷書、行書、草書等），皆迻錄為楷書（楷化）。
基本原則二：沒有特殊標記之字即標準字，此所謂標準字指的是2015年前後時期教育部異體字字典所定正字。

依照寫卷字形情況分成下面幾類標記規則：
　　一、標準字
　　　　１、字形筆畫與教育部異體字典所定正字完全相同者，即直書其字型而不作任何標記。
　　　　２、字形與標準字大致相同，但筆畫因書寫習慣而有細部不同時，亦直書其字型而不作任何標記。
　　　　３、當字形可辨識為某字，但細部筆畫不易辨識時，即標示為<unclear>標準字</unclear>。
　　二、異體字（包含通同字）
　　　　１、當字形筆畫與標準字有結構性的不同，而此不同並非因為書寫習慣造成時，判定為異體字。
　　　　２、萬國碼（Unicode）有收錄者，按原字型迻錄（此類將由freecommandXE程式轉成< orig >，顯示在原文抄本時為原字型，在標準字體化則呈現為藍色標準字）。
　　　　３、萬國碼（Unicode）無收錄，而教育部異體字典有收錄，能夠以所對應的正字表達出來，教育部異體字字典對該字的編號會記錄在<g>@ref標記中，如：<orig reg="那"><g ref="#A04204-023"/></orig>。
　　　　４、萬國碼（Unicode）與教育部異體字典皆無收錄，但字形結構上能夠分辨者：
　　　　　　１）字形與教育部異體字典收錄之字雖不完全相同，但差異不大者，標為：<orig reg="那"><g ref="#A04204-023"/></orig>。
　　　　　　２）字形與教育部異體字典有明顯不同者，<g>@ref標記編號為該字的卷次、行次、字次，如：<orig reg="福"><g ref="#S-2113-036-09"/></orig>（S-2113為卷次，036為行次，09為字次）。
　　　　５、古今通同字：兩者字形不同，但為古今字或有通用的情形，標例同異體字：如：紅旗初<orig reg="震">辰</orig><note>《說文》段注云：辰，震也。震振古通用，此亦可作振。</note>。
　　三、錯字（包含同音通假、形近而誤）
　　　　１、當字形筆畫與標準字有結構性的不同，且確定其與音義標準字也不同，判定為錯字。一般錯字標為：<choice><sic>錯字</sic><corr>標準字</corr></choice>，其後加<note>判定錯誤的依據</note>
　　　　２、形近而誤：因此字形相近而產生錯誤，如：雹子空中自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分，此處客當作容，而容通溶。</note>。
　　　　３、同音通假：因字音相近而產錯誤，如：恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice><note>見蘇遠鳴：〈敦煌石窟中的瑞像圖〉。</note>。

伍、所見異體字表

關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理，詳見所見異體字表。
關於＂所見異體字表＂裡的一些規範：

　一、EUC：是Unicode未收，但全字庫字碼有的字型。
　二、Unicode已收之字，教育部異體字典必定有收，因此不附異體字典字碼。
　三、本專案在標記異體字的順序為：
　　１、萬國碼（Unicode）已收之字，不附異體字典碼；
　　２、萬國碼（Unicode）未收，但EUC有的字碼，採用EUC字碼，而不用異體字典字碼；
　　３、萬國碼（Unicode）已收之字，但電腦字型打不出來，則採用異體字典字碼；
　　４、萬國碼（Unicode）未收，則採用異體字典字碼；
　　５、萬國碼（Unicode）與異體字典皆未收，則採用專案自訂字碼（通常是字圖的位置）。
　四、在備註欄標註＂同F252-049-07＂，＂F252-049-07＂為Unicode與教育部異體字典皆未收，表示此字型在標記時，因其字型與此字碼相同，因此標為同一字。
　五、拼音欄皆依照台灣常用注音為準（某些字的讀音有破音字，或其聲調在大陸與台灣有別）。

陸、完成寫卷

第一階段

時間：2015-07-06~2017-03-31
工作內容：進行敦煌佛教寫本之數位化標記寫卷七種，總計十四卷：

諸佛瑞像記　S.5659、S.2113
破魔變　P.2187、S.3491
難陀出家經起　P.2324
佛說楞伽經禪門悉談章　P.2204、P.2212
太子成道經　P.2999、S.2682、S.4626
維摩詰經講經文　F.101、F.252
菩提達摩南宗定是非論　P.2045、P3488

第二階段

時間：2017-04-01~2017-12-31
工作內容：進行破魔變P.2187、S.3491之中英對照校注出版，可參見中古佛教寫寫卷資料庫出版專案。

第三階段

時間：2018-01-01~2018-12-31
工作內容：進行敦煌佛教寫本之數位化標記寫卷有十二種，總計十六卷：

南宗定邪正五更轉　Db.77、BD.8325、S.2679
五更轉南宗贊　S.4173、S.4654
菩提達摩南宗定是非論　Dunbo77
南陽和尚頓教解脫禪門直了性壇語　Db.77、P.2045
淨覺註般若波羅蜜多心經　S.4556
興山寺禪師沙門定慧詩朁　S.5809
第七祖大照和尚寂滅日齋贊文　S.2512
大晉敦煌郡張和尚寫真贊　P.3792
前河西僧統翟和尚邈真贊　P.4660
晉敦煌郡張和尚寫真贊　P.3792
悉達太子修道因緣　R.48
妙法蓮華經講經文　P.2305

第四階段

時間：2019-01-01~2019-12-31
工作內容：

一、進行敦煌佛教寫本之數位化標記寫卷有十種，總計二十卷：

勸諸人一偈　S.3017、P.3409
稠禪師藥方療有漏　P.3664
稠禪師解虎讚　P.4597、P.3490
頓悟大乘正理訣　S.2672
達摩禪師論　P. 2039、BD.15054
澄心論　S.2669、S.3558
歡喜國王緣　P.3375v
大小乘廿二問本　上博42(39644)
證道歌　S.4037、S.6000、S.2165、P.2104、P.2105、P.3360
孟姜女變文　P.5019、P.5039

二、建立展示網頁：A DATABASE OF MEDIEVAL CHINESE TEXTS

第五階段

時間：2020-01-01~2020-12-31
工作內容：

一、進行敦煌佛教寫本之數位化標記寫卷，總計三種：

金剛峻經金剛頂一切如來甚妙秘密金剛界大三昧耶修行四十二重壇法經作用威法儀則大毗盧遮那金剛心地法門秘法戒壇法儀則　P.3913
醜女緣起　P.3048
四獸因緣　P.2187

二、寫卷年代表

第六階段

時間：2021-01-01~2021-12-31
工作內容：

一、進行敦煌佛教寫本之數位化標記寫卷，總計五種：

頓悟真宗金剛般若修行達彼岸法門要決 P.2799
大乘無生方便門 BD.03924
夜坐號 P.3664
李陵變文 BD.14666
張議潮變文 P.2962

二、寫卷序錄

三、論文——〈「中古佛教寫本資料庫編碼專案」簡介〉

四、線上專案成果發表會：文字游覽敦煌

柒、標記工作的心得與問題討論

異體字與通同字並不等同，是否該分同一類？
通假字是否該視為錯字？
專案新增之異體字，亦可能是錯字，或需考證？或需更多證據？證據數量的標準？
異體字書寫筆畫之判讀，如：辵字旁寫作辶，或作人字型；水字旁寫作兩點，或作一直豎；戈字旁的點畫或在橫筆之下，或與撇筆相連；艹字旁或相連，或不相連，這些筆畫是否該分清楚？
"所遇異體字表"在增至兩百頁左右，因圖檔太多，Word檔容易產遲緩反應，或許可改用另一種方式制作表，目前資料庫數量太大，不宜重新制做，以待後人。
使用"教育部異體字典"時，發現字典收錄的字有若干問題，待資料增多之後，可一併討論。
塗改字佔一個字位還是兩個字位？（塗毀一個字位＋插入一個字位）
寫卷有特別之書寫習慣者，應該將其字列入異體字嗎？例：P2305妙法蓮華經講經文：其字型凡有宀部首之字皆少右邊一勾；其字型凡有日部首之字皆將中間橫畫作豎畫；其字型凡有寸部首之字皆將一點作一豎畫。

匿名

搜尋

「中古佛教寫本資料庫工作手冊」：修訂間差異

命名空間

更多

頁面操作

於 2021年12月1日 (三) 15:06 的最新修訂

目次

壹、工作流程說明

貳、編碼語言使用說明

異體字（包含通同字）的標記

錯字（包含假借字）的標記

特殊符號的標記

字形模糊不清、損毀、塗改的標記

刪除字的標記

插入字的標記

標點符號的標記

注解的標記

空格的標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

陸、完成寫卷

第一階段

第二階段

第三階段

第四階段

第五階段

第六階段

柒、標記工作的心得與問題討論

導覽

導覽

wiki工具

wiki工具

@@ 行 1： / 行 1： @@
-'''中古佛教寫本資料庫工作手冊'''<br/>
+'''中古佛教寫本資料庫 編碼 工作手冊'''<br/>
-'''The Database on the Grammar of Medieval Chinese'''<br/>
+'''The Database of Medieval Buddhist Texts（DMBT）'''<br/>
-Date: 2015-7-01 Author:Lin Ching-hui 林靜慧
+Date: 2015-07-06 Author: 林靜慧（Lin Ching-hui ）
- 本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲（Hung Jen-jou）、安東平（Christoph Anderl）主持，馬德偉（Marcus Bingenheimer, Temple University）、張伯雍 （Zhang Boyong）擔任顧問。<br/>
+ 本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲（Hung Jen-jou）、安東平（Christoph Anderl）主持，馬德偉（Marcus Bingenheimer, Temple University）、張伯雍 （Zhang Boyong）擔任顧問。 （馬德偉與張伯雍另有類似專案可參見[http://wiki.dila.edu.tw/pages/敦煌漢文佛教寫卷點校本工作手冊 敦煌漢文佛教寫卷點校本專案]）<br/>
+<br/>
+本專案目前進行四個階段，總計完成敦煌寫本五十卷。<br/>
+<br/>
-=工作流程=
+[[圖片:S-3491寫卷影像.png|frame|工作圖例一：[[S-3491.png]]寫卷影像]][[圖片:S-3491的TEI標記.png|frame|工作圖例二：[[S-3491TEI.png]]標記]][[圖片:S-3491的數位版本.png|frame|工作圖例三：[[S-3491TEXT.png]]的數位版本]]
- 一、下載所需敦煌寫卷影像檔，並 在ＰＤＦ 檔上標好行號。<br/>
+= 壹、 工作流程 說明=
+ 一、下載所需敦煌寫卷影像檔 （如至[http://idp.nlc.gov.cn 國際敦煌項目]） ，並 在PDF 檔上標好行號。<br/>
  二、搜尋寫卷內容是否有文字檔，若有文字檔則下載；若沒有則將影像檔初步打成文字檔。<br/>
- 三、細部分辨寫卷字形， 用ＰＡ ＋＋ 或ＯＸＹＧＥＮ 開啟寫卷文字檔 （ＸＭＬ 檔），在文字檔的基礎上，開始加上標記語言。<br/>
+ 三、細部分辨寫卷字形， 用Notepad ＋＋ 或oxygen 開啟寫卷文字檔 （xml 檔），在文字檔的基礎上，開始加上標記語言。 工作時需 注意 下例幾點 ：<br/>
-　　 注意 事項 ：<br/>
+ 　　１ 、 注意標記語言的使用（參見「[[#參、 標記語言 範例 表]] 」） 。<br/>
- 　　１注意標記語言的使用（參見「標記語言 使用 表」）<br/>
+ 　　２ 、 遇 到萬國碼（Unicode）已收錄 的異體字，需同時維護異體字庫（參見檔案「00-variant-table-Ms-Project」），並注意程式只能判斷一組正字與異體字的關係，所以如果該異體字另兼正字，那麼就不能列入該檔中，需用人工輸入 標記：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字）， 以免因程式無法分辦而造成混亂。<br/>
- 　　２遇 到unicode有 的異體字，需同時維護異體字庫（參見檔案「00-variant-table-Ms-Project」），並注意程式只能判斷一組正字與異體字的關係，所以如果該異體字另兼正字，那麼就不能列入該檔中，需用人工輸入 ， 以免因程式無法分辦而造成混亂。<br/>
+ 　　３ 、 遇 到萬國碼（Unicode） 沒 收錄 的異體字，需到[http://dict2.variants.moe.edu.tw/variants/  教育部異體 字 字典] 找出對應字與下載字圖，存入異體字圖庫（參見檔案「gaiji」）；若是異體字典沒有對應的字，先標明缺字並記錄該字的卷 次 行 次 字 次 ，稍後需要造字。（如果將來出版實體書，這 些Unicode 沒有的異體字圖檔皆需造字，將圖檔改成文字。）<br/>
- 　　３遇 到unicode 沒 有 的異體字，需到 「 教育部異體字典 」 找出對應字與下載字圖，存入異體字圖庫（參見檔案「gaiji」）；若是異體字典沒有對應的字，先標明缺字並記錄該字的卷 號 行 號 字 號 ，稍後需要造字。（如果將來出版實體書，這 些unicode 沒有的異體字圖檔皆需造字，將圖檔改成文字。）<br/>
+  　　４、遇到萬國碼（Unicode） 、 教育部異體字典未收錄 ， 而全字庫中 有 造 字的異體字 ，到檔案「png_24x24」搜尋 字 碼，存到「gaiji\png」中 ， 因字檔前面不能 是 數字，所以在原檔名前加上大寫的Ｑ。<br/>
-  四 、 完成標記後 ， 用oxygen轉成原抄本檔與標準字檔，初步檢查是否 有 誤。。<br/>
+　　５、 標明資料來源。<br/>
-五、最後用freecommandXE程式將異體 字 庫中 的異體字 轉成<orig reg="X">（X代表教育部規範之正 字 ） ， 最後再檢查 是 否有誤。<br/>
+四、完成 標記 後，用oxygen轉成原抄本檔與標準字檔，初步檢查是否有誤。<br/>
-PS：注意 標明資料來源。<br/>
+五、 使 用freecommandXE軟體叫出encoding-desc.rb程式，用Oxygen中的Tools/Compare Files將轉好的00-encodingDesc檔案合併， 異體字 庫中的缺 字 （專案新增 異體字 ）才能顯示在html的頁面上。<br/>
-PS2:所使用的 標記 規範為 [http://www.tei-c.org/release/doc/tei-p5-doc/zh-TW/html/index.html TEI P5]<br/>
+六、最後使用freecommandXE軟體叫出char-reg.rb程式，將異體字庫中的異體字轉成<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教 育部規範之正字，Ｙ代表異體字） ，用Oxygen中的Tools/Compare Files將轉好 的 標記xml檔案合併 ， 最後再檢查是否有誤。<br/>
-=編碼語言 使 用說明=
+*附加說明 ：
-== 異體字 或通同 字 的情況==
+#所使用 的 標記規範為 [http://www.tei-c.org/release/doc/tei-p5-doc/zh-TW/html/index.html TEI P5]。<br/>
-　　在標明 異體字 或通同字時使用，標為：<orig reg="Ｘ">Ｙ</orig> （Ｘ代表教 育部規範之正字，Ｙ代表異體 字或通同 字） 。
+#最好安裝 Unicode Super-CJK Fonts v6.0。
-　　１、當Ｘ為unicode所沒有 的 字時 ， 則代換成<g ref="#Ｚ"/>： Ｚ代表教育部異體字典中 的 字碼或缺字的卷行字號。
-　　２、檔案「00-variant-table-Ms-Project」中的異體字，程式會自動轉成<orig reg="Ｘ">的 編碼 並出現type（unicode常用罕 用字 分類 ）， 但是若在<orig reg="Ｘ"> 中放進「00-variant-table-Ms-Project」 有的 異體 字， 程式會自動略過， 字 形不會產生變動，因此若遇到一 字 兼兩種正 字的異體 時，要選擇其中一種人工輸入 ， 如仏字同時 是 佛與似的異體字， 「00-variant-table-Ms-Project」 檔中已選擇仏作為佛 的異體，程式 只會 自動 將仏轉成佛 ， 那麼 遇到 似 的異體時， 便 要 標為：<orig reg="似">仏</orig>。
+= 貳、 編碼 語言使 用 說明=
-　　３、所謂通同字 ， 意指兩 字 有 時 有通用 的 情形，又各自另兼正 字， 如：鍾鐘 為 通同字 ， 但其各有本義 ， 鍾為酒器 ， 鐘 為 樂器，在「二口金鍾」此文之鍾字作樂器解時，其本字當為鐘，此時編碼作<orig reg="鐘"> 鍾</orig> ；又如：「有願尅從」 ， 剋與尅為同音同義 的 通同 字， 克與剋 為通同字， 此文尅當作「能夠」解 ， 克與尅都有 「 能夠 」之 意 ， 而此尅依據教育部 字 典考定 為 ：因與正字剋形體相近而成為常用之俗寫異體字 ，此時編碼作<orig reg=" 剋"> 尅</orig> 。
+==異體字（包含通同 字） 的標記==
-　　４、或 有 因 字 形相近 ， 導致書寫習慣將兩字 通同 者 ， 如：无（無的異體）與元 ， 師 與 帥，客與容，雨與兩 ，此 雖非通同 字 ，但有通 用 的事實 ， 故依通同字例 。
+　　１、在標明異體字或通同字時使用 ， 標為：<orig reg="Ｘ"> Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字）。<br/>
-==錯字或假借字的情況==
+　　２、當Ｙ為萬國碼（Unicode）所沒 有的字 時 ， 則代換成<g ref="#Ｚ"/>（Ｚ代表教育部異體 字 典中的 字 碼或缺字所在的卷次行次 字 次）。<br/>
- 　　 在標明錯 字 或同音通假時使 用， 標為 ：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>  （ Ａ代表錯字 ， Ｂ代表正確 的 標準字） ， 若有他本可以作 為 校勘證據 ， 便用<note>說明出 處 （出處可使用簡稱 ， 並在凡例中將完整出處說明）。
+　　３、檔案「00-variant-table-Ms-Project」收錄 的異體 字，freecommandXE程式會自動轉成<orig reg="Ｘ">Ｙ</orig>的標記並出現type（Unicode常用罕用字分類） ， 但 是 若在<orig reg="Ｘ">中放進 「00-variant-table-Ms-Project」 收錄 的異體 字 ， 卻會被 程式自動 略過 ， 字形不會產生變動，因此若 遇到 一字兼兩種正字 的異體時，要 選擇其中一種收入「00-variant-table-Ms-Project」，另外一種則採用人工輸入 ， 如仏 字 同 時 是佛與似 的 異體 字， 「00-variant-table-Ms-Project」檔中已選擇仏作 為 佛的異體 ， 程式只會自動將仏轉成佛 ， 那麼遇到似的異體時 ， 便要標 為 ：<orig reg="似">仏</orig> 。<br/>
-　　１、當Ａ為unicode所沒有的字時，則代換成<orig reg="Ｘ"> Ｙ</orig> 。
+　　４、所謂通同字 ， 意指兩字有時有通用 的 情形，又各自另兼正 字， 如：鍾鐘 為通同字， 但其各有本義，鍾為酒器，鐘為樂器 ， 在 「 二口金鍾 」 此文 之 鍾字作樂器解時 ， 其本 字 當 為 鐘 ，此時編碼作<orig reg=" 鐘"> 鍾</orig> ；又如：「 有 願尅從」，剋與尅為同音同義的通同 字， 克與剋為 通同 字 ， 此文尅當作「能夠」解 ， 克 與 尅都有「能夠」之意 ， 而 此 尅依據教育部異體字典考定：因與正 字 剋形體相近而成為常 用 之俗寫異體字 ， 此時編碼作<orig reg="剋">尅</orig> 。<br/>
-  　　２、所謂假借 字， 意指因同音或音近而造成 的錯字 ，如:  「吝此明珠如姓 明 」，姓明二 字 語義不通，當為性命之同音假借的 錯 字 ， 此時 標為：<choice><sic> 姓明</sic><corr> 性命</corr></choice> 。
+ 　　 ５、或有因 字 形相近，導致書寫習慣將兩字通 用 者 ， 如 ： 无 （ 無的異體）與元，師與帥，客與容，雨與兩 ， 此雖有通用 的 事實 ， 但 為 書寫筆畫的習慣 ， 而非意義有相通 處， 因此被歸入形近而誤的錯字，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>  （Ａ代表原文 字 形 ， Ｂ代表編碼者修定 的 標準字）。<br/>
-　　３、 形 近而誤 的 錯 字， 如：「跂覢電作朱旗」，跂乃形近跛而誤 ， 而跛與披音近通假 ，有 另一版本P-2187降魔變押座文與本卷之語 為證， 故標為：<choice><sic>跂</sic><corr>跛</corr></choice><note> 本卷95行有跛旗 之 語 ， 故知跂 為 跛之誤，且跂覢二字P-2187作披閃，蓋跛假作披。</note>
-==特殊符號的使用情況==
+== 錯字 （包含假借字）的標記==
- 　　１ 、在標明倒乙符號時使用（ 有 ㆑與乙兩種符號，依實際情況使用） ，標 為 ：<orig reg="日月"> 月<add place="inline-right"> ㆑</add> 日</orig>。
+  　　１、一般錯字：在標 明字 形書寫 錯 誤時使用 ，標為：<choice><sic> Ａ</sic><corr> Ｂ</corr></choice> （Ａ代表原寫本的字 形 ，Ｂ代表編碼者修定 的 標準 字， 當Ａ為Unicode所沒有的字時 ， 則代換成<orig reg="Ｘ">Ｙ</orig>） ， 若 有 他本可以作 為 校勘 證 據 ， 便用<note> 說明出處（出處可使用簡稱，並在凡例中將完整出處說明）。除了單字對應的錯字 之 外 ， 還有一字誤 為 兩者：<br/>
- 　　　 　１ ） 倒乙 字 若是unicode有的異體 字，則 標為：<orig reg="珍珠"> 珠<add place="inline-right">㆑</add><orig reg=" 珍"> 珎</orig></orig>。
+ 　　 　  １ ）一字誤拆為二字者，如：S-3491 有 臭的異體字臰被誤拆成自㤪二字 ， 則 標 成 ：<choice><sic>自㤪</sic><corr> 臰</corr></choice>。<br/>
-  　　　　 　　２） 倒乙字若是unicode沒有 的 異體 字， 則標為：<orig reg="珍珠"> 珠<add place="inline-right"> ㆑</add><orig reg="珍"><g ref="#A02563-001"/></orig></orig> 。
+ 　　　 ２ ） 一 字 誤拆為二 字 ，並換行者 ，則 加入<lb/> ，如：S-3491有尖被誤拆成五人二字，其中人字換行書寫，則標成：<choice><sic>五</sic><lb/><sic corr=" 尖"> 人</sic></choice>。<br/>
- 　　 ２ 、 在標明省書符號時使用 ，如 𦬇為菩薩的省書符號 ， 則標為：<choice><abbr>卄卄</abbr><expan> 菩薩</expan></choice> 。
+ 　　２ 、同音通假（假借字 ） 視為因音同或音近而造成 的 錯 字， 如:S-2113「吝此明珠如姓明」，姓明二字語義不通，當為性命之同音假借的錯字，此時標為：<choice><sic> 姓明</sic><corr> 性命</corr></choice> 。<br/>
-　　３、在標明重文符號（〻）時使用，標為：<choice><abbr>日〻</abbr><expan> 日日</expan></choice>
+ 　　 ３ 、 形近而誤的錯字 ，如 ：S-3491「跂覢電作朱旗」，跂乃形近跛而誤 ， 而跛與披音近通假，有另一版本P-2187降魔變押座文與本卷之語為證，故標為：<choice><sic> 跂</sic><corr> 跛</corr></choice><note> 本卷95行有跛旗之語，故知跂為跛之誤，且跂覢二字P-2187作披閃，蓋跛假作披。</note> 。<br/>
-　　 　　１） 重文字若是unicode有的異體 字 ，則標 為：<choice><abbr><orig reg="驅">駈</orig>〻</abbr><expan>驅驅</expan></choice>
-  　　　　２ ） 重 文字 若是unicode沒有的異體字 ， 則 標為：<choice><abbr><orig reg=" 役"><g ref="#A01277-001"/></orig> 〻</abbr><expan> 役役</expan></choice>。
+==特殊符號的標記==
-==在標明文字經過正規化的判定時，不同的情況使用不同的標號，如：==
+ 　　１ 、以萬國碼「雁點」（レ点 U+3191 ） 與乙 字為 倒乙符號（參見 ：[[媒體:敦煌古代的標點符號.pdf]]、[https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科：訓読]
-　 　１ 、<unclear>：當文 字 墨色模糊（如：退色或磨損 ） 或文 字 筆畫不清（如：草 書 ）難以判斷，需依賴上下文才能判讀時使用，若需要其他文獻校勘才能判讀時，便加上<note> 說明文獻出處：
+ ） ，在標明 文字 倒乙時使用 ，標為：<orig reg=" ＡＢ"> Ｂ<add place="inline-right">㆑</add> Ａ</orig> 或<orig reg="ＡＢ"> Ｂ<add place="inline-right"> 乙</add> Ａ</orig>。<br/>
- 　　　　 １ ）若 筆畫雖然不清楚，但仍能判斷該 字，則 依然使用<orig reg="Ｘ"> 。如:  (S-3491-059)雖然是筆畫不清楚的駈（驅的異體字），因其有50%以上的把握是駈，故依然用<orig reg="驅"> 駈</orig> ；若是遇到無法辨識清楚的字，才用<unclear>（原有的<reg>標號不用）。
+　　　 　１ ）倒乙 字 若是萬國碼（Unicode ） 已收錄的異體 字 則直 書 其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。<br/>
- 　　　　 ２ ） 若是異體字的 字 形不清楚，亦直接以<unclear>包覆正 字， 不再使用<orig reg=" Ｘ"> 或<choice>。 因為若是標成：<reg> 駈<reg>，到時用freecommandXE程式轉檔時， 字 會無法顯示出來；若是 標 成 ：<reg> 驅<reg> ，便無法表現出異體字駈。
+ 　　　　 ２ ） 倒乙字 若 是萬國碼（Unicode）未收錄的異體 字，則 標為：<orig reg="Ｘ"> Ｙ</orig> 。<br/>
-　　２、<damage> ：當文字破損，但仍可辨識時使用。
+ 　　　　 ３ ）<orig reg="ＡＢ">中的Ａ、Ｂ 字 體須為標準 字， Ｂ<add place="inline-right"> ㆑</add> Ａ此處的Ａ、Ｂ則可放入異體字 。<br/>
-　　　　１）若因破損而無法辨識，則標成：<damage unit="char" extent="1"/> ，若是完全無法分辨字形，則標成：<gap unit="char" extent="1"/> 。
+　　２、以萬國碼「疊 字 符號」（踊り字 U+303B）為重文符號，在 標 明省書重文時使用，如 ：<choice><abbr> Ａ〻</abbr><expan>ＡＡ</expan></choice>或<choice><abbr>Ａ〻Ｂ〻</abbr><expan>ＡＢＡＢ</expan></choice>（所有的 <expan>  標記中已視為「正規化」，故不再有如 <unclear> 等標記）。<br/>
- 　　　 　２ ） 破損嚴 重 ，需參酌他本，理校出正 字 ， 則 標 成 ：<choice><unclear><damage unit="char" extent="1"/></unclear><reg> Ｘ</reg></choice>：Ｘ代表理校出的正字。
+　 　　　 １ ）重 文字若是萬國碼（Unicode）有收錄的異體 字則 直書其字形，freecommandXE程式會將其轉 成<orig reg="X"> Ｙ</orig> 。<br/>
- 　　　　 ＰＳ ：<unit="chars"> 是早期的標記，現在統一作 unit="char"。
+　　　　２）重文字若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg=" Ｘ"> Ｙ</orig> 。<br/>
- 　　３、<expan>：只在表 示<abbr> 的 縮寫還原 時 使用， <expan> 標記中已視為「正規化」，故不再有如 <reg> 或<unclear> 等標記 。
+ 　　　　 ３）省書符號前有行號時的標法 ： 只標省書符號。<br/>
-==刪除標記==　 　１ 、當某字被刪去時，標為：< del> Ｚ</ del>：Ｘ代表被刪去 的字 ， 若 被刪去為 異體字 ，Ｚ 則 代入<orig reg=" Ｘ">Ｙ</orig>。
+ 　　３、 另有一種省書方式沒有特殊符號的標 示 ，而是對常用字形直接減筆書寫，如𦬇為菩薩 的 省書符號，此 時 則標為：<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>。<br/>
- 　　２ 、當某 字 被刪去後，又在其右邊加上改正 的字 時 ，標為：<subst><del>Ｘ</del><add place="inline-right">Ｙ</add></subst> 。
+　　　 　１ ）<abbr> 包含 的字 形 若 是萬國碼（Unicode）有收錄的 異體字則 直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。<br/>
- 　　３ 、當某字被塗毀時，導致無法辨別字體 時，標為 ：<del unit="char" extent="1"/>。
+  　　 　　２ ）<abbr>包含的 字 形若是萬國碼（Unicode）未收錄有 的 異體 字， 則 標為：<orig reg=" Ｘ">Ｙ</orig> 。<br/>
- 　　 ４、當某 字 因錯誤而被添加筆畫 改 成正確 的 字時， 標 為：<subst><del>Ｘ</del><add>Ｙ</add></subst>（ Ｘ代表原錯字，Ｙ代表被改正的 字） 。
+  　　 　　３ ）<expan>只在表示<abbr>的縮寫還原 時 使用 ， <expan>  標 記中已視 為 「正規化」，故不再有如 <nowiki><reg></nowiki>或<unclear> 等標記 。<br/>
-==插入標記==
-　　１、在字的右邊插入 文 字 時， 標為：<add place="inline-right"> Ｘ</add> Ｘ代表放在行外右邊插入的字。
- 　　 ２、在筆劃 不清的 字右邊插入文字時，標為：<subst><del unit="char" extent="1"/><add place="inline-right"> Ｘ</add></subst>：Ｘ 代表 被放在行外右邊插入的 字 。
+== 字 形模糊不清、損毀、塗 改的標 記==
-　　３、同一行中，先刪去某 字， 隨後寫 上 正確 的字 時 ， 標為：<del>Ｘ</del> Ｙ：Ｘ代表被刪去 的字， Ｙ代表改正的 字。
+　　１、<unclear> ：當文字墨色模糊 （ 如：退色或磨損）或文 字 筆畫不清（如：行書、草書 ） 難以判斷，需依賴上下 文 才能判讀時使用；若需要其他文獻校勘才能判讀 時， 便加上<note> 說明文獻出處。<br/>
- 　　 ４ 、 在錯字上修正 筆畫 改成正確的 字 時 ， 標為：<subst><del>Ｘ</del><add> Ｙ</add></subst>：Ｘ代表原本寫錯的字，Ｙ代表改正後的字。
+　　 　　 １）若是遇到文字模糊 不清 無法確切辨識清楚時使用（原有 的<nowiki><reg></nowiki> 標號不用），標成：<unclear> Ａ</unclear> （Ａ 代表 該 字 ）；若是雖然 字 形不甚清晰 ， 但仍有50%以 上的 把握能判斷該 字， 則直其書其字。<br/>
- 　　 ５、當被刪去的某 字 被塗 毀 而無法 辨識 ，又在右邊加入改正字時 ，標成：<subst><gap unit="char" extent="1"/><add place="inline-right">Ｘ</add></subst>： Ｘ代表 被放在行外右邊插入的 字
+　　　　２）若是異體字 的字 形不清楚 ， 亦直接以<unclear>包覆標準 字 ，不再使用<orig reg="Ｘ">或<choice> 。<br/>
- 　　 ６、當被刪改後的錯 字 為誤時 ， 在<choice><sic> Ｘ</sic><corr> Ｙ</corr></choice> 後加上<note> 作說明。
+ 　　 　　３）若是因行書 、 草書的寫法導致 筆畫 不清，則不管 字 跡是否模糊 ， 皆使以<unclear> 包覆標準字。<br/>
-==標點 標記==
+　　２、<damage> ：當文字損毀時使用。<br/>
- 　　 １ 、 一般標點標為：<pc>Ｘ</pc>： Ｘ代表標點符號。
+　　 　　 １）文 字 略有損 毀 ，尚可 辨識 時使用 ，標成：<damage> Ａ</damage> （Ａ代表損毀字）。<br/>
-　　２、當標點剛好落在重 文 符號中間時 ， 如 ： 以手遮<choice><abbr> 日〻</abbr><expan> 日日</expan></choice> 光所下之䖏 ， 兩個日中間當斷句時，可標為：<expan> 日<pc> ，</pc> 日</expan> 或是日<pc> ，</pc><choice><abbr>〻</abbr><expan>日</expan></choice>
+　　　　２）若因破損而無法辨識，則標成：<damage unit="char" extent=" Ｘ"/> （ Ｘ代表 損毀的 字 數）。<br/>
-==注解標記==
+ 　　 　　３）損毀嚴重，需參酌他本，理校出正 字， 則標成：<nowiki><choice><unclear><damage unit="char" extent="1"/></unclear><reg> Ａ</reg></choice></nowiki> （Ａ代表編碼者理校出的正字）。（<unit="chars"> 是早期的 標記 ，現在統一作 unit="char"）<br/>
-　　１ 、 公開給讀者看 的 說明 ，標為：<note> Ｘ</note> ：Ｘ 代表 注解內容。
+ 　　 ３ 、<gap>：文 字並非損毀 ， 或因塗改或其他原因，使得完全無法分辨字形時使用，標成 ：<gap unit="char" extent="1"/> 。<br/>
-　　２、編碼者給自己看 的 提示（不會公開顯示 ） ，標為：<!--  --> 。
- 　　 ３ 、 敦煌變校注的錨點（目前顯示 為 □） ：<anchor type="dh-bw-jiaozhu" n="001"/>。
+==刪除字的標記==
- 　　 ４ 、 小 字 雙行夾注 ，標 成 ：<hi rendition="#inline-para"> Ｘ<lb/> Ｘ</hi> ：Ｘ 代表 夾注內容 ，<lb/> 代表換行點。
+　　１、當某字被刪去時，標為：<nowiki><del> Ａ</del></nowiki> （Ａ代表被刪去的字）；若Ａ為異體字 ， 則代入<orig reg="Ｘ"> Ｙ</orig> 。<br/>
- 　　 ５ 、 後人 寫 的雙行小 字 注解文 字 ， 標 成：<note resp="hand2" rendition="#inline-para">其像兩<lb/>足返</note>
+　　２、同一行中，先刪去某字，隨後寫上正確的字時，標為：<nowiki><del> Ａ</del> À</nowiki> （Ａ代表原本寫錯的字，À代表改正後的字）。<br/>
-　　６、後人寫在右邊注解文字 ，標 成：<note resp="hand2" rendition="#inline-right">下其頭上有冠</note>
+　　３ 、 當某字被刪去後，又在其右邊加上改正 的 字時 ，標為：<nowiki><subst><del> Ａ</del><add place="inline-right">À</add></subst></nowiki>（Ａ 代表 原本寫錯的字，À代表改正後 的 字 ） 。<br/>
-==空格標記==
+ 　　 ４ 、 當某字被塗毀時，導致無法辨別字體時，標 為：<del unit="char" extent="1"/>。<br/>
-　　１、偈語的空格：<space type="verseSpacing"/>
+ 　　 ５ 、 當在錯字上添加筆畫改成正確的 字 時 ，標 為 ：<nowiki><subst><del> Ａ</del><add> À</add></subst></nowiki>（Ａ 代表 原本寫錯的字 ， À代表改正後的字）。<br/>
-　　２、段落的空格：<space type="punctuation" unit="char" extent="1"/>
+ 　　 ６ 、寫 卷表示刪除 字 ，除了直接劃掉、塗改筆畫，還有在被刪 字 的右邊 標 上卜字或是頓點等符號 ， 詳細例證可參見[[媒體:敦煌古代的 標 點符號.pdf]]，在此並不特別標出符號形式，統一採用<nowiki><del></nowiki> 標記。<br/>
- 　　 ３ 、 無意義 的 空格 ：<space type="simpleSpace" unit="char" extent="1"/>
-==更正標記==
+== 插入字的標記==
- 　　 １ 、 一般錯 字：<choice><sic> 雈</sic><corr> 舊</corr></choice>
+ 　　 １ 、 在字 的 右邊插入文字時，標為 ：<add place="inline-right">Ａ</add>（Ａ代表被插入的字）。<br/>
- 　　 ２ 、 一 字 誤拆 為 二字 ：<choice><sic> 自㤪</sic><corr> 臰</corr></choice>
+ 　　 ２ 、 在筆劃不清的字右邊插入文 字 時，標為 ：<subst><del unit="char" extent="1"/><add place="inline-right"> Ａ</add></subst> 。<br/>
- 　　 ３ 、 一字誤拆為二 字， 並換行 ：<sic> 五</sic><lb/><sic corr=" 尖"> 人</sic>
+ 　　 ３ 、 在錯字上添加筆畫改成正確的 字 時，標 為：<nowiki><subst><del>Ａ</del><add>À</add></subst></nowiki> （Ａ代表原本寫錯的字，À代表改正後的字）。<br/>
-=標記語言範例 表=
+ 　　 ４ 、 當被刪去的某字被塗毀而無法辨識，又在右邊加入改正 字 時 ， 標為 ：<subst><gap unit="char" extent="1"/><add place="inline-right"> Ａ</add></subst> （Ａ代 表 被插入的字）。<br/>
-修改中
+ 　 　５ 、 當被刪改的錯 字 被 標 記 者 判定為誤時 ， 在<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>（Ａ代表原文 字 形 ， Ｂ代表編碼者修訂的字）後加上<note>作說明。<br/>
-=標記規則=
- 　 　一 、 標準 字
+==標點符號的標記==
-　　　　１、字形筆畫與 標 準字相同 者， 即標示標準 字， 如： ：碧。
+ 　　 １ 、 一般標點 標 為：<pc>Ｘ</pc>（Ｘ代表編碼者插入的中式全型 標 點符號，只會在 標準字 體化的版 本 顯示） 。<br/>
- 　　 　　２ 、 字形與 標 準字大致相同，但筆畫因書寫習慣而有細部不同時，即 標 示為 標準字 ，如： ：於， ：捉， ： 本 ， ：此 。
+ 　　 ２ 、當 標點剛好落在重文符號中間 時， 如：以手遮<choice><abbr> 日〻</abbr><expan>日日</expan></choice> 光所下之䖏，兩個日中間當斷句時，可標為 ：<expan>日<pc> ，</pc>日</expan>，或是日<pc>，</pc><choice><abbr>〻</abbr><expan>日</expan></choice> 。<br/>
- 　　 　　３ 、當 字形可辨識為某字，但細部筆畫不易辨識 時， 即標示為<unclear> 標準字</unclear> ，如： ：< unclear > 繡</ unclear > ；  ：< unclear > 數</ unclear > 。
-　　二、異體字－當字形筆畫與標準字有結構性的不同 ， 而此不同並非因為書寫習慣（如：草書筆畫不定）造成時，判定為異體字（包含通同字） 。
+==注解的標記==
-  　　 　　１ 、unicode有 字 ，且教育部異體字典有收錄者 ，標 示unicode字型（freecommandXE程式將異體字庫中的異體字轉成< orig > ，但若已被包在< orig > 中的異體字則不會被改動 ） ，如：  ：𦰧，但該字若另兼正 字 或另兼別 字 異體 ， 程式無法判斷，如 ： 仏既為佛之異體，又為似之異體，當其作為佛之異體字時，因為異體字 表 中有登記 ， 故只須寫成仏，若作為似之異體字時，則標成<orig reg="似"> 仏</orig> 。
+ 　　１ 、小 字 雙行夾注 ，標 為：<hi rendition="#inline-para">Ｘ<lb/> Ｘ</hi> （Ｘ代表注解內容，<lb/>代表換行點 ） 。<br/>
- 　　 　　２、unicode有 字 ，而教育部異體字典無收錄者 ，標 示unicode字型，處理同上例１。
+  　　２、後人寫的雙行小 字 注解文 字， 標為 ：<note resp="hand2" rendition="#inline-para">Ｘ<lb/>Ｘ</note>（Ｘ代 表 注解內容 ，<lb/> 代表換行點）。<br/>
-　　　　３、unicode無字，而教育部異體字典有收錄者，如：  教育部異體字碼為A04204-023，故標成：<orig reg="那"><g ref="# A04204-023"/></orig> 。
+ 　　 ３、後人寫在右邊注解文 字，標 為：<note resp="hand2" rendition="#inline-right"> Ｘ</note> （Ｘ代表注解內容）。<br/>
-  　　 　　４ 、unicode無字 ， 而教育部異體字典無收錄者 ：
+ 　　４ 、編碼者的說明（會公開顯示） ， 標為 ：<note>Ｘ</note>（Ｘ代表注解內容）。<br/>
- 　　 　　　　１）字形與異體字典無明 顯 不同者，標 示 同上例３ ， 如：   標 成 ：<orig reg="數"><g ref="# A01739-038"/></orig>。
+ 　　 ５、編碼者給自己看的提示（不會公開 顯示 ） ，標 為 ：<nowiki><!--Ｘ--></nowiki>。<br/>
- 　　 　　　　２）字形與異體字典有明 顯 不同者，標為專案編定字碼，如：  標 為：<orig reg=" 福"><g ref="#S-2113-036-09"/></orig> 。
+ 　　 ６、《敦煌變校注》的錨點（目前 顯 示 為 □） ：<anchor type="dh-bw-jiaozhu" n=" Ｘ"/> （Ｘ代表原書注解序號）。<br/>
-ＰＳ 是 否需要把異體字典 的 字碼編入，成A02901-S-2113-036-09？
- 　　 　　５ 、 古今通用字 ， 兩者字形不同 ， 但為古今 字 或有通用的情形 ，標 例同異體字：如：紅旗初<choice><orig>辰</orig><reg>震</reg></choice> <note>《說文》段注云：辰，震也。震振古通用，此亦可作振 。</note> 。
+==空格的標記==
- 　　 三 、 錯字－當字形筆畫與標準字有結構性的不同 ， 且確定其與音義標準 字 也不同 ， 判定為錯 字 （包含同音通假、形近而誤 ）。 一般錯字標示為<choice><sic>錯字</sic><corr>標準 字</corr></choice> ， 其後加<note>判定錯誤 的 依據</note> ，如：
+*凡 是 文獻末尾 的 空格不予以標記。
- 　　 　　１ 、 形近而誤 ： 如：雹子 空中 自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分，此處客當作容，而容通溶。</note>。
+ 　　 １ 、 韻文的空格：在散文描述中，插入一段偈語或詩歌時 ， 往往換行縮排 ， 並在句與句之間空若干 字， 此時在空下的位置 標 記<space type="verseSpacing" unit="char" extent="Ｘ"/> （Ｘ代表所空字數） 。<br/>
-　　　　２、同音通假：恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice> <note>蘇遠鳴：〈敦煌石窟中的瑞像圖〉</note> 。
+ 　　 ２ 、 段落的空格：在另起一段，或徵引文獻時 ， 行首會空下若干 字， 此時在空下的位置標記<space type="punctuation" unit="char" extent="Ｘ"/>（Ｘ代表所空 字 數 ）。<br/>
-伍、所見異體字表－持續編寫中
+　　３、挪抬的空格：在行文中，有為表示敬意而空一 字 者 ， 此時在空下 的 位置標記<space type="honorific" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。<br/>
+ 　　 ４ 、 無意義的空格 ： 有在標題上 空 下數字，或在行文 中 有不該有空字而空者，此時在空下的位置標記<space type="simpleSpace" unit="char" extent="Ｘ"/> （Ｘ代表所空字數）。<br/>
+=參、標記語言範例表=
+*關於標記語言的規範與實例，請參見：[[媒體:編碼語言範例(修訂版).pdf]]。
-==寫卷結構與 標記==
+= 肆、 標記 原則=
-* 以敦煌寫卷「件」為單位 ， 即每一個檔案即 為 一件敦煌寫卷 （ 如 S.4272 ）<br/>
+* 基本原則一：不論原文使用何種字體（楷書、行書、草書等） ， 皆迻錄 為 楷書 （ 楷化 ） 。
-{| border="1"
+*基本原則二：沒有特殊 標記 之字即標準字，此所謂標準字指的是2015年前後時期[http://dict2.variants.moe.edu.tw/variants/ 教育部異體字字典] 所定正字。
-|-
+依照 寫 卷 字 形情況分成下面幾類 標記 規則：<br/>
-|行號 標記 例
+　　一、標準字<br/>
-|<lb xml:id="S-4272-0001"/>
+　　　　１、字形筆畫與 教育部異體字 典所定正 字 完全相同者，即直書其字型而不作任何 標記 。<br/>
-|-
+　　　　２、字形與標準字大致相同，但筆畫因書寫習慣而 有 細部不同時，亦直書其字型而不作任何標記。<br/>
-|rowspan="5"|空格標記例 Space
+　　　　３、當字形可辨識為某字，但細部筆畫不易辨識時，即標示為<unclear> 標準字</unclear> 。<br/>
-|<space type="honorific" unit="char" extent="1"/>
+　　二、異體字（包含通同字）<br/>
-|[[圖片:honorific.jpg]]
+　　　　１、當字形筆畫與標準字有結構 性 的不同，而此不同並非因為書寫習慣造成時，判定為異體字。<br/>
-P-3664-0662
+　　　　２、萬國碼（Unicode）有收錄者，按原字型迻錄（此類將由freecommandXE程式轉成< orig > ，顯示在原文抄本時為原字型，在標準字體化則呈現為藍色標準字）。<br/>
-|-
+　　　　３、萬國碼（Unicode）無收錄，而教育部異體字典有收錄，能夠以所對應的正字表達出來，教育部異體字字典對該字的編號會 記 錄在<g>@ref 標記 中，如：<orig reg=" 那"><g ref="#A04204-023"/></orig> 。<br/>
-|<space type="punctuation" unit="char" extent="1"/>
+　　　　４、萬國碼（Unicode ） 與教育部異體字典皆無收錄，但字形結構上能夠分辨者：<br/>
-|[[圖片:空格.jpg]]
+　　　　　　１）字形與教育部異體字典收錄之字雖不完全相同，但差異不大者，標為：<orig reg=" 那"><g ref="#A04204-023"/></orig> 。<br/>
-S-4272-0008
+　　　　　　２）字形與教育部異體字典有明顯不同者，<g>@ref標記編號為該字的卷次、行次、字次，如：<orig reg=" 福"><g ref="#S-2113-036-09"/></orig> （S-2113為卷次，036為行次，09為字次 ） 。<br/>
-|-
+　　　　５、古今通同 字 ：兩者 字 形 不 同，但為古今 字 或有通用的情形， 標例 同異體字：如：紅旗初<orig reg=" 震"> 辰</orig><note> 《說 文 》段 注 云：辰，震也。震振古通用，此亦可作振。</note> 。<br/>
-|<space type="bindingHole" unit="char" extent="1"/>
+　　三、錯 字（ 包含同音通假、形近而誤 ）<br/>
-|[[圖片:bindingHole.jpg]]
+　　　　１、當字形筆畫與標準字有結構性的不同，且確定其與音義標準字也不同，判定為錯字。一般錯 字 標為：<nowiki><choice><sic> 錯字</sic><corr> 標準字</corr></choice> ，其後加<note> 判定錯誤的依據</note></nowiki><br/>
-P-4646-01-03
+　　　　２、形近而誤：因此字形相近而產生錯誤，如：雹子空中自消<nowiki><choice><orig> 客</orig><reg> 溶</reg></choice><note> 本卷客容不分，此處客當作容，而容通溶。</note> 。</nowiki><br/>
-|-
+　　　　３、同音通假：因字音相近而產錯誤，如：恡此明珠如<nowiki><choice><orig> 姓明</orig><reg> 性命</reg></choice><note> 見蘇遠鳴：〈敦煌石窟中的瑞像圖〉。</note> 。</nowiki><br/>
-|<space type="simpleSpace" unit="char" extent="1"/>
-|[[圖片:simpleSpace.jpg]]
-S-2054-0192
-|-
-|<space type="verseSpacing" unit="char" extent="1"/>
-|[[圖片:verseSpacing.jpg]]
-P-2634-0002
-|-
-|rowspan="2"|異 寫字標記 例 Choice
-|<nowiki><orig reg="偽"><g ref="#S4272-005-11"/></orig></nowiki> （專案新增）
-|[[圖片:異寫1.jpg]]
-S-4272-0005
-|-
-|<nowiki><orig reg="障"><g ref="#A04441-003"/></orig></nowiki>（ 教育部異體字字 典）
-|[[圖片:異寫2.jpg]]
-S-4272-0013
-|-
-|rowspan="4"|取代 標記 例 Substitute
-|<nowiki><subst><del>无</del><add>有</add></subst></nowiki>
-|[[圖片:取代1.jpg]]
-S-4272-0005
-|-
-|<nowiki><subst><del unit="char" extent="1"/><add>心</add></subst></nowiki>
-|[[圖片:取代2.jpg]]
-S-4272-0021
-|-
-|<nowiki><subst><del><orig reg="薩"><g ref="#A03580-001"/></orig></del><add place="inline-right">提</add></subst></nowiki>
-|[[圖片:取代3.jpg]]
-P-3436-0037
-|-
-|<nowiki><subst><del hand="2">然見 性</del><add place="inline-right" hand="2">明</add></subst></nowiki>
-|[[圖片:取代4.jpg]]
-P-3777-0540
-|-
-|插入標 記 例 Addition
-|<add place="inline-right"> 性</add>
-|[[圖片:插入.jpg]]
-S-4272-0009
-|-
-|rowspan="3"|倒乙 標記 例 Reverse
-|<nowiki><orig reg=" 不出"> 出<add place="inline-right">㆑</add> 不</orig></nowiki>
-|[[圖片:倒乙符.jpg]]（不出 ）
-P-3436-0037
-|-
-|<nowiki><lb xml:id="P-3436-0206"/><orig type="CJK" reg=" 坐"><add place="inline-right">㆑</add> 浄</orig></nowiki>
-|[[圖片:行首倒乙.jpg]] [[圖片:行首倒乙1.jpg]]
-P-3436-0206
-|-
-|<nowiki><orig reg=" 苐二魏朝"><g ref="#A04688-002"/>朝<add place="inline-right"><note resp="hand2">向上</note></add> 苐二</orig></nowiki>
-|[[圖片:倒乙說明.jpg]]（苐二魏朝 ）
-P-3436-0110
-|-
-|補充修改標記例 Addition
-|<add place="margin-bottom">軰</add>
-|[[圖片:修改補充.jpg]]
-P-3436-0056
-|-
-|rowspan="2"|破損標記例 Damage
-|<damage>使鬼神</damage>
-|[[圖片:破損1.jpg]]
-P-3436-0057
-|-
-|<damage unit="char" extent="1"/>
-<nowiki><choice><unclear><damage unit="char" extent="1"/></unclear><reg>諸</reg></choice></nowiki>
-|[[圖片:破損2.jpg]]
-P-3436-0011
-|-
-| 字 跡不清標記例 Unclear
-|<unclear>斷</unclear>
-|[[圖片: 字 跡 不 清.jpg]]
-P-3436-0070
-|-
-|難辨 字標 記 例 Gap
-|<gap unit="char" extent="1"/>
-|[[圖片:難辨.jpg]]
-P-3703-0011
-|-
-|rowspan="2"|省書例 Abbreviations
-|<choice><abbr> 卄卄</abbr><expan> 菩薩</expan></choice>
-|[[圖片:省書.jpg]]
-P-2634-0010
-|-
-|<choice><abbr>阿〻難〻</abbr><expan>阿難阿難</expan></choice>
-|[[圖片:重 文 例2.png]]
-P-3664-0511
-|-
-|重文例 Repeat sign
-|<choice><abbr>種〻</abbr><expan>種種</expan></choice>
-|[[圖片:重文例3.png]]
-P-3664-0500
-|-
-|雙行夾 注 例 Inline-para
-|<nowiki><note resp="hand1" rendition="#inline-para">在舒州一名思空山</note></nowiki>
-|[[圖片:雙行夾注.jpg]]
-P-3559-0567
-|-
-|副標例 Subtitle
-|<nowiki><hi rendition="#subtitle">并序</hi></nowiki>
-|[[圖片:副標.jpg]]
-P-2634-0001
-|-
-|rowspan="2"|廢 字 例 Deletion
- （ 感謝 汪娟教授來函建議 ）
-|<nowiki>者<del>者</del>非</nowiki>
-|[[圖片:廢 字.jpg]]
-P-2460-0068v
-|-
-|<nowiki><del>清浄</del>解</nowiki>
-|[[圖片:廢字2.jpg]]
-P-4646-08-04r
-|-
-|專案訂正例 Corrections by project
-|<nowiki><choice><sic> 光濡</sic><corr> 先儒</corr></choice><note> 見《左傳‧春秋序》。</note></nowiki> 不取
-|[[圖片:專案訂正例.jpg]]
-P-2634-0038r
-|-
-|偈文例 Verse line
-|<nowiki><lg><l><choice><orig><g ref="#A02941-036"/></orig><reg> 稽</reg></choice> 首<choice><orig><g ref="#A03222-001"/></orig><reg>善</reg></choice>知識<space type="verseSpacing" unit="char" extent="1"/><damage><choice><orig type="Ext-A"> 䏻</orig><reg> 能</reg></choice> 令<choice><orig><g ref="#P2634-002-08"/></orig><reg>護</reg></choice></damage>本心</l></lg></nowiki>
-|[[圖片:偈文.jpg]]
-P-2634-0002r
-|}
-==進階說明──文 字 迻錄原則==
+= 伍、所見異體 字 表=
-* 原則一、不論原文使用何種 字體 （楷書 、 行書、草書等） ， 皆迻錄為楷書（楷化）。<br/>
+* 關於本計畫所見之異體 字 與標記異 體 字的標準 、 特殊情況的處理 ， 詳見[https://docs.google.com/a/dila.edu.tw/uc?id=0B-FcOEt_yc6dTmxET2dUamRrYWM&export=download  所見異體 字 表]。
-*原則二、[https://zh.wikipedia.org/zh-tw/Unicode Unicode]  有提供 字 型者，按原 字 形迻錄。如 ： 㘴 ， 不改成為[http://www.edu.tw/FILES/SITE_CONTENT/M0001/BIAU/t00-8.htm?open 教育部 標準 字體 （正 字 ）]「坐」 。<br/>
+*關於＂所見異體 字 表＂裡的一些規範：<br/>
-{| border="1"
+　一、EUC ： 是Unicode未收 ， 但[http://www.cns11643.gov.tw/AIDB/query_composite.do/ 全字庫]字碼有的字型。<br/>
-|-
+  　二、Unicode已收之字， 教育部 異體 字 典必定有收，因此不附異 體字 典字碼 。<br/>
-|'''Non-Unicode Variants - attested 萬國碼未收 之 異體字 ──已確認'''<br/>
+　三、本專案在標記異體字的順序為：<br/>
-# 萬國碼 未 收之字 形。The variant character is not in Unicode.<br/>
+　　１、萬國碼（Unicode）已收之字，不附異體字典碼；<br/>
-#[http://dict2.variants.moe.edu.tw/variants/  教育部 異體字字 典]有收錄者。It is attested in the "Dictionary of Chinese Character Variants"  教育部 異體字字 典 (Ministry of Education, RoC, 2012). Current Query Interface: http://dict2.variants.moe.edu.tw/variants/.<br/>
+  　　２、 萬國碼 （Unicode） 未收 ，但EUC有的字碼，採用EUC字碼，而不用 異體字 典字碼；<br/>
-# 教育部異體 字 字典 對該 字 的編號會記錄 在<g>@ref 標記 中 。 <g>@ref points to a header item which references the character number of the variant in the MoE Dictionary.<br/>
+　　３、 萬國碼 （Unicode）已 收之字 ，但電腦字型打不出來，則採用異體字典字碼；<br/>
-#能夠以所對應 的 正 字 表達出來 。 It can be represented by a semantically equivalent common character (通用字).<br/>
+  　　４、萬國碼（Unicode）未收，則採用 異體字 典 字 碼；<br/>
+  　　５、萬國碼（Unicode）與 異體字 典皆未收，則採用專案自訂字碼（通常是 字 圖的位置）。<br/>
+　四、在備註欄標註＂同F252-049-07＂，＂F252-049-07＂為Unicode與 教育部異體字典 皆未收，表示此 字 型 在標記 時，因其字型與此字碼相同，因此標為同一字 。<br/>
+　五、拼音欄皆依照台灣常用注音為準（某些字 的 讀音有破音 字 ，或其聲調在大陸與台灣有別） 。<br/>
-|Ex.1: S-4272-0002:<br/>
+=陸、完成寫卷=
+==第一階段==
+時間：2015-07-06~2017-03-31<br/>
+工作內容：進行敦煌佛教寫本之數位化標記寫卷七種，總計十四卷：<br/>
+*諸佛瑞像記　S.5659、S.2113<br/>
+*破魔變　P.2187、S.3491<br/>
+*難陀出家經起　P.2324<br/>
+*佛說楞伽經禪門悉談章　P.2204、P.2212<br/>
+*太子成道經　P.2999、S.2682、S.4626<br/>
+*維摩詰經講經文　F.101、F.252<br/>
+*菩提達摩南宗定是非論　P.2045、P3488<br/>
-  為除忘相<nowiki><choice><orig><g ref="#A03335-004"/></orig><reg>修</reg></choice></nowiki> 行六度
+==第二階段==
+  時間：2017-04-01~2017-12-31<br/>
+工作內容：進行破魔變P.2187、S.3491之中英對照校注出版，可參見[http://wiki.dila.edu.tw/pages/%E4%B8%AD%E5%8F%A4%E4%BD%9B%E6%95%99%E5%AF%AB%E5%8D%B7%E8%B3%87%E6%96%99%E5%BA%AB%E5%87%BA%E7%89%88%E5%B0%88%E6%A1%88%E2%80%94%E7%A0%B4%E9%AD%94%E8%AE%8A%E4%B8%AD%E8%8B%B1%E5%B0%8D%E7%85%A7%E7%BF%BB%E8%AD%AF 中古佛教寫寫卷資料庫出版專案]。<br/>
-|[[圖片:origRegChoice.png|40px]]
+==第三階段==
-|-
+時間：2018-01-01~2018-12-31<br/>
-|'''Non-Unicode Variants - unattested  萬國碼未收 之 異體字──未確認（專案新增）'''<br/>
+  工作內容：進行敦煌佛教寫本 之 數位化標記寫卷有十二種，總計十六卷：<br/>
-#萬國碼與 教 育部異體字字典均未收錄。The character is neither in Unicode nor in the MoE Dictionary.<br/>
+*南宗定邪正五更轉　Db.77、BD.8325、S.2679<br/>
-#但字形結構上能夠分辨者。 Use this only for characters where the stroke count is clearly legible.<br/>
+*五更轉南宗贊　S.4173、S.4654<br/>
-|Ex.1: S-4272-0022:<br/>
+*菩提達摩南宗定是非論　Dunbo77<br/>
+*南陽和尚頓 教 解脫禪門直了性壇語　Db.77、P.2045<br/>
+*淨覺註般若波羅蜜多心經　S.4556<br/>
+*興山寺禪師沙門定慧詩朁　S.5809<br/>
+*第七祖大照和尚寂滅日齋贊文　S.2512<br/>
+*大晉敦煌郡張和尚寫真贊　P.3792<br/>
+*前河西僧統翟和尚邈真贊　P.4660<br/>
+*晉敦煌郡張和尚寫真贊　P.3792<br/>
+*悉達太子修道因緣　R.48<br/>
+*妙法蓮華經講經文　P.2305<br/>
-  度眾生過去<nowiki><choice><orig><g ref="#S4272-022-14"/></orig><reg>逢</reg></choice></nowiki>无量恒
+==第四階段==
-|[[圖片:reg1.png|40px]]
+  時間：2019-01-01~2019-12-31<br/>
-|-
+  工作內容：<br/>
-|'''"Unclear" Characters 模糊字'''
-#<unclear> 是一個較鬆散的解釋，此類字多受到摹寫字跡以及古代字形的影響。<unclear> is much open to interpretation. It is influenced strongly by the quality of the facsimile and the level of paleographic skills.
-#標記此類文字時通常需借助其他版本的文獻，而不能由文本直接辨認出來。We use it in this project when the character and its stroke structure are not recognizable on their own, but only by comparing with other versions.<br/>
-#所有的<unclear>都能理解為某個正字，但與<nowiki><reg></nowiki>不同的是<unclear>文字結構模糊，而<nowiki><reg></nowiki>的文字結構清晰。All <unclear> are understood as  通用字, this form of regularization differes from <nowiki><reg></nowiki>, however, because with <unclear> the intended variant is unknown. With <nowiki><reg></nowiki> the shape/stroke structure of the variant character is seen.<br/>
-|Ex.1: P-3703-0002:
-  無 有 邊<nowiki><unclear> 畔坐</unclear></nowiki>
+  一、進行敦煌佛教寫本之數位化標記寫卷 有 十種，總計二十卷：<br/>
-|[[圖片:unclear1.png|80px]]
+*勸諸人一偈　S.3017、P.3409<br/>
-|-
+*稠禪師藥方療有漏　P.3664<br/>
-|'''Significant spaces 文中的空格'''
+*稠禪師解虎讚　P.4597、P.3490<br/>
-#另起一段或徵引文獻時。Intentional, significant space before new sections (Ex. 1) or quotations (Ex.1).<br/>
+*頓悟大乘正理訣　S.2672<br/>
-#文獻末尾空格不標記。No <space> needed at end of a Ms folio.<br/>
+*達摩禪師論　P. 2039、BD.15054<br/>
-|Ex.1: S-4272-0008 - S-4272-0010:
+*澄心論　S.2669、S.3558<br/>
+*歡喜國王緣　P.3375v<br/>
+*大小乘廿二問本　上博42(39644)<br/>
+*證道歌　S.4037、S.6000、S.2165、P.2104、P.2105、P.3360<br/>
+*孟姜女變文　P.5019、P.5039<br/>
-  為中道<space unit="char" extent="2"/>苐三齊朝
+  二、建立展示網頁：[https://www.database-of-medieval-chinese-texts.be/ A DATABASE OF MEDIEVAL CHINESE TEXTS]<br/>
-人年十四遇達摩禪師
-真登佛果<space unit="char" extent="1"/>楞伽経云
-|[[圖片:space1.png|120px]]
-|-
-|'''Character(s) added in the Ms. 插入字'''
-#文中有人插入文字。Character(s) added by a scribe in the Ms.<br/>
-#大致描述插入字位置。@place gives rough description where to find it.<br/>
-|Ex.1: S-4272-0009:
-  禪師俗<add place="inline-right">性</add> 姖武窂人
+==第五階段==
-|[[圖片:add1.png|40px]]
+  時間：2020-01-01~2020-12-31<br/>
-|-
+  工作內容：<br/>
-|'''Character(s) Overwrite other Character(s): 覆蓋字'''
-  被覆蓋的字若不清楚則使用<del unit="char" extent="..."/> ，清楚則轉錄出來，不確定則使用<unclear>。If the overwritten character is illegible use <del unit="char" extent="..."/>, if legible give character, if unsure use <unclear>.
-|Ex.1: S-4272-0021:
-  為是知眾生識<nowiki><subst><del unit="char" extent="1"/><add> 心</add></subst></nowiki>自度
+  一、進行敦煌佛教寫本之數位化標記寫卷，總計三種：<br/>
-|[[圖片:subst1.png|40px]]
+*金剛峻經金剛頂一切如來甚妙秘密金剛界大三昧耶修行四十二重壇法經作用威法儀則大毗盧遮那金剛 心 地法門秘法戒壇法儀則　P.3913<br/>
-|-
+*醜女緣起　P.3048<br/>
-|'''Damaged but recognizable characters 破損字'''
+*四獸因緣　P.2187<br/>
-<damage>與<unclear>近似，標記中直接使用正字。（範例中的字也可以識別為「忕」或「𢗗」，此處依另一版本。）<damage> is similar to <unclear> in that the text provided should be considered 通用字 as the variant can not be distinguished clearly.
-|Ex.1: P-3703-0001 :
-  時<damage>狀</damage> 𠰥
+  二、寫卷年代表<br/>
-|[[圖片:damage1.png|60px]]
-|-
-|'''Unrecognizable characters due to accidental damage (tearing, breaking, smearing, blotting, smudging etc.) with later annotation 因意外而造成無法判讀（如撕裂、破損、磨滅、髒汙等），後來新增者'''
-#背面墨水透出使「法」字部分不清，另一個字則完全不清。Seeping ink renders the character 法 partially illegible and another character completely illegible.
-#可以推論第二個字可能被 (hand="1") 塗改為「有」，但又暈墨。Probably the latter character was originally deleted, and the first scribe (hand="1") had added a 有 next to the line, which, however, too became blotted as the ink seeped through, but is still inferable.
-#不清的「法」字旁潦草寫了一個「法」。(hand="2") 又另在前次暈墨的「有」下方再寫一個「有」，這必然是在背面抄寫後才發生的，這份手卷發現數次這樣因背面的墨透背後，才進行的補救。 Later someone adds a quickly written 法 next to the partially damaged 法, and a 有 below the damaged first addition inline-right. This probably was someone else (@hand="2") because it must have occurred after the verso text had been written and there are several other cases of clarifying damaged characters elsewhere in the Ms.
-#假定這髒污是由背面的墨透過來的，那事情發生的順序應是：先抄寫了正面，而背面又抄寫了其他文稿，結果導致墨暈至背面。後來在讀正面時（的人），又將模糊的字重書在右方。Assuming the blotting is due to ink seeping through the paper the series of events was: someone wrote the text, then something else was written on verso, and the ink seeping through blotted the recto text. A later reader clarifies unclear characters recto with a dry brush.
-|Ex.1: P-3703-0007:
-In the header: <profileDesc> <creation> <listChange> <change xml:id="stage1">The manuscript is written, corrections were made by the scribe.寫卷抄錄時的修正</change><change xml:id="stage2">The verso is written. Ink seeps through blotting some characters.背面抄寫 時 的墨透背後所汙染者</change><change xml:id="stage3">A later hand clarifies characters that were blotted out.在汙處外再次訂正</change> </listChange> </creation> </profileDesc>
+== 第六階段==
+ 時 間：2021-01-01~2021-12-31<br/>
+工作內容：<br/>
-  非<unclear>離</unclear>生<damage change="#stage2">法</damage><add change="#stage3" hand="2" place="inline-right">法</add><damage change="#stage2"><nowiki><del change="#stage1" hand="1" unit="char" extent="1"/></nowiki><add change="#stage1" place="inline-right" hand="1">有</add></damage><add change="#stage3" hand="2" place="inline-right">有</add>无生龍<br/>
+  一、進行敦煌佛教寫本之數位化標記寫卷，總計五種：<br/>
-Ex.2: P-3703-0010:
+*頓悟真宗金剛般若修行達彼岸 法 門要決  P.2799<br/>
+*大乘無生方便門  BD.03924<br/>
+*夜坐號  P.3664<br/>
+*李陵變文  BD.14666<br/>
+*張議潮變文  P.2962<br/>
-  一切圡木<damage change="#stage2">瓦</damage><add place="inline-right" change="#stage3">瓦</add> 石
+  二、寫卷序錄<br/>
-#The original character (probably  瓦) becomes illegible by ink seeping thorugh. 原來的字（應是 「 瓦」）被透背的墨所暈。
+  三、論文——〈 「 中古佛教寫本資料庫編 碼 專案 」 簡介〉<br/>
-#A later hand clarifies the illegible section and writes 瓦 next to it. 後來的讀者重書「瓦」在右方。
-|[[圖片:damageAdd1.png|50px]]
-[[圖片:damageAdd2.png|50px]]
-|-
-|'''Reverse Mark 倒乙符號 (レ-点)'''
-#以萬國 碼 「雁點 」 （レ点 U+3191）為倒乙符號。Use Unicode Character 'IDEOGRAPHIC ANNOTATION REVERSE MARK' (U+3191) within <add place="inline-right"> </add>
-參見：[[媒體:敦煌古代的標點符號.pdf]] [https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科：訓読]
-|Ex.1: P-3436-0037:
-  亦出<add place="inline-right">㆑</add>不扵有
+  四、線上專案成果發表會 ：[https://www.youtube.com/watch?v=UpRl4mDxZ5o&t=7011s/ 文 字游覽敦煌]<br/>
-|[[圖片:retten1.png|40px]]
-|-
-|'''Repetition / Iteration Mark  叠字符號'''
-# 以萬國碼「疊字元號」（踊り字 U+303B）為叠字符號（重文）。Use Unicode Character 'VERTICAL IDEOGRAPHIC ITERATION MARK'  〻 (U+303B) .
-參見 ：[http://en.wikipedia.org/wiki/Iteration_mark Iteration marks]
-|
-|[[圖片:重文例3.png]]P-3664-0500
-|-
-|rowspan="3"|'''Abbreviations 省書符號'''
-# 以萬國碼「疊字元號」（踊り字 U+303B）為省書符號。Use <choice><abbr>阿〻難〻</abbr><expan>阿難阿難</expan></choice>
-# 所有的 <expan> 標記中已視為「正規化」，故不再有如 <unclear>  等標記。All <expan>sions are understood to be regularized and cannot contain further <unclear> etc.
-# 省書符號前有行號時的標法：只標省書符號。
-|Ex 1:P-3664-0511
-<nowiki><choice><abbr>阿〻<reg>難</reg>〻</abbr><expan>阿難阿難</expan></choice></nowiki>
-|[[圖片:重 文 例2.png]]
-|-
-|Ex 2:P-2634-0010
-<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>
-|[[圖片:省書.jpg]]
-|-
-|Ex 3:S-2054-0325
-<nowiki><lb xml:id="S-2054-0325"/><choice><abbr>〻</abbr><expan>色</expan></choice></nowiki>
-|[[圖片:重文例3.jpg]]
-|}
-=字型 工具=
+= 柒、標記工作的心得與問題討論=
-* 最好安裝 Unicode Super-CJK Fonts v6.0
+*異體字與通同字並不等同，是否該分同一類？
+*通假字是否該視為錯字？
+*專案新增之異體字，亦可能是錯字，或需考證？或需更多證據？證據數量的標準？
+*異體字書寫筆畫之判讀，如：辵字旁寫作辶，或作人 字型 ；水字旁寫作兩點，或作一直豎；戈字旁的點畫或在橫筆之下，或與撇筆相連；艹字旁或相連，或不相連，這些筆畫是否該分清楚？
+*"所遇異體字表"在增至兩百頁左右，因圖檔太多，Word檔容易產遲緩反應，或許可改用另一種方式制作表，目前資料庫數量太大，不宜重新制做，以待後人。
+*使用"教育部異體字典"時，發現字典收錄的字有若干問題，待資料增多之後，可一併討論。
+*塗改字佔一個字位還是兩個字位？（塗毀一個字位＋插入一個字位）
+* 寫卷有特別之書寫習慣者，應該將其字列入異體字嗎？例：P2305妙法蓮華經講經文：其字型凡有宀部首之字皆少右邊一勾；其字型凡有日部首之字皆將中間橫畫作豎畫；其字型凡有寸部首之字皆將一點作一豎畫。

匿名

搜尋

「中古佛教寫本資料庫工作手冊」：修訂間差異

於 2021年12月1日 (三) 15:06 的最新修訂

壹、工作流程說明

貳、編碼語言使用說明

異體字（包含通同字）的標記

錯字（包含假借字）的標記

特殊符號的標記

字形模糊不清、損毀、塗改的標記

刪除字的標記

插入字的標記

標點符號的標記

注解的標記

空格的標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

陸、完成寫卷

第一階段

第二階段

第三階段

第四階段

第五階段

第六階段

柒、標記工作的心得與問題討論

導覽

wiki工具

頁面工具