檢視中古佛教寫本資料庫工作手冊的原始碼

'''中古佛教寫本資料庫編碼工作手冊'''<br/>
'''The Database on Medieval Chinese Dūnhuáng Texts'''<br/>
Date: 2015-7-06 Author:林靜慧（Lin Ching-hui）

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲（Hung Jen-jou）、安東平（Christoph Anderl）主持，馬德偉（Marcus Bingenheimer, Temple University）、張伯雍 （Zhang Boyong）擔任顧問。<br/>
[[圖片:S-3491寫卷影像.png|frame|工作圖例一：[[S-3491.png]]寫卷影像]][[圖片:S-3491的TEI標記.png|frame|工作圖例二：[[S-3491TEI.png]]標記]][[圖片:S-3491的數位版本.png|frame|工作圖例三：[[S-3491TEXT.png]]的數位版本]]

=壹、工作流程說明=
一、下載所需敦煌寫卷影像檔（如至[http://idp.nlc.gov.cn 國際敦煌項目]），並在PDF檔上標好行號。<br/>
二、搜尋寫卷內容是否有文字檔，若有文字檔則下載；若沒有則將影像檔初步打成文字檔。<br/>
三、細部分辨寫卷字形，用Notepad＋＋或oxygen開啟寫卷文字檔（xml檔），在文字檔的基礎上，開始加上標記語言。工作時需注意下例幾點：<br/>
　　１、注意標記語言的使用（參見「[[#參、標記語言範例表]]」）。<br/>
　　２、遇到萬國碼（Unicode）已收錄的異體字，需同時維護異體字庫（參見檔案「00-variant-table-Ms-Project」），並注意程式只能判斷一組正字與異體字的關係，所以如果該異體字另兼正字，那麼就不能列入該檔中，需用人工輸入標記：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），以免因程式無法分辦而造成混亂。<br/>
　　３、遇到萬國碼（Unicode）沒收錄的異體字，需到[http://dict2.variants.moe.edu.tw/variants/ 教育部異體字字典]找出對應字與下載字圖，存入異體字圖庫（參見檔案「gaiji」）；若是異體字典沒有對應的字，先標明缺字並記錄該字的卷次行次字次，稍後需要造字。（如果將來出版實體書，這些Unicode沒有的異體字圖檔皆需造字，將圖檔改成文字。）<br/>
　　４、遇到萬國碼（Unicode）、教育部異體字典未收錄，而全字庫中有造字的異體字，到檔案「png_24x24」搜尋字碼，存到「gaiji\png」中，因字檔前面不能是數字，所以在原檔名前加上大寫的Ｑ。<br/>

　　５、標明資料來源。<br/>
四、完成標記後，用oxygen轉成原抄本檔與標準字檔，初步檢查是否有誤。<br/>
五、最後用freecommandXE軟體叫出char-reg.rb程式，將異體字庫中的異體字轉成<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字），最後再檢查是否有誤。<br/>
*附加說明：
#所使用的標記規範為 [http://www.tei-c.org/release/doc/tei-p5-doc/zh-TW/html/index.html TEI P5]。<br/>
#最好安裝 Unicode Super-CJK Fonts v6.0。

=貳、編碼語言使用說明=
==異體字（包含通同字）的標記==
　　１、在標明異體字或通同字時使用，標為：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字）。<br/>
　　２、當Ｙ為萬國碼（Unicode）所沒有的字時，則代換成<g ref="#Ｚ"/>（Ｚ代表教育部異體字典中的字碼或缺字所在的卷次行次字次）。<br/>
　　３、檔案「00-variant-table-Ms-Project」收錄的異體字，freecommandXE程式會自動轉成<orig reg="Ｘ">Ｙ</orig>的標記並出現type（Unicode常用罕用字分類），但是若在<orig reg="Ｘ">中放進「00-variant-table-Ms-Project」收錄的異體字，卻會被程式自動略過，字形不會產生變動，因此若遇到一字兼兩種正字的異體時，要選擇其中一種收入「00-variant-table-Ms-Project」，另外一種則採用人工輸入，如仏字同時是佛與似的異體字，「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體，程式只會自動將仏轉成佛，那麼遇到似的異體時，便要標為：<orig reg="似">仏</orig>。<br/>
　　４、所謂通同字，意指兩字有時有通用的情形，又各自另兼正字，如：鍾鐘為通同字，但其各有本義，鍾為酒器，鐘為樂器，在「二口金鍾」此文之鍾字作樂器解時，其本字當為鐘，此時編碼作<orig reg="鐘">鍾</orig>；又如：「有願尅從」，剋與尅為同音同義的通同字，克與剋為通同字，此文尅當作「能夠」解，克與尅都有「能夠」之意，而此尅依據教育部異體字典考定：因與正字剋形體相近而成為常用之俗寫異體字，此時編碼作<orig reg="剋">尅</orig>。<br/>
　　５、或有因字形相近，導致書寫習慣將兩字通用者，如：无（無的異體）與元，師與帥，客與容，雨與兩，此雖有通用的事實，但為書寫筆畫的習慣，而非意義有相通處，因此被歸入形近而誤的錯字，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原文字形，Ｂ代表編碼者修定的標準字）。<br/>　　

==錯字（包含假借字）的標記==
　　１、一般錯字：在標明字形書寫錯誤時使用，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表原寫本的字形，Ｂ代表編碼者修定的標準字，當Ａ為Unicode所沒有的字時，則代換成<orig reg="Ｘ">Ｙ</orig>），若有他本可以作為校勘證據，便用<note>說明出處（出處可使用簡稱，並在凡例中將完整出處說明）。除了單字對應的錯字之外，還有一字誤為兩者：<br/>
　　　 １）一字誤拆為二字者，如：S-3491有臭的異體字臰被誤拆成自㤪二字，則標成：<choice><sic>自㤪</sic><corr>臰</corr></choice>。<br/>
　　　 ２）一字誤拆為二字，並換行者，則加入<lb/>，如：S-3491有尖被誤拆成五人二字，其中人字換行書寫，則標成：<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。<br/>
　　２、同音通假（假借字）視為因音同或音近而造成的錯字，如:S-2113「吝此明珠如姓明」，姓明二字語義不通，當為性命之同音假借的錯字，此時標為：<choice><sic>姓明</sic><corr>性命</corr></choice>。<br/>
　　３、形近而誤的錯字，如：S-3491「跂覢電作朱旗」，跂乃形近跛而誤，而跛與披音近通假，有另一版本P-2187降魔變押座文與本卷之語為證，故標為：<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語，故知跂為跛之誤，且跂覢二字P-2187作披閃，蓋跛假作披。</note>。<br/>

==特殊符號的標記==
　　１、以萬國碼「雁點」（レ点 U+3191）與乙字為倒乙符號（參見：[[媒體:敦煌古代的標點符號.pdf]]、[https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科：訓読]
），在標明文字倒乙時使用，標為：<orig reg="ＡＢ">Ｂ<add place="inline-right">㆑</add>Ａ</orig>或<orig reg="ＡＢ">Ｂ<add place="inline-right">乙</add>Ａ</orig>。<br/>
　　　　１）倒乙字若是萬國碼（Unicode）已收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。<br/>
　　　　２）倒乙字若是萬國碼（Unicode）未收錄的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。<br/>
　　　　３）<orig reg="ＡＢ">中的Ａ、Ｂ字體須為標準字，Ｂ<add place="inline-right">㆑</add>Ａ此處的Ａ、Ｂ則可放入異體字。<br/>
　　２、以萬國碼「疊字符號」（踊り字 U+303B）為重文符號，在標明省書重文時使用，如：<choice><abbr>Ａ〻</abbr><expan>ＡＡ</expan></choice>或<choice><abbr>Ａ〻Ｂ〻</abbr><expan>ＡＢＡＢ</expan></choice>（所有的 <expan> 標記中已視為「正規化」，故不再有如 <unclear> 等標記）。<br/>
　　　　１）重文字若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。<br/>
　　　　２）重文字若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。<br/>
　　　　３）省書符號前有行號時的標法：只標省書符號。<br/>
　　３、另有一種省書方式沒有特殊符號的標示，而是對常用字形直接減筆書寫，如𦬇為菩薩的省書符號，此時則標為：<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>。<br/>
　　　　１）<abbr>包含的字形若是萬國碼（Unicode）有收錄的異體字則直書其字形，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。<br/>
　　　　２）<abbr>包含的字形若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。<br/>
　　　　３）<expan>只在表示<abbr>的縮寫還原時使用， <expan> 標記中已視為「正規化」，故不再有如 <nowiki><reg></nowiki>或<unclear> 等標記。<br/>
　　

==字形模糊不清、損毀、塗改的標記==
　　１、<unclear>：當文字墨色模糊（如：退色或磨損）或文字筆畫不清（如：行書、草書）難以判斷，需依賴上下文才能判讀時使用；若需要其他文獻校勘才能判讀時，便加上<note>說明文獻出處。<br/>
　　　　１）若是遇到文字模糊不清無法確切辨識清楚時使用（原有的<nowiki><reg></nowiki>標號不用），標成：<unclear>Ａ</unclear>（Ａ代表該字）；若是雖然字形不甚清晰，但仍有50%以上的把握能判斷該字，則直其書其字。<br/>
　　　　２）若是異體字的字形不清楚，亦直接以<unclear>包覆標準字，不再使用<orig reg="Ｘ">或<choice>。<br/>
　　　　３）若是因行書、草書的寫法導致筆畫不清，則不管字跡是否模糊，皆使以<unclear>包覆標準字。<br/>
　　２、<damage>：當文字損毀時使用。<br/>
　　　　１）文字略有損毀，尚可辨識時使用，標成：<damage>Ａ</damage>（Ａ代表損毀字）。<br/>
　　　　２）若因破損而無法辨識，則標成：<damage unit="char" extent="Ｘ"/>（Ｘ代表損毀的字數）。<br/>
　　　　３）損毀嚴重，需參酌他本，理校出正字，則標成：<nowiki><choice><unclear><damage unit="char" extent="1"/></unclear><reg>Ａ</reg></choice></nowiki>（Ａ代表編碼者理校出的正字）。（<unit="chars"> 是早期的標記，現在統一作 unit="char"）<br/>
　　３、<gap>：文字並非損毀，或因塗改或其他原因，使得完全無法分辨字形時使用，標成：<gap unit="char" extent="1"/>。<br/>

==刪除字的標記==
　　１、當某字被刪去時，標為：<nowiki><del>Ａ</del></nowiki>（Ａ代表被刪去的字）；若Ａ為異體字，則代入<orig reg="Ｘ">Ｙ</orig>。<br/>
　　２、同一行中，先刪去某字，隨後寫上正確的字時，標為：<nowiki><del>Ａ</del>À</nowiki>（Ａ代表原本寫錯的字，À代表改正後的字）。<br/>
　　３、當某字被刪去後，又在其右邊加上改正的字時，標為：<nowiki><subst><del>Ａ</del><add place="inline-right">À</add></subst></nowiki>（Ａ代表原本寫錯的字，À代表改正後的字）。<br/>
　　４、當某字被塗毀時，導致無法辨別字體時，標為：<del unit="char" extent="1"/>。<br/>
　　５、當在錯字上添加筆畫改成正確的字時，標為：<nowiki><subst><del>Ａ</del><add>À</add></subst></nowiki>（Ａ代表原本寫錯的字，À代表改正後的字）。<br/>
　　６、寫卷表示刪除字，除了直接劃掉、塗改筆畫，還有在被刪字的右邊標上卜字或是頓點等符號，詳細例證可參見[[媒體:敦煌古代的標點符號.pdf]]，在此並不特別標出符號形式，統一採用<nowiki><del></nowiki>標記。<br/>

==插入字的標記==
　　１、在字的右邊插入文字時，標為：<add place="inline-right">Ａ</add>（Ａ代表被插入的字）。<br/>
　　２、在筆劃不清的字右邊插入文字時，標為：<subst><del unit="char" extent="1"/><add place="inline-right">Ａ</add></subst>。<br/>
　　３、在錯字上添加筆畫改成正確的字時，標為：<nowiki><subst><del>Ａ</del><add>À</add></subst></nowiki>（Ａ代表原本寫錯的字，À代表改正後的字）。<br/>
　　４、當被刪去的某字被塗毀而無法辨識，又在右邊加入改正字時，標為：<subst><gap unit="char" extent="1"/><add place="inline-right">Ａ</add></subst>（Ａ代表被插入的字）。<br/>
　　５、當被刪改的錯字被標記者判定為誤時，在<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>（Ａ代表原文字形，Ｂ代表編碼者修訂的字）後加上<note>作說明。<br/>

==標點符號的標記==
　　１、一般標點標為：<pc>Ｘ</pc>（Ｘ代表編碼者插入的中式全型標點符號，只會在標準字體化的版本顯示）。<br/>
　　２、當標點剛好落在重文符號中間時，如：以手遮<choice><abbr>日〻</abbr><expan>日日</expan></choice>光所下之䖏，兩個日中間當斷句時，可標為：<expan>日<pc>，</pc>日</expan>，或是日<pc>，</pc><choice><abbr>〻</abbr><expan>日</expan></choice>。<br/>

==注解的標記==
　　１、小字雙行夾注，標為：<hi rendition="#inline-para">Ｘ<lb/>Ｘ</hi>（Ｘ代表注解內容，<lb/>代表換行點）。<br/>
　　２、後人寫的雙行小字注解文字，標為：<note resp="hand2" rendition="#inline-para">Ｘ<lb/>Ｘ</note>（Ｘ代表注解內容，<lb/>代表換行點）。<br/>
　　３、後人寫在右邊注解文字，標為：<note resp="hand2" rendition="#inline-right">Ｘ</note>（Ｘ代表注解內容）。<br/>
　　４、編碼者的說明（會公開顯示），標為：<note>Ｘ</note>（Ｘ代表注解內容）。<br/>
　　５、編碼者給自己看的提示（不會公開顯示），標為：<nowiki><!--Ｘ--></nowiki>。<br/>
　　６、《敦煌變校注》的錨點（目前顯示為□）：<anchor type="dh-bw-jiaozhu" n="Ｘ"/>（Ｘ代表原書注解序號）。<br/>

==空格的標記==
*凡是文獻末尾的空格不予以標記。
　　１、韻文的空格：在散文描述中，插入一段偈語或詩歌時，往往換行縮排，並在句與句之間空若干字，此時在空下的位置標記<space type="verseSpacing" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。<br/>
　　２、段落的空格：在另起一段，或徵引文獻時，行首會空下若干字，此時在空下的位置標記<space type="punctuation" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。<br/>
　　３、挪抬的空格：在行文中，有為表示敬意而空一字者，此時在空下的位置標記<space type="honorific" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。<br/>
　　４、無意義的空格：有在標題上空下數字，或在行文中有不該有空字而空者，此時在空下的位置標記<space type="simpleSpace" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。<br/>

=參、標記語言範例表=
*關於標記語言的規範與實例，請參見：[[媒體:編碼語言範例.pdf]]（陸續修訂中）。

=肆、標記原則=
*基本原則一：不論原文使用何種字體（楷書、行書、草書等），皆迻錄為楷書（楷化）。
*基本原則二：沒有特殊標記之字即標準字，此所謂標準字指的是2015年前後時期[http://dict2.variants.moe.edu.tw/variants/ 教育部異體字字典]所定正字。
依照寫卷字形情況分成下面幾類標記規則：<br/>
　　一、標準字<br/>
　　　　１、字形筆畫與教育部異體字典所定正字完全相同者，即直書其字型而不作任何標記。<br/>
　　　　２、字形與標準字大致相同，但筆畫因書寫習慣而有細部不同時，亦直書其字型而不作任何標記。<br/>
　　　　３、當字形可辨識為某字，但細部筆畫不易辨識時，即標示為<unclear>標準字</unclear>。<br/>
　　二、異體字（包含通同字）<br/>
　　　　１、當字形筆畫與標準字有結構性的不同，而此不同並非因為書寫習慣造成時，判定為異體字。<br/>
　　　　２、萬國碼（Unicode）有收錄者，按原字型迻錄（此類將由freecommandXE程式轉成< orig >，顯示在原文抄本時為原字型，在標準字體化則呈現為藍色標準字）。<br/>
　　　　３、萬國碼（Unicode）無收錄，而教育部異體字典有收錄，能夠以所對應的正字表達出來，教育部異體字字典對該字的編號會記錄在<g>@ref標記中，如：<orig reg="那"><g ref="#A04204-023"/></orig>。<br/>
　　　　４、萬國碼（Unicode）與教育部異體字典皆無收錄，但字形結構上能夠分辨者：<br/>
　　　　　　１）字形與教育部異體字典收錄之字雖不完全相同，但差異不大者，標為：<orig reg="那"><g ref="#A04204-023"/></orig>。<br/>
　　　　　　２）字形與教育部異體字典有明顯不同者，<g>@ref標記編號為該字的卷次、行次、字次，如：<orig reg="福"><g ref="#S-2113-036-09"/></orig>（S-2113為卷次，036為行次，09為字次）。<br/>
　　　　５、古今通同字：兩者字形不同，但為古今字或有通用的情形，標例同異體字：如：紅旗初<orig reg="震">辰</orig><note>《說文》段注云：辰，震也。震振古通用，此亦可作振。</note>。<br/>
　　三、錯字（包含同音通假、形近而誤）<br/>
　　　　１、當字形筆畫與標準字有結構性的不同，且確定其與音義標準字也不同，判定為錯字。一般錯字標為：<nowiki><choice><sic>錯字</sic><corr>標準字</corr></choice>，其後加<note>判定錯誤的依據</note></nowiki><br/>
　　　　２、形近而誤：因此字形相近而產生錯誤，如：雹子空中自消<nowiki><choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分，此處客當作容，而容通溶。</note>。</nowiki><br/>
　　　　３、同音通假：因字音相近而產錯誤，如：恡此明珠如<nowiki><choice><orig>姓明</orig><reg>性命</reg></choice><note>見蘇遠鳴：〈敦煌石窟中的瑞像圖〉。</note>。</nowiki><br/>

=伍、所見異體字表=
*關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理，詳見：[[媒體:所遇異體字表.pdf]]（表格尚在陸續增訂中）。
=陸、標記工作的心得與問題討論=
*異體字與通同字並不等同，是否該分同一類？
*通假字是否該視為錯字？
*專案新增之異體字，亦可能是錯字，或需考證？或需更多證據？證據數量的標準？