「中古佛教寫本資料庫工作手冊」:修訂間差異

出自DILA Wiki
imported>Blueve.tw
imported>Blueve.tw
無編輯摘要
行 36: 行 36:


==使用特殊符號的情況==
==使用特殊符號的情況==
   1、以萬國碼「雁點」(レ点 U+3191)為倒乙符號,在標明文字倒乙時使用(有㆑與乙兩種符號,依實際情況使用),標為:<orig reg="AB">B<add place="inline-right">㆑</add>A</orig>(<orig reg="AB">中的A、B字體須為標準字,B<add place="inline-right">㆑</add>A此處的A、B則可放入異體字)。<br/>
   1、以萬國碼「雁點」(レ点 U+3191)為倒乙符號 (參見:[[媒體:敦煌古代的標點符號.pdf]] [https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科:訓読]
,在標明文字倒乙時使用(有㆑與乙兩種符號,依實際情況使用),標為:<orig reg="AB">B<add place="inline-right">㆑</add>A</orig>(<orig reg="AB">中的A、B字體須為標準字,B<add place="inline-right">㆑</add>A此處的A、B則可放入異體字)。<br/>
     1)倒乙字若是萬國碼(Unicode)有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。<br/>
     1)倒乙字若是萬國碼(Unicode)有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。<br/>
     2)倒乙字若是萬國碼(Unicode)沒有的異體字,則標為:<orig reg="X">Y</orig>。<br/>
     2)倒乙字若是萬國碼(Unicode)沒有的異體字,則標為:<orig reg="X">Y</orig>。<br/>
   2、在標明省書符號時使用,如𦬇為菩薩的省書符號,則標為:<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>。(<expan>只在表示<abbr>的縮寫還原時使用, <expan> 標記中已視為「正規化」,故不再有如 <nowiki><reg></nowiki>或<unclear> 等標記)<br/>
   2、在標明省書符號時使用,如𦬇為菩薩的省書符號,則標為:<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>。(<expan>只在表示<abbr>的縮寫還原時使用, <expan> 標記中已視為「正規化」,故不再有如 <nowiki><reg></nowiki>或<unclear> 等標記)<br/>
   3、以萬國碼「疊字 號」(踊り字 U+303B)為叠字符號,在標明省書重文時使用,標為:<choice><abbr>A〻</abbr><expan>AA</expan></choice>。<br/>
   3、以萬國碼「疊字 號」(踊り字 U+303B)為叠字符號,在標明省書重文時使用,標為:<choice><abbr>A〻</abbr><expan>AA</expan></choice>。<br/>
     1)重文字若是萬國碼(Unicode)有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。<br/>
     1)重文字若是萬國碼(Unicode)有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。<br/>
     2)重文字若是萬國碼(Unicode)沒有的異體字,則標為:<orig reg="X">Y</orig>。<br/>
     2)重文字若是萬國碼(Unicode)沒有的異體字,則標為:<orig reg="X">Y</orig>。<br/>
以萬國碼「疊字元號」(踊り字 U+303B)為省書符號。Use <choice><abbr>阿〻難〻</abbr><expan>阿難阿難</expan></choice>
# 所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記。All <expan>sions are understood to be regularized and cannot contain further <unclear> etc.
# 省書符號前有行號時的標法:只標省書符號。


==字形模糊不清、損毀、塗改等情況==
==字形模糊不清、損毀、塗改等情況==
行 83: 行 87:
==空格標記==
==空格標記==
   1、偈語的空格:<space type="verseSpacing"/>。<br/>
   1、偈語的空格:<space type="verseSpacing"/>。<br/>
   2、段落的空格:<space type="punctuation" unit="char" extent="1"/>。<br/>
   2、段落的空格:<space type="punctuation" unit="char" extent="1"/>。 另起一段或徵引文獻時文獻末尾空格不標記<br/>
   3、無意義的空格:<space type="simpleSpace" unit="char" extent="1"/>。<br/>
   3、無意義的空格:<space type="simpleSpace" unit="char" extent="1"/>。<br/>


行 105: 行 109:
     1、當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣造成時,判定為異體字。<br/>
     1、當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣造成時,判定為異體字。<br/>
     2、萬國碼(Unicode)有收錄者,按原字型迻錄(此類將由freecommandXE程式轉成< orig >,顯示在原文抄本時為原字型,在標準字體化則呈現為藍色標準字)。<br/>
     2、萬國碼(Unicode)有收錄者,按原字型迻錄(此類將由freecommandXE程式轉成< orig >,顯示在原文抄本時為原字型,在標準字體化則呈現為藍色標準字)。<br/>
     3、萬國碼(Unicode)無收錄,而教育部異體字典有收錄 (已確定),標 :<orig reg="那"><g ref="#A04204-023"/></orig>。<br/>
     3、萬國碼(Unicode)無收錄,而教育部異體字典有收錄 ,能夠以所對應的正字表達出來 (已確定), 教育部異體字字典對該字的編號會記錄在<g>@ref 記中,如 :<orig reg="那"><g ref="#A04204-023"/></orig>。<br/>
     4、萬國碼(Unicode)無收錄,而教育部異體字典無收錄者(專案新增):<br/>
     4、萬國碼(Unicode)無收錄,而教育部異體字典無收錄 ,但字形結構上能夠分辨 者(專案新增):<br/>
       1)字形與異體字典無明顯不同者,標示同上例 4,如:  標成:<orig reg="數"><g ref="#A01739-038"/></orig> 。<br/>
       1)字形與異體字典無明顯不同者,標示同上例 。<br/>
       2)字形與異體字典有明顯不同者,標為 專案編定 ,如 :  標為 :<orig reg="福"><g ref="#S-2113-036-09"/></orig>。<br/>
       2)字形與異體字典有明顯不同者,<g>@ref 記編號 該字的卷次、行次、 ,如:<orig reg="福"><g ref="#S-2113-036-09"/></orig>。<br/>
     5、古今通用字,兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<nowiki><choice><orig>辰</orig><reg>震</reg></choice> <note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。</nowiki><br/>
     5、古今通用字,兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<nowiki><choice><orig>辰</orig><reg>震</reg></choice> <note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。</nowiki><br/>
   三、錯字(包含同音通假、形近而誤)<br/>
   三、錯字(包含同音通假、形近而誤)<br/>
行 117: 行 121:
=伍、所見異體字表=
=伍、所見異體字表=
*關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理,詳見:[[媒體:所遇異體字表.pdf]](表格尚在陸續增訂中)。
*關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理,詳見:[[媒體:所遇異體字表.pdf]](表格尚在陸續增訂中)。
==進階說明──文字迻錄原則==
*原則一、不論原文使用何種字體(楷書、行書、草書等),皆迻錄為楷書(楷化)。<br/>
*原則二、[https://zh.wikipedia.org/zh-tw/Unicode Unicode] 有提供字型者,按原字形迻錄。如:㘴,不改成為[http://www.edu.tw/FILES/SITE_CONTENT/M0001/BIAU/t00-8.htm?open 教育部標準字體(正字)]「坐」。<br/>
{| border="1"
|-
|'''Non-Unicode Variants - attested 萬國碼未收之異體字──已確認'''<br/>
#萬國碼未收之字形。The variant character is not in Unicode.<br/>
#[http://dict2.variants.moe.edu.tw/variants/ 教育部異體字字典]有收錄者。It is attested in the "Dictionary of Chinese Character Variants" 教育部異體字字典 (Ministry of Education, RoC, 2012). Current Query Interface: http://dict2.variants.moe.edu.tw/variants/.<br/>
#教育部異體字字典對該字的編號會記錄在<g>@ref標記中。 <g>@ref points to a header item which references the character number of the variant in the MoE Dictionary.<br/>
#能夠以所對應的正字表達出來。 It can be represented by a semantically equivalent common character (通用字).<br/>
|Ex.1: S-4272-0002:<br/>
為除忘相<nowiki><choice><orig><g ref="#A03335-004"/></orig><reg>修</reg></choice></nowiki>行六度
|[[圖片:origRegChoice.png|40px]]
|-
|'''Non-Unicode Variants - unattested 萬國碼未收之異體字──未確認(專案新增)'''<br/>
#萬國碼與教育部異體字字典均未收錄。The character is neither in Unicode nor in the MoE Dictionary.<br/>
#但字形結構上能夠分辨者。 Use this only for characters where the stroke count is clearly legible.<br/>
|Ex.1: S-4272-0022:<br/>
度眾生過去<nowiki><choice><orig><g ref="#S4272-022-14"/></orig><reg>逢</reg></choice></nowiki>无量恒
|[[圖片:reg1.png|40px]]
|-
|'''"Unclear" Characters 模糊字'''
#<unclear> 是一個較鬆散的解釋,此類字多受到摹寫字跡以及古代字形的影響。<unclear> is much open to interpretation. It is influenced strongly by the quality of the facsimile and the level of paleographic skills.
#標記此類文字時通常需借助其他版本的文獻,而不能由文本直接辨認出來。We use it in this project when the character and its stroke structure are not recognizable on their own, but only by comparing with other versions.<br/>
#所有的<unclear>都能理解為某個正字,但與<nowiki><reg></nowiki>不同的是<unclear>文字結構模糊,而<nowiki><reg></nowiki>的文字結構清晰。All <unclear> are understood as 通用字, this form of regularization differes from <nowiki><reg></nowiki>, however, because with <unclear> the intended variant is unknown. With <nowiki><reg></nowiki> the shape/stroke structure of the variant character is seen.<br/>
|Ex.1: P-3703-0002:
無有邊<nowiki><unclear>畔坐</unclear></nowiki>
|[[圖片:unclear1.png|80px]]
|-
|'''Significant spaces 文中的空格'''
#另起一段或徵引文獻時。Intentional, significant space before new sections (Ex. 1) or quotations (Ex.1).<br/>
#文獻末尾空格不標記。No <space> needed at end of a Ms folio.<br/>
|Ex.1: S-4272-0008 - S-4272-0010:
為中道<space unit="char" extent="2"/>苐三齊朝
人年十四遇達摩禪師
真登佛果<space unit="char" extent="1"/>楞伽経云
|[[圖片:space1.png|120px]]
|-
|'''Character(s) added in the Ms. 插入字'''
#文中有人插入文字。Character(s) added by a scribe in the Ms.<br/>
#大致描述插入字位置。@place gives rough description where to find it.<br/>
|Ex.1: S-4272-0009:
禪師俗<add place="inline-right">性</add>姖武窂人
|[[圖片:add1.png|40px]]
|-
|'''Character(s) Overwrite other Character(s): 覆蓋字'''
被覆蓋的字若不清楚則使用<del unit="char" extent="..."/>,清楚則轉錄出來,不確定則使用<unclear>。If the overwritten character is illegible use <del unit="char" extent="..."/>, if legible give character, if unsure use <unclear>.
|Ex.1: S-4272-0021:
為是知眾生識<nowiki><subst><del unit="char" extent="1"/><add>心</add></subst></nowiki>自度
|[[圖片:subst1.png|40px]]
|-
|'''Damaged but recognizable characters 破損字'''
<damage>與<unclear>近似,標記中直接使用正字。(範例中的字也可以識別為「忕」或「𢗗」,此處依另一版本。)<damage> is similar to <unclear> in that the text provided should be considered 通用字 as the variant can not be distinguished clearly.
|Ex.1: P-3703-0001 :
時<damage>狀</damage>𠰥
|[[圖片:damage1.png|60px]]
|-
|'''Unrecognizable characters due to accidental damage (tearing, breaking, smearing, blotting, smudging etc.) with later annotation 因意外而造成無法判讀(如撕裂、破損、磨滅、髒汙等),後來新增者'''
#背面墨水透出使「法」字部分不清,另一個字則完全不清。Seeping ink renders the character 法 partially illegible and another character completely illegible.
#可以推論第二個字可能被 (hand="1") 塗改為「有」,但又暈墨。Probably the latter character was originally deleted, and the first scribe (hand="1") had added a 有 next to the line, which, however, too became blotted as the ink seeped through, but is still inferable.
#不清的「法」字旁潦草寫了一個「法」。(hand="2") 又另在前次暈墨的「有」下方再寫一個「有」,這必然是在背面抄寫後才發生的,這份手卷發現數次這樣因背面的墨透背後,才進行的補救。 Later someone adds a quickly written 法 next to the partially damaged 法, and a 有 below the damaged first addition inline-right. This probably was someone else (@hand="2") because it must have occurred after the verso text had been written and there are several other cases of clarifying damaged characters elsewhere in the Ms.
#假定這髒污是由背面的墨透過來的,那事情發生的順序應是:先抄寫了正面,而背面又抄寫了其他文稿,結果導致墨暈至背面。後來在讀正面時(的人),又將模糊的字重書在右方。Assuming the blotting is due to ink seeping through the paper the series of events was: someone wrote the text, then something else was written on verso, and the ink seeping through blotted the recto text. A later reader clarifies unclear characters recto with a dry brush.
|Ex.1: P-3703-0007:
In the header: <profileDesc> <creation> <listChange> <change xml:id="stage1">The manuscript is written, corrections were made by the scribe.寫卷抄錄時的修正</change><change xml:id="stage2">The verso is written. Ink seeps through blotting some characters.背面抄寫時的墨透背後所汙染者</change><change xml:id="stage3">A later hand clarifies characters that were blotted out.在汙處外再次訂正</change> </listChange> </creation> </profileDesc>
非<unclear>離</unclear>生<damage change="#stage2">法</damage><add change="#stage3" hand="2" place="inline-right">法</add><damage change="#stage2"><nowiki><del change="#stage1" hand="1" unit="char" extent="1"/></nowiki><add change="#stage1" place="inline-right" hand="1">有</add></damage><add change="#stage3" hand="2" place="inline-right">有</add>无生龍<br/>
Ex.2: P-3703-0010:
一切圡木<damage change="#stage2">瓦</damage><add place="inline-right" change="#stage3">瓦</add>石
#The original character (probably 瓦) becomes illegible by ink seeping thorugh. 原來的字(應是「瓦」)被透背的墨所暈。
#A later hand clarifies the illegible section and writes 瓦 next to it. 後來的讀者重書「瓦」在右方。
|[[圖片:damageAdd1.png|50px]]
[[圖片:damageAdd2.png|50px]]
|-
|'''Reverse Mark 倒乙符號 (レ-点)'''
#以萬國碼「雁點」(レ点 U+3191)為倒乙符號。Use Unicode Character 'IDEOGRAPHIC ANNOTATION REVERSE MARK' (U+3191) within <add place="inline-right"> </add>
參見:[[媒體:敦煌古代的標點符號.pdf]] [https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科:訓読]
|Ex.1: P-3436-0037:
亦出<add place="inline-right">㆑</add>不扵有
|[[圖片:retten1.png|40px]]
|-
|'''Repetition / Iteration Mark  叠字符號'''
# 以萬國碼「疊字元號」(踊り字 U+303B)為叠字符號(重文)。Use Unicode Character 'VERTICAL IDEOGRAPHIC ITERATION MARK'  〻 (U+303B) .
參見:[http://en.wikipedia.org/wiki/Iteration_mark Iteration marks]
|
|[[圖片:重文例3.png]]P-3664-0500
|-
|rowspan="3"|'''Abbreviations 省書符號'''
# 以萬國碼「疊字元號」(踊り字 U+303B)為省書符號。Use <choice><abbr>阿〻難〻</abbr><expan>阿難阿難</expan></choice>
# 所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記。All <expan>sions are understood to be regularized and cannot contain further <unclear> etc.
# 省書符號前有行號時的標法:只標省書符號。
|Ex 1:P-3664-0511
<nowiki><choice><abbr>阿〻<reg>難</reg>〻</abbr><expan>阿難阿難</expan></choice></nowiki>
|[[圖片:重文例2.png]]
|-
|Ex 2:P-2634-0010
<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>
|[[圖片:省書.jpg]]
|-
|Ex 3:S-2054-0325
<nowiki><lb xml:id="S-2054-0325"/><choice><abbr>〻</abbr><expan>色</expan></choice></nowiki>
|[[圖片:省書.jpg]]
|}

於 2016年1月13日 (三) 11:13 的修訂

中古佛教寫本資料庫編碼工作手冊
The Database on the Grammar of Medieval Chinese
Date: 2015-7-06 Author:林靜慧(Lin Ching-hui)

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲(Hung Jen-jou)、安東平(Christoph Anderl)主持,馬德偉(Marcus Bingenheimer, Temple University)、張伯雍 (Zhang Boyong)擔任顧問。

壹、工作流程

一、下載所需敦煌寫卷影像檔(如至國際敦煌項目),並在PDF檔上標好行號。
二、搜尋寫卷內容是否有文字檔,若有文字檔則下載;若沒有則將影像檔初步打成文字檔。
三、細部分辨寫卷字形,用Notepad++或oxygen開啟寫卷文字檔(xml檔),在文字檔的基礎上,開始加上標記語言。
  注意事項:
  1注意標記語言的使用(參見「#參、標記語言範例表」)。
  2遇到萬國碼(Unicode)有的異體字,需同時維護異體字庫(參見檔案「00-variant-table-Ms-Project」),並注意程式只能判斷一組正字與異體字的關係,所以如果該異體字另兼正字,那麼就不能列入該檔中,需用人工輸入,以免因程式無法分辦而造成混亂。
  3遇到萬國碼(Unicode)沒有的異體字,需到教育部異體字字典找出對應字與下載字圖,存入異體字圖庫(參見檔案「gaiji」);若是異體字典沒有對應的字,先標明缺字並記錄該字的卷號行號字號,稍後需要造字。(如果將來出版實體書,這些unicode沒有的異體字圖檔皆需造字,將圖檔改成文字。)
四、完成標記後,用oxygen轉成原抄本檔與標準字檔,初步檢查是否有誤。
五、最後用freecommandXE程式將異體字庫中的異體字轉成<orig reg="X">(X代表教育部規範之正字),最後再檢查是否有誤。

  • 注意:
  1. 標明資料來源。
  2. 所使用的標記規範為 TEI P5
  3. 最好安裝 Unicode Super-CJK Fonts v6.0。

貳、編碼語言使用說明

異體字或通同字的情況

  1、在標明異體字或通同字時使用,標為:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字或通同字)。
  2、當Y為萬國碼(Unicode)所沒有的字時,則代換成<g ref="#Z"/>(Z代表教育部異體字典中的字碼或缺字的卷行字號)。
  3、檔案「00-variant-table-Ms-Project」中的異體字,程式會自動轉成<orig reg="X">Y</orig>的編碼並出現type(Unicode常用罕用字分類),但是若在<orig reg="X">中放進「00-variant-table-Ms-Project」有的異體字,程式會自動略過,字形不會產生變動,因此若遇到一字兼兩種正字的異體時,要選擇其中一種人工輸入,如仏字同時是佛與似的異體字,「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體,程式只會自動將仏轉成佛,那麼遇到似的異體時,便要標為:<orig reg="似">仏</orig>。
  4、所謂通同字,意指兩字有時有通用的情形,又各自另兼正字,如:鍾鐘為通同字,但其各有本義,鍾為酒器,鐘為樂器,在「二口金鍾」此文之鍾字作樂器解時,其本字當為鐘,此時編碼作<orig reg="鐘">鍾</orig>;又如:「有願尅從」,剋與尅為同音同義的通同字,克與剋為通同字,此文尅當作「能夠」解,克與尅都有「能夠」之意,而此尅依據教育部字典考定為:因與正字剋形體相近而成為常用之俗寫異體字,此時編碼作<orig reg="剋">尅</orig>。
  5、或有因字形相近,導致書寫習慣將兩字通同者,如:无(無的異體)與元,師與帥,客與容,雨與兩,此雖有通用的事實,但視為錯字,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表錯字,B代表正確的標準字)。
  

錯字或假借字的情況

  1、在標明錯字或同音通假時使用,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表錯字,B代表正確的標準字),若有他本可以作為校勘證據,便用<note>說明出處(出處可使用簡稱,並在凡例中將完整出處說明)。
  2、當A為萬國碼(Unicode)所沒有的字時,則代換成<orig reg="X">Y</orig>。
  3、所謂假借字,意指因同音或音近而造成的錯字,如: 「吝此明珠如姓明」,姓明二字語義不通,當為性命之同音假借的錯字,此時標為:<choice><sic>姓明</sic><corr>性命</corr></choice>。
  4、形近而誤的錯字,如:S-3491「跂覢電作朱旗」,跂乃形近跛而誤,而跛與披音近通假,有另一版本P-2187降魔變押座文與本卷之語為證,故標為:<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語,故知跂為跛之誤,且跂覢二字P-2187作披閃,蓋跛假作披。</note>
  

使用特殊符號的情況

  1、以萬國碼「雁點」(レ点 U+3191)為倒乙符號(參見:媒體:敦煌古代的標點符號.pdf 維基百科:訓読 ),在標明文字倒乙時使用(有㆑與乙兩種符號,依實際情況使用),標為:<orig reg="AB">B<add place="inline-right">㆑</add>A</orig>(<orig reg="AB">中的A、B字體須為標準字,B<add place="inline-right">㆑</add>A此處的A、B則可放入異體字)。
    1)倒乙字若是萬國碼(Unicode)有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。
    2)倒乙字若是萬國碼(Unicode)沒有的異體字,則標為:<orig reg="X">Y</orig>。
  2、在標明省書符號時使用,如𦬇為菩薩的省書符號,則標為:<choice>卄卄<expan>菩薩</expan></choice>。(<expan>只在表示的縮寫還原時使用, <expan> 標記中已視為「正規化」,故不再有如 <reg>或<unclear> 等標記)
  3、以萬國碼「疊字符號」(踊り字 U+303B)為叠字符號,在標明省書重文時使用,標為:<choice>A〻<expan>AA</expan></choice>。
    1)重文字若是萬國碼(Unicode)有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。
    2)重文字若是萬國碼(Unicode)沒有的異體字,則標為:<orig reg="X">Y</orig>。
以萬國碼「疊字元號」(踊り字 U+303B)為省書符號。Use <choice>阿〻難〻<expan>阿難阿難</expan></choice>

  1. 所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記。All <expan>sions are understood to be regularized and cannot contain further <unclear> etc.
  2. 省書符號前有行號時的標法:只標省書符號。

字形模糊不清、損毀、塗改等情況

  1、<unclear>:當文字墨色模糊(如:退色或磨損)或文字筆畫不清(如:行書、草書)難以判斷,需依賴上下文才能判讀時使用;若需要其他文獻校勘才能判讀時,便加上<note>說明文獻出處。
    1)若是遇到文字模糊不清無法確切辨識清楚時使用(原有的<reg>標號不用),標成:<unclear>A</unclear>(A代表該字);若是雖然字形不甚清晰,但仍有50%以上的把握能判斷該字,則直其書其字。
    2)若是異體字的字形不清楚,亦直接以<unclear>包覆標準字,不再使用<orig reg="X">或<choice>。
    3)若是因行書、草書的寫法導致筆畫不清,則不管字跡是否模糊,皆使以<unclear>包覆標準字。
  2、<damage>:當文字損毀時使用。
    1)文字略有損毀,尚可辨識時使用,標成:<damage>A</damage>(A代表該字)。
    2)若因破損而無法辨識,則標成:<damage unit="char" extent="1"/>。
    3)損毀嚴重,需參酌他本,理校出正字,則標成:<choice><unclear><damage unit="char" extent="1"/></unclear><reg>A</reg></choice>(A代表理校出的正字)。(<unit="chars"> 是早期的標記,現在統一作 unit="char")
  3、<gap>:文字並非損毀,或因塗改或其他原因,使得完全無法分辨字形,則標成:<gap unit="char" extent="1"/>。

刪除標記

  1、當某字被刪去時,標為:< del>A</ del>(A代表被刪去的字);若被刪去為異體字,A則代入<orig reg="X">Y</orig>。
  2、當某字被刪去後,又在其右邊加上改正的字時,標為:<subst><del>A</del><add place="inline-right">À</add></subst>(A代表原本寫錯的字,À代表改正後的字)。
  3、當某字被塗毀時,導致無法辨別字體時,標為:
  4、當某字因錯誤而被添加筆畫改成正確的字時,標為:<subst><del>A</del><add>À</add></subst>。

插入標記

  1、在字的右邊插入文字時,標為:<add place="inline-right">A</add>(A代表被插入的字)。
  2、在筆劃不清的字右邊插入文字時,標為:<subst><add place="inline-right">A</add></subst>。
  3、同一行中,先刪去某字,隨後寫上正確的字時,標為:<del>A</del>À(A代表原本寫錯的字,À代表改正後的字)。
  4、在錯字上修正筆畫改成正確的字時,標為:<subst><del>A</del><add>À</add></subst>。
  5、當被刪去的某字被塗毀而無法辨識,又在右邊加入改正字時,標成:<subst><gap unit="char" extent="1"/><add place="inline-right">A</add></subst>(A代表被插入的字)。
  6、當被刪改後的錯字為誤時,在<choice><sic>A</sic><corr>B</corr></choice>(A代表原抄寫者所寫的字,B代表標記者修訂的字)後加上<note>作說明。

標點標記

  1、一般標點標為:<pc>X</pc>(X代表標點符號)。
  2、當標點剛好落在重文符號中間時,如:以手遮<choice>日〻<expan>日日</expan></choice>光所下之䖏,兩個日中間當斷句時,可標為:<expan>日<pc>,</pc>日</expan>,或是日<pc>,</pc><choice><expan>日</expan></choice>。

注解標記

  1、公開給讀者看的說明,標為:<note>X</note>(X代表注解內容)。
  2、編碼者給自己看的提示(不會公開顯示),標為:<!--X-->。
  3、敦煌變校注的錨點(目前顯示為□):<anchor type="dh-bw-jiaozhu" n="X"/>(X代表原書注解序號)。
  4、小字雙行夾注,標成:<hi rendition="#inline-para">X<lb/>X</hi>(X代表夾注內容,<lb/>代表換行點)。
  5、後人寫的雙行小字注解文字,標成:<note resp="hand2" rendition="#inline-para">X<lb/>X</note>。
  6、後人寫在右邊注解文字,標成:<note resp="hand2" rendition="#inline-right">X</note>。

空格標記

  1、偈語的空格:<space type="verseSpacing"/>。
  2、段落的空格:<space type="punctuation" unit="char" extent="1"/>。另起一段或徵引文獻時文獻末尾空格不標記
  3、無意義的空格:<space type="simpleSpace" unit="char" extent="1"/>。

更正標記

  1、一般錯字:<choice><sic>A</sic><corr>À</corr></choice>(A為原抄寫的錯字,À為標記者改訂的正字)。
  2、一字誤拆為二字,如:臭的異體字臰被誤拆成自㤪二字,則標成:<choice><sic>自㤪</sic><corr>臰</corr></choice>。
  3、一字誤拆為二字,並換行則加入<lb/>,如:尖被誤拆成五人二字,其中人字換行書寫,則標成:<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。

參、標記語言範例表

肆、標記原則

  • 基本原則一:不論原文使用何種字體(楷書、行書、草書等),皆迻錄為楷書(楷化)。
  • 基本原則二:沒有特殊標記之字即標準字,此所謂標準字指的是2015年前後時期教育部異體字字典所定正字。

依照寫卷字形情況分成下面幾類標記規則:
  一、標準字
    1、字形筆畫與教育部異體字典所定正字完全相同者,即直書其字型而不作任何標記。
    2、字形與標準字大致相同,但筆畫因書寫習慣而有細部不同時,亦直書其字型而不作任何標記。
    3、當字形可辨識為某字,但細部筆畫不易辨識時,即標示為<unclear>標準字</unclear>。
  二、異體字(包含通同字)
    1、當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣造成時,判定為異體字。
    2、萬國碼(Unicode)有收錄者,按原字型迻錄(此類將由freecommandXE程式轉成< orig >,顯示在原文抄本時為原字型,在標準字體化則呈現為藍色標準字)。
    3、萬國碼(Unicode)無收錄,而教育部異體字典有收錄,能夠以所對應的正字表達出來(已確定),教育部異體字字典對該字的編號會記錄在<g>@ref標記中,如:<orig reg="那"><g ref="#A04204-023"/></orig>。
    4、萬國碼(Unicode)無收錄,而教育部異體字典無收錄,但字形結構上能夠分辨者(專案新增):
      1)字形與異體字典無明顯不同者,標示同上例3。
      2)字形與異體字典有明顯不同者,<g>@ref標記編號為該字的卷次、行次、字次,如:<orig reg="福"><g ref="#S-2113-036-09"/></orig>。
    5、古今通用字,兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<choice><orig>辰</orig><reg>震</reg></choice> <note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。
  三、錯字(包含同音通假、形近而誤)
    1、當字形筆畫與標準字有結構性的不同,且確定其與音義標準字也不同,判定為錯字。一般錯字標示為<choice><sic>錯字</sic><corr>標準字</corr></choice>,其後加<note>判定錯誤的依據</note>
    2、形近而誤:如:雹子空中自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分,此處客當作容,而容通溶。</note>。
    3、同音通假:恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice> <note>蘇遠鳴:〈敦煌石窟中的瑞像圖〉</note>。

伍、所見異體字表

  • 關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理,詳見:媒體:所遇異體字表.pdf(表格尚在陸續增訂中)。