中古佛教寫本資料庫工作手冊

出自DILA Wiki
於 2016年1月13日 (三) 10:04 由 imported>Blueve.tw 所做的修訂 →‎肆、標記原則

中古佛教寫本資料庫編碼工作手冊
The Database on the Grammar of Medieval Chinese
Date: 2015-7-06 Author:林靜慧(Lin Ching-hui)

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲(Hung Jen-jou)、安東平(Christoph Anderl)主持,馬德偉(Marcus Bingenheimer, Temple University)、張伯雍 (Zhang Boyong)擔任顧問。

壹、工作流程

一、下載所需敦煌寫卷影像檔(可至國際敦煌項目),並在PDF檔上標好行號。
二、搜尋寫卷內容是否有文字檔,若有文字檔則下載;若沒有則將影像檔初步打成文字檔。
三、細部分辨寫卷字形,用Notepad++或oxygen開啟寫卷文字檔(xml檔),在文字檔的基礎上,開始加上標記語言。
  注意事項:
  1注意標記語言的使用(參見「標記語言範例表」)。
  2遇到unicode有的異體字,需同時維護異體字庫(參見檔案「00-variant-table-Ms-Project」),並注意程式只能判斷一組正字與異體字的關係,所以如果該異體字另兼正字,那麼就不能列入該檔中,需用人工輸入,以免因程式無法分辦而造成混亂。
  3遇到unicode沒有的異體字,需到「教育部異體字典」找出對應字與下載字圖,存入異體字圖庫(參見檔案「gaiji」);若是異體字典沒有對應的字,先標明缺字並記錄該字的卷號行號字號,稍後需要造字。(如果將來出版實體書,這些unicode沒有的異體字圖檔皆需造字,將圖檔改成文字。)
四、完成標記後,用oxygen轉成原抄本檔與標準字檔,初步檢查是否有誤。
五、最後用freecommandXE程式將異體字庫中的異體字轉成<orig reg="X">(X代表教育部規範之正字),最後再檢查是否有誤。
PS:注意標明資料來源。
PS2:所使用的標記規範為 TEI P5
PS3:最好安裝 Unicode Super-CJK Fonts v6.0

貳、編碼語言使用說明

異體字或通同字的情況

  1、在標明異體字或通同字時使用,標為:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字或通同字)。
  2、當Y為unicode所沒有的字時,則代換成<g ref="#Z"/>(Z代表教育部異體字典中的字碼或缺字的卷行字號)。
  3、檔案「00-variant-table-Ms-Project」中的異體字,程式會自動轉成<orig reg="X">Y</orig>的編碼並出現type(unicode常用罕用字分類),但是若在<orig reg="X">中放進「00-variant-table-Ms-Project」有的異體字,程式會自動略過,字形不會產生變動,因此若遇到一字兼兩種正字的異體時,要選擇其中一種人工輸入,如仏字同時是佛與似的異體字,「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體,程式只會自動將仏轉成佛,那麼遇到似的異體時,便要標為:<orig reg="似">仏</orig>。
  4、所謂通同字,意指兩字有時有通用的情形,又各自另兼正字,如:鍾鐘為通同字,但其各有本義,鍾為酒器,鐘為樂器,在「二口金鍾」此文之鍾字作樂器解時,其本字當為鐘,此時編碼作<orig reg="鐘">鍾</orig>;又如:「有願尅從」,剋與尅為同音同義的通同字,克與剋為通同字,此文尅當作「能夠」解,克與尅都有「能夠」之意,而此尅依據教育部字典考定為:因與正字剋形體相近而成為常用之俗寫異體字,此時編碼作<orig reg="剋">尅</orig>。
  5、或有因字形相近,導致書寫習慣將兩字通同者,如:无(無的異體)與元,師與帥,客與容,雨與兩,此雖有通用的事實,但視為錯字,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表錯字,B代表正確的標準字)。
  

錯字或假借字的情況

  1、在標明錯字或同音通假時使用,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表錯字,B代表正確的標準字),若有他本可以作為校勘證據,便用<note>說明出處(出處可使用簡稱,並在凡例中將完整出處說明)。
  2、當A為unicode所沒有的字時,則代換成<orig reg="X">Y</orig>。
  3、所謂假借字,意指因同音或音近而造成的錯字,如: 「吝此明珠如姓明」,姓明二字語義不通,當為性命之同音假借的錯字,此時標為:<choice><sic>姓明</sic><corr>性命</corr></choice>。
  4、形近而誤的錯字,如:S-3491「跂覢電作朱旗」,跂乃形近跛而誤,而跛與披音近通假,有另一版本P-2187降魔變押座文與本卷之語為證,故標為:<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語,故知跂為跛之誤,且跂覢二字P-2187作披閃,蓋跛假作披。</note>
  

使用特殊符號的情況

  1、以萬國碼「雁點」(レ点 U+3191)為倒乙符號,在標明文字倒乙時使用(有㆑與乙兩種符號,依實際情況使用),標為:<orig reg="AB">B<add place="inline-right">㆑</add>A</orig>(<orig reg="AB">中的A、B字體須為標準字,B<add place="inline-right">㆑</add>A此處的A、B則可放入異體字)。
    1)倒乙字若是unicode有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。
    2)倒乙字若是unicode沒有的異體字,則標為:<orig reg="X">Y</orig>。
  2、在標明省書符號時使用,如𦬇為菩薩的省書符號,則標為:<choice>卄卄<expan>菩薩</expan></choice>。(<expan>只在表示的縮寫還原時使用, <expan> 標記中已視為「正規化」,故不再有如 <reg>或<unclear> 等標記)
  3、以萬國碼「疊字元號」(踊り字 U+303B)為叠字符號,在標明省書重文時使用,標為:<choice>A〻<expan>AA</expan></choice>。
    1)重文字若是unicode有的異體字則直書異體字,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。
    2)重文字若是unicode沒有的異體字,則標為:<orig reg="X">Y</orig>。

字形模糊不清、損毀、塗改等情況

  1、<unclear>:當文字墨色模糊(如:退色或磨損)或文字筆畫不清(如:行書、草書)難以判斷,需依賴上下文才能判讀時使用;若需要其他文獻校勘才能判讀時,便加上<note>說明文獻出處。
    1)若是遇到文字模糊不清無法確切辨識清楚時使用(原有的<reg>標號不用),標成:<unclear>A</unclear>(A代表該字);若是雖然字形不甚清晰,但仍有50%以上的把握能判斷該字,則直其書其字。
    2)若是異體字的字形不清楚,亦直接以<unclear>包覆標準字,不再使用<orig reg="X">或<choice>。
    3)若是因行書、草書的寫法導致筆畫不清,則不管字跡是否模糊,皆使以<unclear>包覆標準字。
  2、<damage>:當文字損毀時使用。
    1)文字略有損毀,尚可辨識時使用,標成:<damage>A</damage>(A代表該字)。
    2)若因破損而無法辨識,則標成:<damage unit="char" extent="1"/>。
    3)損毀嚴重,需參酌他本,理校出正字,則標成:<choice><unclear><damage unit="char" extent="1"/></unclear><reg>A</reg></choice>(A代表理校出的正字)。(<unit="chars"> 是早期的標記,現在統一作 unit="char")
  3、<gap>:文字並非損毀,或因塗改或其他原因,使得完全無法分辨字形,則標成:<gap unit="char" extent="1"/>。

刪除標記

  1、當某字被刪去時,標為:< del>A</ del>(A代表被刪去的字);若被刪去為異體字,A則代入<orig reg="X">Y</orig>。
  2、當某字被刪去後,又在其右邊加上改正的字時,標為:<subst><del>A</del><add place="inline-right">À</add></subst>(A代表原本寫錯的字,À代表改正後的字)。
  3、當某字被塗毀時,導致無法辨別字體時,標為:
  4、當某字因錯誤而被添加筆畫改成正確的字時,標為:<subst><del>A</del><add>À</add></subst>。

插入標記

  1、在字的右邊插入文字時,標為:<add place="inline-right">A</add>(A代表被插入的字)。
  2、在筆劃不清的字右邊插入文字時,標為:<subst><add place="inline-right">A</add></subst>。
  3、同一行中,先刪去某字,隨後寫上正確的字時,標為:<del>A</del>À(A代表原本寫錯的字,À代表改正後的字)。
  4、在錯字上修正筆畫改成正確的字時,標為:<subst><del>A</del><add>À</add></subst>。
  5、當被刪去的某字被塗毀而無法辨識,又在右邊加入改正字時,標成:<subst><gap unit="char" extent="1"/><add place="inline-right">A</add></subst>(A代表被插入的字)。
  6、當被刪改後的錯字為誤時,在<choice><sic>A</sic><corr>B</corr></choice>(A代表原抄寫者所寫的字,B代表標記者修訂的字)後加上<note>作說明。

標點標記

  1、一般標點標為:<pc>X</pc>(X代表標點符號)。
  2、當標點剛好落在重文符號中間時,如:以手遮<choice>日〻<expan>日日</expan></choice>光所下之䖏,兩個日中間當斷句時,可標為:<expan>日<pc>,</pc>日</expan>,或是日<pc>,</pc><choice><expan>日</expan></choice>。

注解標記

  1、公開給讀者看的說明,標為:<note>X</note>(X代表注解內容)。
  2、編碼者給自己看的提示(不會公開顯示),標為:<!--X-->。
  3、敦煌變校注的錨點(目前顯示為□):<anchor type="dh-bw-jiaozhu" n="X"/>(X代表原書注解序號)。
  4、小字雙行夾注,標成:<hi rendition="#inline-para">X<lb/>X</hi>(X代表夾注內容,<lb/>代表換行點)。
  5、後人寫的雙行小字注解文字,標成:<note resp="hand2" rendition="#inline-para">X<lb/>X</note>。
  6、後人寫在右邊注解文字,標成:<note resp="hand2" rendition="#inline-right">X</note>。

空格標記

  1、偈語的空格:<space type="verseSpacing"/>。
  2、段落的空格:<space type="punctuation" unit="char" extent="1"/>。
  3、無意義的空格:<space type="simpleSpace" unit="char" extent="1"/>。

更正標記

  1、一般錯字:<choice><sic>A</sic><corr>À</corr></choice>(A為原抄寫的錯字,À為標記者改訂的正字)。
  2、一字誤拆為二字,如:臭的異體字臰被誤拆成自㤪二字,則標成:<choice><sic>自㤪</sic><corr>臰</corr></choice>。
  3、一字誤拆為二字,並換行則加入<lb/>,如:尖被誤拆成五人二字,其中人字換行書寫,則標成:<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。

參、標記語言範例表

肆、標記原則

  • 基本原則一:不論原文使用何種字體(楷書、行書、草書等),皆迻錄為楷書(楷化)。
  • 基本原則二:沒有特殊標記之字即標準字,此所謂標準字指的是2015年前後時期教育部異體字字典所定正字。

依照寫卷字形情況分成下面幾類標記規則:
  一、標準字
    1、字形筆畫與教育部異體字典所定正字完全相同者,即直書其字型而不作任何標記。
    2、字形與標準字大致相同,但筆畫因書寫習慣而有細部不同時,亦直書其字型而不作任何標記。
    3、當字形可辨識為某字,但細部筆畫不易辨識時,即標示為<unclear>標準字</unclear>。
  二、異體字(包含通同字)
    1、當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣造成時,判定為異體字。
    2、萬國碼(Unicode)有字,且教育部異體字典有收錄者,標示unicode字型(freecommandXE程式將異體字庫中的異體字轉成< orig >,但若已被包在< orig >中的異體字則不會被改動),如: :𦰧,但該字若另兼正字或另兼別字異體,程式無法判斷,如:仏既為佛之異體,又為似之異體,當其作為佛之異體字時,因為異體字表中有登記,故只須寫成仏,若作為似之異體字時,則標成<orig reg="似">仏</orig>。
    3、萬國碼(Unicode)有字,而教育部異體字典無收錄者,標示unicode字型,處理同上例2。
    4、萬國碼(Unicode)無字,而教育部異體字典有收錄者,如: 教育部異體字碼為A04204-023,故標成:<orig reg="那"><g ref="# A04204-023"/></orig>。
    5、萬國碼(Unicode)無字,而教育部異體字典無收錄者:
      1)字形與異體字典無明顯不同者,標示同上例4,如: 標成:<orig reg="數"><g ref="# A01739-038"/></orig>。
      2)字形與異體字典有明顯不同者,標為專案編定字碼,如: 標為:<orig reg="福"><g ref="#S-2113-036-09"/></orig>。
    6、古今通用字,兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<choice><orig>辰</orig><reg>震</reg></choice> <note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。
  三、錯字(包含同音通假、形近而誤)
    1、當字形筆畫與標準字有結構性的不同,且確定其與音義標準字也不同,判定為錯字。一般錯字標示為<choice><sic>錯字</sic><corr>標準字</corr></choice>,其後加<note>判定錯誤的依據</note>
    2、形近而誤:如:雹子空中自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分,此處客當作容,而容通溶。</note>。
    3、同音通假:恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice> <note>蘇遠鳴:〈敦煌石窟中的瑞像圖〉</note>。

伍、所見異體字表

進階說明──文字迻錄原則

  • 原則一、不論原文使用何種字體(楷書、行書、草書等),皆迻錄為楷書(楷化)。
  • 原則二、Unicode 有提供字型者,按原字形迻錄。如:㘴,不改成為教育部標準字體(正字)「坐」。
Non-Unicode Variants - attested 萬國碼未收之異體字──已確認
  1. 萬國碼未收之字形。The variant character is not in Unicode.
  2. 教育部異體字字典有收錄者。It is attested in the "Dictionary of Chinese Character Variants" 教育部異體字字典 (Ministry of Education, RoC, 2012). Current Query Interface: http://dict2.variants.moe.edu.tw/variants/.
  3. 教育部異體字字典對該字的編號會記錄在<g>@ref標記中。 <g>@ref points to a header item which references the character number of the variant in the MoE Dictionary.
  4. 能夠以所對應的正字表達出來。 It can be represented by a semantically equivalent common character (通用字).
Ex.1: S-4272-0002:

為除忘相<choice><orig><g ref="#A03335-004"/></orig><reg>修</reg></choice>行六度

OrigRegChoice.png
Non-Unicode Variants - unattested 萬國碼未收之異體字──未確認(專案新增)
  1. 萬國碼與教育部異體字字典均未收錄。The character is neither in Unicode nor in the MoE Dictionary.
  2. 但字形結構上能夠分辨者。 Use this only for characters where the stroke count is clearly legible.
Ex.1: S-4272-0022:

度眾生過去<choice><orig><g ref="#S4272-022-14"/></orig><reg>逢</reg></choice>无量恒

Reg1.png
"Unclear" Characters 模糊字
  1. <unclear> 是一個較鬆散的解釋,此類字多受到摹寫字跡以及古代字形的影響。<unclear> is much open to interpretation. It is influenced strongly by the quality of the facsimile and the level of paleographic skills.
  2. 標記此類文字時通常需借助其他版本的文獻,而不能由文本直接辨認出來。We use it in this project when the character and its stroke structure are not recognizable on their own, but only by comparing with other versions.
  3. 所有的<unclear>都能理解為某個正字,但與<reg>不同的是<unclear>文字結構模糊,而<reg>的文字結構清晰。All <unclear> are understood as 通用字, this form of regularization differes from <reg>, however, because with <unclear> the intended variant is unknown. With <reg> the shape/stroke structure of the variant character is seen.
Ex.1: P-3703-0002:

無有邊<unclear>畔坐</unclear>

Unclear1.png
Significant spaces 文中的空格
  1. 另起一段或徵引文獻時。Intentional, significant space before new sections (Ex. 1) or quotations (Ex.1).
  2. 文獻末尾空格不標記。No <space> needed at end of a Ms folio.
Ex.1: S-4272-0008 - S-4272-0010:

為中道<space unit="char" extent="2"/>苐三齊朝 人年十四遇達摩禪師 真登佛果<space unit="char" extent="1"/>楞伽経云

Space1.png
Character(s) added in the Ms. 插入字
  1. 文中有人插入文字。Character(s) added by a scribe in the Ms.
  2. 大致描述插入字位置。@place gives rough description where to find it.
Ex.1: S-4272-0009:

禪師俗<add place="inline-right">性</add>姖武窂人

Add1.png
Character(s) Overwrite other Character(s): 覆蓋字

被覆蓋的字若不清楚則使用,清楚則轉錄出來,不確定則使用<unclear>。If the overwritten character is illegible use , if legible give character, if unsure use <unclear>.

Ex.1: S-4272-0021:

為是知眾生識<subst><del unit="char" extent="1"/><add>心</add></subst>自度

Subst1.png
Damaged but recognizable characters 破損字

<damage>與<unclear>近似,標記中直接使用正字。(範例中的字也可以識別為「忕」或「𢗗」,此處依另一版本。)<damage> is similar to <unclear> in that the text provided should be considered 通用字 as the variant can not be distinguished clearly.

Ex.1: P-3703-0001 :

時<damage>狀</damage>𠰥

Damage1.png
Unrecognizable characters due to accidental damage (tearing, breaking, smearing, blotting, smudging etc.) with later annotation 因意外而造成無法判讀(如撕裂、破損、磨滅、髒汙等),後來新增者
  1. 背面墨水透出使「法」字部分不清,另一個字則完全不清。Seeping ink renders the character 法 partially illegible and another character completely illegible.
  2. 可以推論第二個字可能被 (hand="1") 塗改為「有」,但又暈墨。Probably the latter character was originally deleted, and the first scribe (hand="1") had added a 有 next to the line, which, however, too became blotted as the ink seeped through, but is still inferable.
  3. 不清的「法」字旁潦草寫了一個「法」。(hand="2") 又另在前次暈墨的「有」下方再寫一個「有」,這必然是在背面抄寫後才發生的,這份手卷發現數次這樣因背面的墨透背後,才進行的補救。 Later someone adds a quickly written 法 next to the partially damaged 法, and a 有 below the damaged first addition inline-right. This probably was someone else (@hand="2") because it must have occurred after the verso text had been written and there are several other cases of clarifying damaged characters elsewhere in the Ms.
  4. 假定這髒污是由背面的墨透過來的,那事情發生的順序應是:先抄寫了正面,而背面又抄寫了其他文稿,結果導致墨暈至背面。後來在讀正面時(的人),又將模糊的字重書在右方。Assuming the blotting is due to ink seeping through the paper the series of events was: someone wrote the text, then something else was written on verso, and the ink seeping through blotted the recto text. A later reader clarifies unclear characters recto with a dry brush.
Ex.1: P-3703-0007:

In the header: <profileDesc> <creation> <listChange> <change xml:id="stage1">The manuscript is written, corrections were made by the scribe.寫卷抄錄時的修正</change><change xml:id="stage2">The verso is written. Ink seeps through blotting some characters.背面抄寫時的墨透背後所汙染者</change><change xml:id="stage3">A later hand clarifies characters that were blotted out.在汙處外再次訂正</change> </listChange> </creation> </profileDesc>

非<unclear>離</unclear>生<damage change="#stage2">法</damage><add change="#stage3" hand="2" place="inline-right">法</add><damage change="#stage2"><del change="#stage1" hand="1" unit="char" extent="1"/><add change="#stage1" place="inline-right" hand="1">有</add></damage><add change="#stage3" hand="2" place="inline-right">有</add>无生龍
Ex.2: P-3703-0010:

一切圡木<damage change="#stage2">瓦</damage><add place="inline-right" change="#stage3">瓦</add>石

  1. The original character (probably 瓦) becomes illegible by ink seeping thorugh. 原來的字(應是「瓦」)被透背的墨所暈。
  2. A later hand clarifies the illegible section and writes 瓦 next to it. 後來的讀者重書「瓦」在右方。
DamageAdd1.png

DamageAdd2.png

Reverse Mark 倒乙符號 (レ-点)
  1. 以萬國碼「雁點」(レ点 U+3191)為倒乙符號。Use Unicode Character 'IDEOGRAPHIC ANNOTATION REVERSE MARK' (U+3191) within <add place="inline-right"> </add>

參見:媒體:敦煌古代的標點符號.pdf 維基百科:訓読

Ex.1: P-3436-0037:

亦出<add place="inline-right">㆑</add>不扵有

Retten1.png
Repetition / Iteration Mark 叠字符號
  1. 以萬國碼「疊字元號」(踊り字 U+303B)為叠字符號(重文)。Use Unicode Character 'VERTICAL IDEOGRAPHIC ITERATION MARK' 〻 (U+303B) .

參見:Iteration marks

重文例3.pngP-3664-0500
Abbreviations 省書符號
  1. 以萬國碼「疊字元號」(踊り字 U+303B)為省書符號。Use <choice>阿〻難〻<expan>阿難阿難</expan></choice>
  2. 所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記。All <expan>sions are understood to be regularized and cannot contain further <unclear> etc.
  3. 省書符號前有行號時的標法:只標省書符號。
Ex 1:P-3664-0511

<choice><abbr>阿〻<reg>難</reg>〻</abbr><expan>阿難阿難</expan></choice>

重文例2.png
Ex 2:P-2634-0010

<choice>卄卄<expan>菩薩</expan></choice>

省書.jpg
Ex 3:S-2054-0325

<lb xml:id="S-2054-0325"/><choice><abbr>〻</abbr><expan>色</expan></choice>

省書.jpg