「中古佛教寫本資料庫工作手冊」:修訂間差異

出自DILA Wiki
imported>Blueve.tw
無編輯摘要
imported>Blueve.tw
 
(未顯示同一使用者於中間所作的 253 次修訂)
行 1: 行 1:
'''中古佛教寫本資料庫工作手冊'''<br/>
'''中古佛教寫本資料庫 編碼 工作手冊'''<br/>
'''The Database on the Grammar of Medieval Chinese'''<br/>
'''The Database of Medieval Buddhist Texts(DMBT)'''<br/>
Date: 2015-7-01 Author:Lin Ching-hui 林靜慧
Date: 2015-07-06 Author: 林靜慧(Lin Ching-hui


 本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲(Hung Jen-jou)、安東平(Christoph Anderl)主持,馬德偉(Marcus Bingenheimer, Temple University)、張伯雍 (Zhang Boyong)擔任顧問。<br/>
 本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲(Hung Jen-jou)、安東平(Christoph Anderl)主持,馬德偉(Marcus Bingenheimer, Temple University)、張伯雍 (Zhang Boyong)擔任顧問。 (馬德偉與張伯雍另有類似專案可參見[http://wiki.dila.edu.tw/pages/敦煌漢文佛教寫卷點校本工作手冊 敦煌漢文佛教寫卷點校本專案])<br/>
<br/>
本專案目前進行四個階段,總計完成敦煌寫本五十卷。<br/>
<br/>


=工作流程=
[[圖片:S-3491寫卷影像.png|frame|工作圖例一:[[S-3491.png]]寫卷影像]][[圖片:S-3491的TEI標記.png|frame|工作圖例二:[[S-3491TEI.png]]標記]][[圖片:S-3491的數位版本.png|frame|工作圖例三:[[S-3491TEXT.png]]的數位版本]]
 一、下載所需敦煌寫卷影像檔,並 在PDF 檔上標好行號。<br/>
 
= 壹、 工作流程 說明=
 一、下載所需敦煌寫卷影像檔 (如至[http://idp.nlc.gov.cn 國際敦煌項目]) ,並 在PDF 檔上標好行號。<br/>
 二、搜尋寫卷內容是否有文字檔,若有文字檔則下載;若沒有則將影像檔初步打成文字檔。<br/>
 二、搜尋寫卷內容是否有文字檔,若有文字檔則下載;若沒有則將影像檔初步打成文字檔。<br/>
 三、細部分辨寫卷字形, 用PA ++ 或OXYGEN 開啟寫卷文字檔 (XML 檔),在文字檔的基礎上,開始加上標記語言。<br/>
 三、細部分辨寫卷字形, 用Notepad ++ 或oxygen 開啟寫卷文字檔 (xml 檔),在文字檔的基礎上,開始加上標記語言。 工作時需 注意 下例幾點 :<br/>
   注意 事項 :<br/>
   1 注意標記語言的使用(參見「[[#參、 標記語言 範例 ]] 」) <br/>
   1注意標記語言的使用(參見「標記語言 使用 表」)<br/>
   2 到萬國碼(Unicode)已收錄 的異體字,需同時維護異體字庫(參見檔案「00-variant-table-Ms-Project」),並注意程式只能判斷一組正字與異體字的關係,所以如果該異體字另兼正字,那麼就不能列入該檔中,需用人工輸入 標記:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字),以 免因程式無法分辦而造成混亂。<br/>
   2遇 到unicode有 的異體字,需同時維護異體字庫(參見檔案「00-variant-table-Ms-Project」),並注意程式只能判斷一組正字與異體字的關係,所以如果該異體字另兼正字,那麼就不能列入該檔中,需用人工輸入 ,以 免因程式無法分辦而造成混亂。<br/>
   3 到萬國碼(Unicode) 收錄 的異體字,需到[http://dict2.variants.moe.edu.tw/variants/ 教育 部異體 字典] 找出對應字與下載字圖,存入異體字圖庫(參見檔案「gaiji」);若是異體字典沒有對應的字,先標明缺字並記錄該字的卷 ,稍後需要造字。(如果將來出版實體書,這 些Unicode 沒有的異體字圖檔皆需造字,將圖檔改成文字。)<br/>
   3遇 到unicode 的異體字,需到 「教育 部異體字典 找出對應字與下載字圖,存入異體字圖庫(參見檔案「gaiji」);若是異體字典沒有對應的字,先標明缺字並記錄該字的卷 ,稍後需要造字。(如果將來出版實體書,這 些unicode 沒有的異體字圖檔皆需造字,將圖檔改成文字。)<br/>
    4、遇到萬國碼(Unicode) 教育部異體字典未收錄 而全字庫中 字的異體字 ,到檔案「png_24x24」搜尋字碼,存到「gaiji\png」中,因字檔前面不能是數 字, 所以在原檔名前加上大寫的Q。<br/>
  完成標記後 用oxygen轉成原抄本檔與標準字檔,初步檢查是否 誤。。<br/>
  5、 標明資料來源。<br/>
五、最後用freecommandXE程式將異體 庫中 的異體字 轉成<orig reg="X">(X代表教育部規範之正 最後再檢查是否有誤。<br/>
四、完成 標記 後,用oxygen轉成原抄本檔與標準字檔,初步檢查是否有誤。<br/>
PS:注意 標明資料來源。<br/>
五、 使 用freecommandXE軟體叫出encoding-desc.rb程式,用Oxygen中的Tools/Compare Files將轉好的00-encodingDesc檔案合併, 異體字 庫中的缺 (專案新增 異體字 )才能顯示在html的頁面上。<br/>
PS2:所使用的 標記 規範為 [http://www.tei-c.org/release/doc/tei-p5-doc/zh-TW/html/index.html TEI P5]<br/>
六、最後 使 用freecommandXE軟體叫出char-reg.rb程式 將異體字庫中的異體字轉成<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字) ,用Oxygen中的Tools/Compare Files將轉好 標記xml檔案合併 最後再檢查是否有誤。<br/>
=編碼語言 使 用說明=
*附加說明
== 異體字 或通同 的情況==
#所使用 標記規範為 [http://www.tei-c.org/release/doc/tei-p5-doc/zh-TW/html/index.html TEI P5]。<br/>
  在標明 異體字 或通同字時 使 標為:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體 字或通同 字) 。<br/>
#最好安裝 Unicode Super-CJK Fonts v6.0。
  1、當X為unicode所沒有 字時 則代換成<g ref="#Z"/>: Z代表教育部異體字典中 字碼或缺字的卷行字號。<br/>
 
  2、檔案「00-variant-table-Ms-Project」中的異體字,程式會自動轉成<orig reg="X">的 編碼 並出現type(unicode常用罕 用字 分類 ,但是若 在<orig reg="X"> 中放進「00-variant-table-Ms-Project」 有的 異體 字, 程式會自動略過,字形不會產生變動,因此若遇到一 兼兩種正 字的 異體時,要選擇其中一種人工輸入,如仏 同時是佛與似的異體字, 「00-variant-table-Ms-Project」 檔中已選擇仏作為佛的 異體 程式 會自動 將仏 轉成 佛,那麼遇到似的異體時,便要標為:<orig reg=" "> </orig> 。<br/>
= 貳、 編碼 語言使 說明=
  3、所謂通同字,意指兩字有時有通 的情形,又各自另兼正字,如:鍾鐘為通同 字,但 其各有本義,鍾為酒器,鐘為樂器,在「二口金鍾」此文之鍾字作樂器解時,其本字當為鐘,此時編碼作<orig reg=" "> 鍾</orig>;又如:「有願尅從 ,剋與尅為同音同義 通同 字, 克與剋為通同 字,此 文尅當作「能夠」解 克與尅都有「能夠 之意 而此尅依據教育部 典考定為:因 剋形體相近而成 常用之俗寫 異體 此時編碼作<orig reg=" "> </orig>。<br/>
==異體字(包含通同 字) 的標記==
   4、 或有因 形相近 導致書寫習慣將兩 字通 同者 ,如: 无(無的異體)與元 師與帥 客與容 雨與兩 ,此 雖非通同 字, 但有通用的事實 故依通同字例。<br/>
  1、 標明異體字或通同字時使用,標為:<orig reg="X"> Y</orig>(X代表教育部規範之正字,Y代表異體字)。<br/>
==錯 或假借字的情況==
  2、當Y為萬國碼(Unicode)所沒 有的字 則代換成<g ref="#Z"/>(Z代表教育部異體字典中的 碼或缺 所在 卷次行次 次)。<br/>
  在標明錯 或同音通假時使用 標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表錯字 B代表正確的標準字),若 他本可以作 校勘證據 便用<note> 說明出處(出處可使用簡稱,並在凡例中將完整出處說明) 。<br/>
  3、檔案 「00-variant-table-Ms-Project」 收錄的 異體 字,freecommandXE 程式會自動轉成<orig reg=" "> </orig> 的標記並出現type(Unicode常用罕 用字 分類) ,但 是若在<orig reg=" "> 中放進「00-variant-table-Ms-Project 收錄 異體 字, 卻會被程式自動略過, 形不會產生變動 若遇到一字兼兩種正字的異體時 要選擇其中一種收入「00-variant-table-Ms-Project 」, 另外一種則採用人工輸入,如仏 同時是佛 似的異體 ,「00-variant-table-Ms-Project」檔中已選擇仏作 佛的 異體, 程式只會自動將仏轉成佛,那麼遇到似的異體時,便要標為:<orig reg=" "> </orig>。<br/>
    當A為unicode所沒 則代換成<orig reg="X">Y</orig>。<br/>
   4、 所謂通同 字, 意指兩 有時有 用的情形,又各自另兼正字 ,如: 鍾鐘為通同字 但其各有本義 鍾為酒器 鐘為樂器 在「二口金鍾」 文之鍾 作樂器解時 其本字當為鐘 此時編碼作<orig reg="鐘">鍾</orig> ;又如:「有願尅從」,剋與尅為同音同義的通同 ,克與剋為通同 字, 此文尅當作「能夠」解 克與尅都 「能夠」之意,而此尅依據教育部異體字典考定:因與正字剋形體相近而成 常用之俗寫異體字 此時編碼作<orig reg="剋">尅</orig>。<br/>
  2、所謂假借 字, 意指因同音或音近而造成 錯字 如: 「吝此明珠如姓明」 姓明二字語義不通 性命之同音假借 的錯字, 此時 標為:<choice><sic> 姓明</sic><corr> 性命</corr></choice>。<br/>
    形相近 導致書寫習慣將兩 通用者 如:无(無 異體)與元 師與帥 客與容 雨與兩,此雖有通用的事實,但 書寫筆畫的習慣,而非意義有相通處,因此被歸入形近而誤 的錯字,標為:<choice><sic> </sic><corr> </corr></choice> (A代表原文字形,B代表編碼者修定的標準字) 。<br/>  
   3、形近而誤的 錯字 ,如 「跂覢電作朱旗」,跂乃 近跛而 誤, 而跛與披音近通假,有另一版本P-2187降魔變押座文與本卷之語為證,故標為:<choice><sic> </sic><corr> </corr></choice><note> 卷95行有跛旗之語 故知跂為跛之誤 且跂覢二字P-2187作披閃 蓋跛假作披。</note><br/>
 
==特殊符號的使 情況==
==錯字(包含假借字)的標記==
  1、在標 倒乙符號時使用 有㆑與乙兩種符號,依實際情況 使用 標為:<orig reg="日月">月<add place="inline-right">㆑</add> 日</orig>。<br/>
  1、一般 錯字: 在標明字 書寫錯 時使用 標為:<choice><sic> </sic><corr> </corr></choice> (A代表原寫 的字形 B代表編碼者修定的標準字 當A為Unicode所沒有的字時 則代換成<orig reg="X"> </orig> ),若有他本可以作為校勘證據,便 <note>說 出處 出處可 使用 簡稱 並在凡例中將完整出處說明)。除了單字對應的錯字之外,還有一字誤為兩者:<br/>
       1) 倒乙 若是unicode 有的異體字,則標 :<orig reg="珍珠"> <add place="inline-right"> </add><orig reg="珍"> </orig></orig>。<br/>
     1) 一字誤拆為二 者,如:S-3491 的異體 字臰被誤拆成自㤪二 字,則標 :<choice><sic> 自㤪</sic><corr> </corr></choice>。<br/>
         2) 倒乙 若是unicode沒有的異體 字,則 標為:<orig reg="珍珠"> 珠<add place="inline-right">㆑</add><orig reg="珍"><g ref="#A02563-001"/></orig></orig>。<br/>
     2) 誤拆為二 ,並換行者 ,則 加入<lb/> ,如:S-3491有尖被誤拆成五人二字,其中人字換行書寫,則標成:<choice><sic>五</sic><lb/><sic corr=" "> </sic></choice>。<br/>
   2、 在標明省書符號時使用 ,如 𦬇 菩薩 省書符號 標為:<choice><abbr> 卄卄</abbr><expan> 菩薩</expan></choice>。<br/>
   2、 同音通假(假借字)視為因音同或音近而造成的錯字 ,如:S-2113「吝此明珠如姓明」,姓明二字語義不通,當 性命之同音假借 錯字 此時 標為:<choice><sic> 姓明</sic><corr> 性命</corr></choice>。<br/>
   3、 在標明重文符號(〻)時使用 標為:<choice><abbr>日〻</abbr><expan>日日</expan></choice><br/>
   3、 形近而誤的錯字 如:S-3491「跂覢電作朱旗」,跂乃形近跛而誤,而跛與披音近通假,有另一版本P-2187降魔變押座 與本卷之語為證 標為:<choice><sic> </sic><corr> </corr></choice><note> 本卷95行 跛旗之語 故知跂 跛之誤,且跂覢二字P-2187作披閃,蓋跛假作披。</note> <br/>
    1)重 字若是unicode有的異體字 標為:<choice><abbr><orig reg="驅">駈</orig> </abbr><expan>驅驅</expan></choice><br/>
 
    2)重文字若是unicode沒 的異體字 則標 <choice><abbr><orig reg="役"><g ref="#A01277-001"/></orig>〻</abbr><expan>役役</expan></choice>。<br/>
== 特殊符號的標記==
== 在標明文字經過正規化的判定時,不同的情況使用不同 的標號 ,如 ==
  1、以萬國碼「雁點」(レ点 U+3191)與乙字為倒乙符號(參見:[[媒體:敦煌古代 的標 點符 .pdf]]、[https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科 訓読]
    1、<unclear>:當 文字 墨色模糊(如 退色 磨損)或文字筆畫不清(如:草書 難以判斷,需依賴上下文才能判讀時使用, 需要 他文獻校勘才能判讀時,便加上<note> 說明文獻出處:<br/>
  ),在標明 文字 倒乙時使用,標為 <orig reg="AB">B<add place="inline-right">㆑</add>A</orig> <orig reg="AB">B<add place="inline-right">乙</add>A</orig>。<br/>
      )若 筆畫雖然不清楚 但仍能判斷該字,則依然使用<orig reg="X">。 如: (S-3491-059)雖然是筆畫不清楚 駈(驅的異 體字 因其有50%以上的把握是駈,故依然用<orig reg=" "> </orig> ;若是遇到無法辨識清楚 的字 ,才用<unclear>(原有的<nowiki><reg></nowiki>標號不用) 。<br/>
    1 倒乙字 是萬國碼(Unicode)已收錄的異體字則直書其字形,freecommandXE程式會將 轉成<orig reg="X">Y</orig> <br/>
       2 )若是異體 形不清楚 亦直接以<unclear> 包覆正字,不再使用<orig reg="X"> <choice> 。因為若是標成:<nowiki><reg> <reg><nowiki> ,到時用freecommandXE程式轉檔時,字會無法顯示出來;若是標成:<nowiki><reg> <reg><nowiki> ,便無法表現出異體字駈 。<br/>
      倒乙字 是萬國碼(Unicode)未收錄的異體字 則標為:<orig reg="X">Y</orig>。<br/>
    2、<damage>:當 文字 破損,但仍可辨識時使用 。<br/>
      3)<orig reg="AB">中 A、B字 須為標準 字, <add place="inline-right"> </add> A此處 A、B則可放入異體 字。<br/>
      )若 因破損而無法辨識 ,則標 :<damage unit="char" extent="1"/> ,若是完全無法分辨字形,則 <gap unit="char" extent="1"/> 。<br/>
   2 、以萬國碼「疊 符號」(踊り U+303B)為重文符號,在標明省書重文時使用 如:<choice><abbr>A〻</abbr><expan> AA</expan></choice> <choice><abbr> A〻B〻</abbr><expan> ABAB</expan></choice> (所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記) 。<br/>
      2)破損嚴重 需參酌他本,理校出正 字, 則標成 <nowiki><choice><unclear><damage unit="char" extent="1"/></unclear><reg> </reg></choice><nowiki> :X代表理校出的正字。<br/>
      1)重 文字 若是萬國碼(Unicode)有收錄的異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig> 。<br/>
      PS:<unit="chars"> 早期 標記,現在統一作 unit="char"。<br/>
      重文字 是萬國碼(Unicode)未收錄有的異體字 ,則標 :<orig reg=" ">Y</orig>。<br/>
    3、<expan>:只在表示<abbr>的 縮寫還原時使用 <expan>  記中已視 「正規化」,故不再有如 <nowiki><reg></nowiki> <unclear> 等標記。<br/>
    3)省書符號前有行號時的 只標省書符號 。<br/>
==刪除標記==
    3、另有一種省書方式沒有特殊符號的標示 而是對常用 形直接減筆書寫 如𦬇為菩薩的省書符號,此時則標為 :<choice><abbr> 卄卄</abbr><expan> 菩薩</expan></choice> <br/>
    1、當某字被刪去時,標為:< del> </ del> :X代表被刪去的字 若被刪去 異體字 Z則代入<orig reg="X"> </orig>。<br/>
      1)<abbr> 包含的字形若 萬國碼(Unicode)有收錄 異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig> 。<br/>
    當某字被刪去後,又在其右邊加上 字時,標為:<subst><del>X</del><add place="inline-right">Y</add></subst>。<br/>
      2)<abbr> 包含 字形若是萬國碼(Unicode)未收錄有的異體字 標為 <orig reg="X"> </orig> <br/>
    、當 被塗毀時,導致無法辨別 體時,標為 <del unit="char" extent="1"/>。<br/>
      3)<expan> 只在表示<abbr> 的縮寫還原時使用 <expan> 標記中已視 「正規化」 故不再有如 <nowiki><reg></nowiki>或<unclear> 等標記 。<br/>
  4、當某字因錯誤而被添加筆畫改成正確的字時 標為:<subst><del>X</del><add> </add></subst> (X代表原錯字 代表 被改正的 字) 。<br/>
   
==插入標記==
 
    1、在 字的 右邊插入文 ,標 為:<add place="inline-right"> </add> X代表放在行外右邊插入的字 。<br/>
==字形模糊不清、損毀 改的 標記==
    2、在 不清 右邊插入文字時 標為:<subst><del unit="char" extent="1"/><add place="inline-right"> </add></subst>: 代表 被放在行外右邊插入的 字。<br/>
    <unclear>: 墨色模糊(如:退色或磨損)或文 筆畫不清(如 行書、草書)難以判斷 需依賴上下文才能判讀時使用;若需要其他文獻校勘才能判讀時,便加上<note> 說明文獻出處。<br/>
    3、同一行中,先刪去某字,隨後寫上正確的字時 ,標 :<del> </del> Y: X代表 被刪去的字,Y代表改正 的字。<br/>
    1)若是遇到文字模糊不清無法確切辨識清楚時使用(原有的<nowiki><reg></nowiki> 標號不用) 標成:<unclear>A</unclear>(A 代表 字) ;若是雖然字形不甚清晰,但仍有50%以上的把握能判斷該字,則直其書其字。<br/>
    4、在錯 上修正筆畫改成正確的字時 ,標 :<subst><del> </del><add> </add></subst> :X 代表 原本寫錯 字,Y代表改 後的 字。<br/>
      2)若是異體 字的字 形不清楚 亦直接以<unclear>包覆 準字,不再使用<orig reg=" "> <choice>。<br/>
    當被刪去的某 毀而 無法辨 識,又在右邊加入改正 字時,標成:<subst><gap unit="char" extent="1"/><add place="inline-right">X</add></subst>:X代表被放在行外右邊插入
      3)若是因行書、草書的寫法導致 不清 ,則不管 跡是否模糊 皆使以<unclear> 包覆標準字。<br/>
    、當被刪 改後的錯字為誤 時, <choice><sic> </sic><corr> </corr></choice> 後加上<note> 作說明 。<br/>
  2、<damage> :當文字損毀時使用。<br/>
==標點標記==
    1)文字略有損毀,尚可辨識時使用,標成 <damage>A</damage>(A 代表 損毀 。<br/>
    、一 點標為 :<pc> </pc> :X 代表 標點符號 。<br/>
      2)若因破損而無法辨識 :<damage unit="char" extent=" "/> X代表 損毀 的字 數) 。<br/>
    、當 標點剛好落 重文符號中間 時, 以手遮<choice><abbr> 日〻</abbr><expan>日日</expan></choice>光所下之䖏,兩個日中間當斷句時,可標為:<expan>日<pc> </pc> </expan>或是日<pc> </pc><choice><abbr>〻</abbr><expan>日</expan></choice><br/>
      3)損毀嚴重,需參酌他本,理校出正 字, :<nowiki><choice><unclear><damage unit="char" extent="1"/></unclear><reg> </reg></choice></nowiki> (A 代表 編碼者理校出 的正字 (<unit="chars"> 是早期的標記,現在統一作 unit="char")<br/>
==注解 ==
    <gap>:文 並非損毀,或因 改或其他原因,使得完全 無法 辨字 使用 ,標成:<gap unit="char" extent="1"/> <br/>
    公開給讀者看 說明 ,標為:<note> </note> :X代表注解內容
 
    編碼者給自己看的提 (不會公開顯示) 標為:<!--  -->。<br/>
==刪除字 標記==
  3 敦煌變校注 (目前顯示為□):<anchor type="dh-bw-jiaozhu" n="001"/>。<br/>
    、當 某字 被刪 時, 標為:<nowiki><del> </del></nowiki> (A代表被刪去的字);若A為異體字,則代入<orig reg="X"> </orig>。<br/>
    雙行夾注 ,標 :<hi rendition="#inline-para"> <lb/> </hi> :X代表夾注內容,<lb/>代表換行點。<br/>
    行中,先刪去某字,隨後寫上正確的字時, :<nowiki><del>A</del> À</nowiki> (A代表原本寫錯的字,À 代表 改正後的字) 。<br/>
   5 後人寫 雙行小 注解 文字,標 :<note resp="hand2" rendition="#inline-para"> 其像兩<lb/> 足返</note> <br/>
    、當 某字被刪去後,又 其右邊加上改正的字 時, 標為 :<nowiki><subst><del> </del><add place="inline-right"> À</add></subst></nowiki> (A代表原本寫錯的字,À代表改正後的字)。<br/>
    後人寫 右邊注解文 ,標 <note resp="hand2" rendition="#inline-right"> 下其頭上有冠</note> <br/>
  4、當某字被塗毀時,導致無法辨別字體時, 為:<del unit="char" extent="1"/>。<br/>
==空格標記==
    當在錯字上添加筆畫改成正確 字時 ,標為:<nowiki><subst><del>A</del><add> À</add></subst></nowiki>(A代表原本寫錯的字,À代表改正後的字) <br/>
  1、偈語的空格:<space type="verseSpacing"/><br/>
    寫卷表 刪除字 除了直接劃掉 塗改筆畫,還有在被刪字 右邊標上卜字或是頓 等符號,詳細例證可參見[[媒體:敦煌古代的標點符號.pdf]],在此並不特別標出符號形式,統一採用<nowiki><del></nowiki> 標記 。<br/>
    段落 空格 :<space type="punctuation" unit="char" extent="1"/><br/>
 
    無意義 空格:<space type="simpleSpace" unit="char" extent="1"/><br/>
==插入字的標記==
==更正 標記==
    在字的右邊插入文 ,標 :<add place="inline-right"> </add> (A代表被插入的字)。<br/>
  1、一般錯字:<choice><sic> </sic><corr> </corr></choice><br/>
    在筆劃不清 的字 右邊插入 文字 ,標 :<subst><del unit="char" extent="1"/><add place="inline-right"> </add></subst> <br/>
    、一 字誤拆 二字 :<choice><sic> 自㤪</sic><corr> </corr></choice><br/>
    、在 上添加筆畫改 正確的字時,標為:<nowiki><subst><del>A</del><add> À</add></subst></nowiki> (A代表原本寫錯的字,À代表改正後的字)。<br/>
  3、一字誤拆 二字,並換行 :<sic> </sic><lb/><sic corr="尖"> </sic><br/>
    當被刪去 某字被塗毀而無法辨識,又在右邊加入改正字時,標為 :<subst><gap unit="char" extent="1"/><add place="inline-right">A</add></subst>(A代表被插入的字)。<br/>
=標記 語言範例表=
    當被刪改 錯字被 標記 者判定為誤時,在<choice><sic> </sic><corr> </corr></choice> (A代表原文字形,B代表編碼者修訂的字)後加上<note>作說明。<br/>
*以敦煌寫卷「件」為單位 即每一個檔案即 一件敦煌寫卷(如 S.4272)<br/>
 
{| border="1"
==標點符號的標記==
|-
    、一 般標點標 為:<pc> </pc> (X代表編碼者插入的中式全型標點符號,只會在標準字體化的版本顯示)。<br/>
|行號標記例
  2、當標點剛好落在重文符號中間時,如:以手遮<choice><abbr> 日〻</abbr><expan> 日日</expan></choice> 光所下之䖏,兩個日中間當斷句時,可標 為:<expan>日<pc> </pc> </expan> ,或是日<pc>,</pc><choice><abbr>〻</abbr><expan>日</expan></choice> <br/>
|<lb xml:id="S-4272-0001"/>
 
|-
== 注解的 標記==
|rowspan="5"|空格標記例 Space
  1、小字雙行夾注 <hi rendition="#inline-para">X<lb/> </hi>(X代表注解內容,<lb/>代表換行點)。<br/>
|<space type="honorific" unit="char" extent="1"/>
  2、後人寫的雙行小字注解文字,標為:<note resp="hand2" rendition="#inline-para">X<lb/> </note> (X代表注解內容,<lb/>代表換行點)。<br/>
|[[圖片:honorific.jpg]]
  3、後人寫在右邊注解文字,標為:<note resp="hand2" rendition="#inline-right">X</note>(X代表注解內容)。<br/>
P-3664-0662
  4、編碼者的說明(會公開顯示),標為:<note>X</note>(X代表注解內容)。<br/>
|-
  5、編碼者給自己看的提示(不會公開顯示), 為:<nowiki><!--X--></nowiki> <br/>
|<space type="punctuation" unit="char" extent="1"/>
  6、《敦煌變校注》的錨點 目前顯示為□ <anchor type="dh-bw-jiaozhu" n=" "/>( X代表原書注解序號 。<br/>
|[[圖片:空格.jpg]]
 
S-4272-0008
==空格的 標記==
|-
*凡是文獻末尾的空格不予以標記。
|<space type="bindingHole" unit="char" extent="1"/>
  1、韻文的空格:在散文描述中,插入一段偈語或詩歌時,往往換行縮排,並在句與句之間空若干字,此時在空下的位置標記<space type="verseSpacing" unit="char" extent=" "/> (X代表所空字數)。<br/>
|[[圖片:bindingHole.jpg]]
  2、段落的空格:在另起一段,或徵引文獻時,行首會空下若干字,此時在空下的位置標記<space type="punctuation" unit="char" extent=" "/> (X代表所空字數)。<br/>
P-4646-01-03
  3、挪抬的空格:在行文中,有為表示敬意而空一字者,此時在空下的位置標記<space type="honorific" unit="char" extent="X"/> (X代表所空字數)。<br/>
|-
  4、無意義的空格:有在標題上空下數字,或在行文中有不該有空字而空者,此時在空下的位置標記<space type="simpleSpace" unit="char" extent=" "/> (X代表所空字數)。<br/>
|<space type="simpleSpace" unit="char" extent="1"/>
 
|[[圖片:simpleSpace.jpg]]
=參、 標記 語言範 =
S-2054-0192
*關於標記語言的規範與實 ,請參見:[[媒體:編碼語言範例(修訂版).pdf]]
|-
|<space type="verseSpacing" unit="char" extent="1"/>
|[[圖片:verseSpacing.jpg]]
P-2634-0002
|-
|rowspan="2"|異寫字 記例 Choice
|<nowiki><orig reg="偽"><g ref="#S4272-005-11"/></orig></nowiki>( 專案新增
|[[圖片:異寫1.jpg]]
S-4272-0005
|-
|<nowiki><orig reg=" "><g ref="#A04441-003"/></orig></nowiki>( 教育部異體字字典
|[[圖片:異寫2.jpg]]
S-4272-0013
|-
|rowspan="4"|取代 標記 例 Substitute
|<nowiki><subst><del>无</del><add>有</add></subst></nowiki>
|[[圖片:取代1.jpg]]
S-4272-0005
|-
|<nowiki><subst><del unit="char" extent="1"/><add>心</add></subst></nowiki>
|[[圖片:取代2.jpg]]
S-4272-0021
|-
|<nowiki><subst><del><orig reg=" "><g ref="#A03580-001"/></orig></del><add place="inline-right">提</add></subst></nowiki>
|[[圖片:取代3.jpg]]
P-3436-0037
|-
|<nowiki><subst><del hand="2">然見性</del><add place="inline-right" hand="2">明</add></subst></nowiki>
|[[圖片:取代4.jpg]]
P-3777-0540
|-
|插入 標記例 Addition
|<add place="inline-right">性</add>
|[[圖片:插入.jpg]]
S-4272-0009
|-
|rowspan="3"|倒乙標記 Reverse
|<nowiki><orig reg="不出">出<add place="inline-right">㆑</add>不</orig></nowiki>
|[[圖片:倒乙符.jpg]](不出)
P-3436-0037
|-
|<nowiki><lb xml:id="P-3436-0206"/><orig type="CJK" reg="坐"><add place="inline-right">㆑</add>浄</orig></nowiki>
|[[圖片:行首倒乙.jpg]] [[圖片:行首倒乙1.jpg]]
P-3436-0206
|-
|<nowiki><orig reg="苐二魏朝"><g ref="#A04688-002"/>朝<add place="inline-right"><note resp="hand2">向上</note></add>苐二</orig></nowiki>
|[[圖片:倒乙說明.jpg]](苐二魏朝)
P-3436-0110
|-
|補充修改標記例 Addition
|<add place="margin-bottom">軰</add>
|[[圖片:修改補充.jpg]]
P-3436-0056
|-
|rowspan="2"|破損標記例 Damage
|<damage>使鬼神</damage>
|[[圖片:破損1.jpg]]
P-3436-0057
|-
|<damage unit="char" extent="1"/>
<nowiki><choice><unclear><damage unit="char" extent="1"/></unclear><reg>諸</reg></choice></nowiki>
|[[圖片:破損2.jpg]]
P-3436-0011
|-
|字跡不清標記例 Unclear
|<unclear>斷</unclear>
|[[圖片:字跡不清.jpg]]
P-3436-0070
|-
|難辨字標記例 Gap
|<gap unit="char" extent="1"/>
|[[圖片:難辨.jpg]]
P-3703-0011
|-
|rowspan="2"|省書例 Abbreviations
|<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>
|[[圖片:省書.jpg]]
P-2634-0010
|-
|<choice><abbr>阿〻難〻</abbr><expan>阿難阿難</expan></choice>
|[[圖片:重文例2.png]]
P-3664-0511
|-
|重文例 Repeat sign
|<choice><abbr>種〻</abbr><expan>種種</expan></choice>
|[[圖片:重文例3.png]]
P-3664-0500
|-
|雙行夾注例 Inline-para
|<nowiki><note resp="hand1" rendition="#inline-para">在舒州一名思空山</note></nowiki>
|[[圖片:雙行夾注.jpg]]
P-3559-0567
|-
|副標例 Subtitle
|<nowiki><hi rendition="#subtitle">并序</hi></nowiki>
|[[圖片:副標.jpg]]
P-2634-0001
|-
|rowspan="2"|廢字例 Deletion
(感謝 汪娟教授來函建議)
|<nowiki>者<del>者</del>非</nowiki>
|[[圖片:廢字.jpg]]
P-2460-0068v
|-
|<nowiki><del>清浄</del>解</nowiki>
|[[圖片:廢字2.jpg]]
P-4646-08-04r
|-
|專案訂正例 Corrections by project
|<nowiki><choice><sic>光濡</sic><corr>先儒</corr></choice><note>見《左傳‧春秋序》。</note></nowiki>不取
|[[圖片:專案訂正例.jpg]]
P-2634-0038r
|-
|偈文例 Verse line
|<nowiki><lg><l><choice><orig><g ref="#A02941-036"/></orig><reg>稽</reg></choice>首<choice><orig><g ref="#A03222-001"/></orig><reg>善</reg></choice>知識<space type="verseSpacing" unit="char" extent="1"/><damage><choice><orig type="Ext-A">䏻</orig><reg>能</reg></choice>令<choice><orig><g ref="#P2634-002-08"/></orig><reg>護</reg></choice></damage>本心</l></lg></nowiki>
|[[圖片:偈文.jpg]]
P-2634-0002r
|}


=標記規則=
= 肆、標記原則=
*基本原則一:不論原文使用何種字體(楷書、行書、草書等),皆迻錄為楷書(楷化)。
*基本原則二:沒有特殊標記之字即標準字,此所謂標準字指的是2015年前後時期[http://dict2.variants.moe.edu.tw/variants/ 教育部異體字字典]所定正字。
依照寫卷字形情況分成下面幾類 標記規則 :<br/>
   一、標準字<br/>
   一、標準字<br/>
     1、字形筆畫與 標準 字相同者,即標 示標準字,如: :碧 。<br/>
     1、字形筆畫與 教育部異體字典所定正 完全 相同者,即 直書其字型而不作任何 。<br/>
     2、字形與標準字大致相同,但筆畫因書寫習慣而有細部不同時, 示為標準字,如: :於, :捉, :本, :此 。<br/>
     2、字形與標準字大致相同,但筆畫因書寫習慣而有細部不同時, 亦直書其字型而不作任何 。<br/>
     3、當字形可辨識為某字,但細部筆畫不易辨識時,即標示為<unclear>標準字</unclear>,如: :< unclear >繡</ unclear > ; :< unclear >數</ unclear >。<br/>
     3、當字形可辨識為某字,但細部筆畫不易辨識時,即標示為<unclear>標準字</unclear>。<br/>
   二、異體字 當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣 (如:草書筆畫不定) 造成時,判定為異體字 (包含通同字) 。<br/>
   二、異體字 (包含通同字)<br/>
      1、unicode有字,且教育部異體字典 有收錄者, 標示unicode 字型 (freecommandXE 程式 將異體字庫中的異體字 轉成< orig >, 但若已被包 < orig >中的異體字則不會被改動),如: :𦰧,但該字若另兼正字或另兼別字異體,程式無法判斷,如:仏既為佛之異體,又為似之異體,當其作 佛之異體 因為異體 表中有登記,故只須寫成仏,若作為似之異 字時, 則標 成<orig reg="似">仏</orig> 。<br/>
    1、 當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣造成時,判定為異體字。<br/>
      2、unicode有字 ,而教育部異體字典 收錄 標示unicode 處理同上例1。<br/>
      2、萬國碼(Unicode) 有收錄者, 按原 字型 迻錄(此類將由freecommandXE 程式轉成< orig >, 顯示 原文抄本時 在標準 字體 呈現為藍色 準字) 。<br/>
    3、unicode無字,而 教育部異體字典 有收 ,如 :  教育部異體字碼為A04204-023,故標成 :<orig reg="那"><g ref="# A04204-023"/></orig>。<br/>
      3、萬國碼(Unicode)無收錄 ,而教育部異體字典 收錄, 能夠以所對應的正 表達出來 ,教育部異體 字典 對該字的編號會記 在<g>@ref標記中 ,如:<orig reg="那"><g ref="#A04204-023"/></orig>。<br/>
     4 、unicode無字,而 教育部異體字典無收錄者:<br/>
     4 、萬國碼(Unicode)與 教育部異體字典 無收錄 ,但字形結構上能夠分辨 者:<br/>
       1)字形與異體字典 無明顯 不同者,標 示同上例3,如:  標成 :<orig reg=" "><g ref="# A01739-038"/></orig>。<br/>
       1)字形與 教育部 異體字典 收錄之字雖 完全相 ,但差異不大 者,標 :<orig reg=" "><g ref="#A04204-023"/></orig>。<br/>
       2)字形與異體字典有明顯不同者,標為 專案編定 ,如 :  標為 :<orig reg="福"><g ref="#S-2113-036-09"/></orig> 。<br/>
       2)字形與 教育部 異體字典有明顯不同者,<g>@ref 記編號 該字的卷次、行次、 ,如:<orig reg="福"><g ref="#S-2113-036-09"/></orig> (S-2113 為卷次,036為行次,09為字次)。<br/>
PS是否需要把異體字典的字碼編入,成A02901-S-2113-036-09?<br/>
     5、古今通 兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<orig reg="震">辰</orig><note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。<br/>
     5、古今通 兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<nowiki><choice><orig>辰</orig><reg>震</reg></choice> <note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。</nowiki><br/>
  三、錯字(包含同音通假、形近而誤)<br/>
    錯字- 當字形筆畫與標準字有結構性的不同,且確定其與音義標準字也不同,判定為錯字 (包含同音通假、形近而誤) 。一般錯字標 為<nowiki><choice><sic>錯字</sic><corr>標準字</corr></choice>,其後加<note>判定錯誤的依據</note></nowiki> ,如:<br/>
      1 、當字形筆畫與標準字有結構性的不同,且確定其與音義標準字也不同,判定為錯字。一般錯字標為 <nowiki><choice><sic>錯字</sic><corr>標準字</corr></choice>,其後加<note>判定錯誤的依據</note></nowiki><br/>
      、形近而誤:如:雹子空中自消<nowiki><choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分,此處客當作容,而容通溶。</note>。</nowiki><br/>
      、形近而誤: 因此字形相近而產生錯誤, 如:雹子空中自消<nowiki><choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分,此處客當作容,而容通溶。</note>。</nowiki><br/>
      、同音通假:恡此明珠如<nowiki><choice><orig>姓明</orig><reg>性命</reg></choice> <note>蘇遠鳴:〈敦煌石窟中的瑞像圖〉</note>。</nowiki><br/>
      、同音通假 :因字音相近而產錯誤,如 :恡此明珠如<nowiki><choice><orig>姓明</orig><reg>性命</reg></choice><note> 蘇遠鳴:〈敦煌石窟中的瑞像圖〉 </note>。</nowiki><br/>
=所見異體字表=
持續編寫中


==進階說明──文 迻錄原則==
= 伍、所見異體 =
* 原則一、不論原文使用何種 字體 (楷書 行書、草書等) 皆迻錄為楷書(楷化)。<br/>
* 關於本計畫所見之異體 與標記異 字的標準 特殊情況的處理 詳見[https://docs.google.com/a/dila.edu.tw/uc?id=0B-FcOEt_yc6dTmxET2dUamRrYWM&export=download 所見異體 表]。
*原則二、[https://zh.wikipedia.org/zh-tw/Unicode Unicode] 有提供 型者,按原 形迻錄。如 不改成為[http://www.edu.tw/FILES/SITE_CONTENT/M0001/BIAU/t00-8.htm?open 教育部 標準 字體 (正 )]「坐」 。<br/>
*關於"所見異體 表"裡的一些規範:<br/>
{| border="1"
 一、EUC 是Unicode未收 [http://www.cns11643.gov.tw/AIDB/query_composite.do/ 全字庫]字碼有的字型。<br/>
|-
   二、Unicode已收之字, 教育部 異體 典必定有收,因此不附異 體字 典字碼 。<br/>
|'''Non-Unicode Variants - attested 萬國碼未收 異體字 ──已確認'''<br/>
 三、本專案在標記異體字的順序為:<br/>
# 萬國碼 收之字 形。The variant character is not in Unicode.<br/>
  1、萬國碼(Unicode)已收之字,不附異體字典碼;<br/>
#[http://dict2.variants.moe.edu.tw/variants/ 教育部 異體字字 典]有收錄者。It is attested in the "Dictionary of Chinese Character Variants" 教育部 異體字字 典 (Ministry of Education, RoC, 2012). Current Query Interface: http://dict2.variants.moe.edu.tw/variants/.<br/>
    2、 萬國碼 (Unicode) 未收 ,但EUC有的字碼,採用EUC字碼,而不用 異體字 典字碼;<br/>
# 教育部異體 字典 對該 的編號會記錄 <g>@ref 標記 <g>@ref points to a header item which references the character number of the variant in the MoE Dictionary.<br/>
  3、 萬國碼 (Unicode)已 收之字 ,但電腦字型打不出來,則採用異體字典字碼;<br/>
#能夠以所對應 表達出來 It can be represented by a semantically equivalent common character (通用字).<br/>
    4、萬國碼(Unicode)未收,則採用 異體字 碼;<br/>
    5、萬國碼(Unicode)與 異體字 典皆未收,則採用專案自訂字碼(通常是 圖的位置)。<br/>
 四、在備註欄標註"同F252-049-07","F252-049-07"為Unicode與 教育部異體字典 皆未收,表示此 在標記 時,因其字型與此字碼相同,因此標為同一字 。<br/>
 五、拼音欄皆依照台灣常用注音為準(某些字 讀音有破音 ,或其聲調在大陸與台灣有別) 。<br/>


|Ex.1: S-4272-0002:<br/>
=陸、完成寫卷=
==第一階段==
時間:2015-07-06~2017-03-31<br/>
工作內容:進行敦煌佛教寫本之數位化標記寫卷七種,總計十四卷:<br/>
*諸佛瑞像記 S.5659、S.2113<br/>
*破魔變 P.2187、S.3491<br/>
*難陀出家經起 P.2324<br/>
*佛說楞伽經禪門悉談章 P.2204、P.2212<br/>
*太子成道經 P.2999、S.2682、S.4626<br/>
*維摩詰經講經文 F.101、F.252<br/>
*菩提達摩南宗定是非論 P.2045、P3488<br/>


  為除忘相<nowiki><choice><orig><g ref="#A03335-004"/></orig><reg>修</reg></choice></nowiki> 行六度
==第二階段==
  時間:2017-04-01~2017-12-31<br/>
工作內容:進行破魔變P.2187、S.3491之中英對照校注出版,可參見[http://wiki.dila.edu.tw/pages/%E4%B8%AD%E5%8F%A4%E4%BD%9B%E6%95%99%E5%AF%AB%E5%8D%B7%E8%B3%87%E6%96%99%E5%BA%AB%E5%87%BA%E7%89%88%E5%B0%88%E6%A1%88%E2%80%94%E7%A0%B4%E9%AD%94%E8%AE%8A%E4%B8%AD%E8%8B%B1%E5%B0%8D%E7%85%A7%E7%BF%BB%E8%AD%AF 中古佛教寫寫卷資料庫出版專案]。<br/>


|[[圖片:origRegChoice.png|40px]]
==第三階段==
|-
時間:2018-01-01~2018-12-31<br/>
|'''Non-Unicode Variants - unattested 萬國碼未收 異體字──未確認(專案新增)'''<br/>
  工作內容:進行敦煌佛教寫本 數位化標記寫卷有十二種,總計十六卷:<br/>
#萬國碼與 育部異體字字典均未收錄。The character is neither in Unicode nor in the MoE Dictionary.<br/>
*南宗定邪正五更轉 Db.77、BD.8325、S.2679<br/>
#但字形結構上能夠分辨者。 Use this only for characters where the stroke count is clearly legible.<br/>
*五更轉南宗贊 S.4173、S.4654<br/>
|Ex.1: S-4272-0022:<br/>
*菩提達摩南宗定是非論 Dunbo77<br/>
*南陽和尚頓 解脫禪門直了性壇語 Db.77、P.2045<br/>
*淨覺註般若波羅蜜多心經 S.4556<br/>
*興山寺禪師沙門定慧詩朁 S.5809<br/>
*第七祖大照和尚寂滅日齋贊文 S.2512<br/>
*大晉敦煌郡張和尚寫真贊 P.3792<br/>
*前河西僧統翟和尚邈真贊 P.4660<br/>
*晉敦煌郡張和尚寫真贊 P.3792<br/>
*悉達太子修道因緣 R.48<br/>
*妙法蓮華經講經文 P.2305<br/>


  度眾生過去<nowiki><choice><orig><g ref="#S4272-022-14"/></orig><reg>逢</reg></choice></nowiki>无量恒
==第四階段==
|[[圖片:reg1.png|40px]]
  時間:2019-01-01~2019-12-31<br/>
|-
  工作內容:<br/>
|'''"Unclear" Characters 模糊字'''
#<unclear> 是一個較鬆散的解釋,此類字多受到摹寫字跡以及古代字形的影響。<unclear> is much open to interpretation. It is influenced strongly by the quality of the facsimile and the level of paleographic skills.
#標記此類文字時通常需借助其他版本的文獻,而不能由文本直接辨認出來。We use it in this project when the character and its stroke structure are not recognizable on their own, but only by comparing with other versions.<br/>
#所有的<unclear>都能理解為某個正字,但與<nowiki><reg></nowiki>不同的是<unclear>文字結構模糊,而<nowiki><reg></nowiki>的文字結構清晰。All <unclear> are understood as 通用字, this form of regularization differes from <nowiki><reg></nowiki>, however, because with <unclear> the intended variant is unknown. With <nowiki><reg></nowiki> the shape/stroke structure of the variant character is seen.<br/>
|Ex.1: P-3703-0002:


  <nowiki><unclear> 畔坐</unclear></nowiki>
  一、進行敦煌佛教寫本之數位化標記寫卷 十種,總計二十卷:<br/>
|[[圖片:unclear1.png|80px]]
*勸諸人一偈 S.3017、P.3409<br/>
|-
*稠禪師藥方療有漏 P.3664<br/>
|'''Significant spaces 文中的空格'''
*稠禪師解虎讚 P.4597、P.3490<br/>
#另起一段或徵引文獻時。Intentional, significant space before new sections (Ex. 1) or quotations (Ex.1).<br/>
*頓悟大乘正理訣 S.2672<br/>
#文獻末尾空格不標記。No <space> needed at end of a Ms folio.<br/>
*達摩禪師論 P. 2039、BD.15054<br/>
|Ex.1: S-4272-0008 - S-4272-0010:
*澄心論 S.2669、S.3558<br/>
*歡喜國王緣 P.3375v<br/>
*大小乘廿二問本 上博42(39644)<br/>
*證道歌 S.4037、S.6000、S.2165、P.2104、P.2105、P.3360<br/>
*孟姜女變文 P.5019、P.5039<br/>


  為中道<space unit="char" extent="2"/>苐三齊朝
  二、建立展示網頁:[https://www.database-of-medieval-chinese-texts.be/ A DATABASE OF MEDIEVAL CHINESE TEXTS]<br/>
人年十四遇達摩禪師
真登佛果<space unit="char" extent="1"/>楞伽経云
|[[圖片:space1.png|120px]]
|-
|'''Character(s) added in the Ms. 插入字'''
#文中有人插入文字。Character(s) added by a scribe in the Ms.<br/>
#大致描述插入字位置。@place gives rough description where to find it.<br/>
|Ex.1: S-4272-0009:


  禪師俗<add place="inline-right">性</add> 姖武窂人
==第五階段==
|[[圖片:add1.png|40px]]
  時間:2020-01-01~2020-12-31<br/>
|-
  工作內容:<br/>
|'''Character(s) Overwrite other Character(s): 覆蓋字'''
  被覆蓋的字若不清楚則使用<del unit="char" extent="..."/> ,清楚則轉錄出來,不確定則使用<unclear>。If the overwritten character is illegible use <del unit="char" extent="..."/>, if legible give character, if unsure use <unclear>.
|Ex.1: S-4272-0021:


  為是知眾生識<nowiki><subst><del unit="char" extent="1"/><add> 心</add></subst></nowiki>自度
  一、進行敦煌佛教寫本之數位化標記寫卷,總計三種:<br/>
|[[圖片:subst1.png|40px]]
*金剛峻經金剛頂一切如來甚妙秘密金剛界大三昧耶修行四十二重壇法經作用威法儀則大毗盧遮那金剛 地法門秘法戒壇法儀則 P.3913<br/>
|-
*醜女緣起 P.3048<br/>
|'''Damaged but recognizable characters 破損字'''
*四獸因緣 P.2187<br/>
<damage>與<unclear>近似,標記中直接使用正字。(範例中的字也可以識別為「忕」或「𢗗」,此處依另一版本。)<damage> is similar to <unclear> in that the text provided should be considered 通用字 as the variant can not be distinguished clearly.
|Ex.1: P-3703-0001 :


  時<damage>狀</damage> 𠰥
  二、寫卷年代表<br/>
|[[圖片:damage1.png|60px]]
|-
|'''Unrecognizable characters due to accidental damage (tearing, breaking, smearing, blotting, smudging etc.) with later annotation 因意外而造成無法判讀(如撕裂、破損、磨滅、髒汙等),後來新增者'''
#背面墨水透出使「法」字部分不清,另一個字則完全不清。Seeping ink renders the character 法 partially illegible and another character completely illegible.
#可以推論第二個字可能被 (hand="1") 塗改為「有」,但又暈墨。Probably the latter character was originally deleted, and the first scribe (hand="1") had added a 有 next to the line, which, however, too became blotted as the ink seeped through, but is still inferable.
#不清的「法」字旁潦草寫了一個「法」。(hand="2") 又另在前次暈墨的「有」下方再寫一個「有」,這必然是在背面抄寫後才發生的,這份手卷發現數次這樣因背面的墨透背後,才進行的補救。 Later someone adds a quickly written 法 next to the partially damaged 法, and a 有 below the damaged first addition inline-right. This probably was someone else (@hand="2") because it must have occurred after the verso text had been written and there are several other cases of clarifying damaged characters elsewhere in the Ms.
#假定這髒污是由背面的墨透過來的,那事情發生的順序應是:先抄寫了正面,而背面又抄寫了其他文稿,結果導致墨暈至背面。後來在讀正面時(的人),又將模糊的字重書在右方。Assuming the blotting is due to ink seeping through the paper the series of events was: someone wrote the text, then something else was written on verso, and the ink seeping through blotted the recto text. A later reader clarifies unclear characters recto with a dry brush.
|Ex.1: P-3703-0007:


In the header: <profileDesc> <creation> <listChange> <change xml:id="stage1">The manuscript is written, corrections were made by the scribe.寫卷抄錄時的修正</change><change xml:id="stage2">The verso is written. Ink seeps through blotting some characters.背面抄寫 的墨透背後所汙染者</change><change xml:id="stage3">A later hand clarifies characters that were blotted out.在汙處外再次訂正</change> </listChange> </creation> </profileDesc>
== 第六階段==
間:2021-01-01~2021-12-31<br/>
工作內容:<br/>


  非<unclear>離</unclear>生<damage change="#stage2">法</damage><add change="#stage3" hand="2" place="inline-right">法</add><damage change="#stage2"><nowiki><del change="#stage1" hand="1" unit="char" extent="1"/></nowiki><add change="#stage1" place="inline-right" hand="1">有</add></damage><add change="#stage3" hand="2" place="inline-right">有</add>无生龍<br/>
  一、進行敦煌佛教寫本之數位化標記寫卷,總計五種:<br/>
Ex.2: P-3703-0010:
*頓悟真宗金剛般若修行達彼岸 門要決  P.2799<br/>
*大乘無生方便門  BD.03924<br/>
*夜坐號  P.3664<br/>
*李陵變文  BD.14666<br/>
*張議潮變文  P.2962<br/>


  一切圡木<damage change="#stage2">瓦</damage><add place="inline-right" change="#stage3">瓦</add>
  二、寫卷序錄<br/>


#The original character (probably 瓦) becomes illegible by ink seeping thorugh. 原來的字(應是 瓦」)被透背的墨所暈。
  三、論文——〈 中古佛教寫本資料庫編 專案 簡介〉<br/>
#A later hand clarifies the illegible section and writes 瓦 next to it. 後來的讀者重書「瓦」在右方。
|[[圖片:damageAdd1.png|50px]]
[[圖片:damageAdd2.png|50px]]
|-
|'''Reverse Mark 倒乙符號 (レ-点)'''
#以萬國 「雁點 (レ点 U+3191)為倒乙符號。Use Unicode Character 'IDEOGRAPHIC ANNOTATION REVERSE MARK' (U+3191) within <add place="inline-right"> </add>
參見:[[媒體:敦煌古代的標點符號.pdf]] [https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科:訓読]
|Ex.1: P-3436-0037:


  亦出<add place="inline-right">㆑</add>不扵有
  四、線上專案成果發表會 :[https://www.youtube.com/watch?v=UpRl4mDxZ5o&t=7011s/ 文 字游覽敦煌]<br/>
|[[圖片:retten1.png|40px]]
|-
|'''Repetition / Iteration Mark  叠字符號'''
# 以萬國碼「疊字元號」(踊り字 U+303B)為叠字符號(重文)。Use Unicode Character 'VERTICAL IDEOGRAPHIC ITERATION MARK'  〻 (U+303B) .
參見 :[http://en.wikipedia.org/wiki/Iteration_mark Iteration marks]
|
|[[圖片:重文例3.png]]P-3664-0500
|-
|rowspan="3"|'''Abbreviations 省書符號'''
# 以萬國碼「疊字元號」(踊り字 U+303B)為省書符號。Use <choice><abbr>阿〻難〻</abbr><expan>阿難阿難</expan></choice>
# 所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記。All <expan>sions are understood to be regularized and cannot contain further <unclear> etc.
# 省書符號前有行號時的標法:只標省書符號。
|Ex 1:P-3664-0511
<nowiki><choice><abbr>阿〻<reg>難</reg>〻</abbr><expan>阿難阿難</expan></choice></nowiki>
|[[圖片:重 例2.png]]
|-
|Ex 2:P-2634-0010
<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>
|[[圖片:省書.jpg]]
|-
|Ex 3:S-2054-0325
<nowiki><lb xml:id="S-2054-0325"/><choice><abbr>〻</abbr><expan>色</expan></choice></nowiki>
|[[圖片:重文例3.jpg]]
|}


=字型 工具=
= 柒、標記工作的心得與問題討論=
* 最好安裝 Unicode Super-CJK Fonts v6.0
*異體字與通同字並不等同,是否該分同一類?
*通假字是否該視為錯字?
*專案新增之異體字,亦可能是錯字,或需考證?或需更多證據?證據數量的標準?
*異體字書寫筆畫之判讀,如:辵字旁寫作辶,或作人 字型 ;水字旁寫作兩點,或作一直豎;戈字旁的點畫或在橫筆之下,或與撇筆相連;艹字旁或相連,或不相連,這些筆畫是否該分清楚?
*"所遇異體字表"在增至兩百頁左右,因圖檔太多,Word檔容易產遲緩反應,或許可改用另一種方式制作表,目前資料庫數量太大,不宜重新制做,以待後人。
*使用"教育部異體字典"時,發現字典收錄的字有若干問題,待資料增多之後,可一併討論。
*塗改字佔一個字位還是兩個字位?(塗毀一個字位+插入一個字位)
* 寫卷有特別之書寫習慣者,應該將其字列入異體字嗎?例:P2305妙法蓮華經講經文:其字型凡有宀部首之字皆少右邊一勾;其字型凡有日部首之字皆將中間橫畫作豎畫;其字型凡有寸部首之字皆將一點作一豎畫。

於 2021年12月1日 (三) 15:06 的最新修訂

中古佛教寫本資料庫編碼工作手冊
The Database of Medieval Buddhist Texts(DMBT)
Date: 2015-07-06 Author:林靜慧(Lin Ching-hui)

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲(Hung Jen-jou)、安東平(Christoph Anderl)主持,馬德偉(Marcus Bingenheimer, Temple University)、張伯雍 (Zhang Boyong)擔任顧問。(馬德偉與張伯雍另有類似專案可參見敦煌漢文佛教寫卷點校本專案

本專案目前進行四個階段,總計完成敦煌寫本五十卷。

工作圖例一:S-3491.png寫卷影像
工作圖例二:S-3491TEI.png標記
工作圖例三:S-3491TEXT.png的數位版本

壹、工作流程說明

一、下載所需敦煌寫卷影像檔(如至國際敦煌項目),並在PDF檔上標好行號。
二、搜尋寫卷內容是否有文字檔,若有文字檔則下載;若沒有則將影像檔初步打成文字檔。
三、細部分辨寫卷字形,用Notepad++或oxygen開啟寫卷文字檔(xml檔),在文字檔的基礎上,開始加上標記語言。工作時需注意下例幾點:
  1、注意標記語言的使用(參見「#參、標記語言範例表」)。
  2、遇到萬國碼(Unicode)已收錄的異體字,需同時維護異體字庫(參見檔案「00-variant-table-Ms-Project」),並注意程式只能判斷一組正字與異體字的關係,所以如果該異體字另兼正字,那麼就不能列入該檔中,需用人工輸入標記:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字),以免因程式無法分辦而造成混亂。
  3、遇到萬國碼(Unicode)沒收錄的異體字,需到教育部異體字字典找出對應字與下載字圖,存入異體字圖庫(參見檔案「gaiji」);若是異體字典沒有對應的字,先標明缺字並記錄該字的卷次行次字次,稍後需要造字。(如果將來出版實體書,這些Unicode沒有的異體字圖檔皆需造字,將圖檔改成文字。)
  4、遇到萬國碼(Unicode)、教育部異體字典未收錄,而全字庫中有造字的異體字,到檔案「png_24x24」搜尋字碼,存到「gaiji\png」中,因字檔前面不能是數字,所以在原檔名前加上大寫的Q。
  5、標明資料來源。
四、完成標記後,用oxygen轉成原抄本檔與標準字檔,初步檢查是否有誤。
五、使用freecommandXE軟體叫出encoding-desc.rb程式,用Oxygen中的Tools/Compare Files將轉好的00-encodingDesc檔案合併,異體字庫中的缺字(專案新增異體字)才能顯示在html的頁面上。
六、最後使用freecommandXE軟體叫出char-reg.rb程式,將異體字庫中的異體字轉成<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字),用Oxygen中的Tools/Compare Files將轉好的標記xml檔案合併,最後再檢查是否有誤。

  • 附加說明:
  1. 所使用的標記規範為 TEI P5
  2. 最好安裝 Unicode Super-CJK Fonts v6.0。

貳、編碼語言使用說明

異體字(包含通同字)的標記

  1、在標明異體字或通同字時使用,標為:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字)。
  2、當Y為萬國碼(Unicode)所沒有的字時,則代換成<g ref="#Z"/>(Z代表教育部異體字典中的字碼或缺字所在的卷次行次字次)。
  3、檔案「00-variant-table-Ms-Project」收錄的異體字,freecommandXE程式會自動轉成<orig reg="X">Y</orig>的標記並出現type(Unicode常用罕用字分類),但是若在<orig reg="X">中放進「00-variant-table-Ms-Project」收錄的異體字,卻會被程式自動略過,字形不會產生變動,因此若遇到一字兼兩種正字的異體時,要選擇其中一種收入「00-variant-table-Ms-Project」,另外一種則採用人工輸入,如仏字同時是佛與似的異體字,「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體,程式只會自動將仏轉成佛,那麼遇到似的異體時,便要標為:<orig reg="似">仏</orig>。
  4、所謂通同字,意指兩字有時有通用的情形,又各自另兼正字,如:鍾鐘為通同字,但其各有本義,鍾為酒器,鐘為樂器,在「二口金鍾」此文之鍾字作樂器解時,其本字當為鐘,此時編碼作<orig reg="鐘">鍾</orig>;又如:「有願尅從」,剋與尅為同音同義的通同字,克與剋為通同字,此文尅當作「能夠」解,克與尅都有「能夠」之意,而此尅依據教育部異體字典考定:因與正字剋形體相近而成為常用之俗寫異體字,此時編碼作<orig reg="剋">尅</orig>。
  5、或有因字形相近,導致書寫習慣將兩字通用者,如:无(無的異體)與元,師與帥,客與容,雨與兩,此雖有通用的事實,但為書寫筆畫的習慣,而非意義有相通處,因此被歸入形近而誤的錯字,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表原文字形,B代表編碼者修定的標準字)。
  

錯字(包含假借字)的標記

  1、一般錯字:在標明字形書寫錯誤時使用,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表原寫本的字形,B代表編碼者修定的標準字,當A為Unicode所沒有的字時,則代換成<orig reg="X">Y</orig>),若有他本可以作為校勘證據,便用<note>說明出處(出處可使用簡稱,並在凡例中將完整出處說明)。除了單字對應的錯字之外,還有一字誤為兩者:
    1)一字誤拆為二字者,如:S-3491有臭的異體字臰被誤拆成自㤪二字,則標成:<choice><sic>自㤪</sic><corr>臰</corr></choice>。
    2)一字誤拆為二字,並換行者,則加入<lb/>,如:S-3491有尖被誤拆成五人二字,其中人字換行書寫,則標成:<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。
  2、同音通假(假借字)視為因音同或音近而造成的錯字,如:S-2113「吝此明珠如姓明」,姓明二字語義不通,當為性命之同音假借的錯字,此時標為:<choice><sic>姓明</sic><corr>性命</corr></choice>。
  3、形近而誤的錯字,如:S-3491「跂覢電作朱旗」,跂乃形近跛而誤,而跛與披音近通假,有另一版本P-2187降魔變押座文與本卷之語為證,故標為:<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語,故知跂為跛之誤,且跂覢二字P-2187作披閃,蓋跛假作披。</note>。

特殊符號的標記

  1、以萬國碼「雁點」(レ点 U+3191)與乙字為倒乙符號(參見:媒體:敦煌古代的標點符號.pdf維基百科:訓読 ),在標明文字倒乙時使用,標為:<orig reg="AB">B<add place="inline-right">㆑</add>A</orig>或<orig reg="AB">B<add place="inline-right">乙</add>A</orig>。
    1)倒乙字若是萬國碼(Unicode)已收錄的異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。
    2)倒乙字若是萬國碼(Unicode)未收錄的異體字,則標為:<orig reg="X">Y</orig>。
    3)<orig reg="AB">中的A、B字體須為標準字,B<add place="inline-right">㆑</add>A此處的A、B則可放入異體字。
  2、以萬國碼「疊字符號」(踊り字 U+303B)為重文符號,在標明省書重文時使用,如:<choice>A〻<expan>AA</expan></choice>或<choice>A〻B〻<expan>ABAB</expan></choice>(所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記)。
    1)重文字若是萬國碼(Unicode)有收錄的異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。
    2)重文字若是萬國碼(Unicode)未收錄有的異體字,則標為:<orig reg="X">Y</orig>。
    3)省書符號前有行號時的標法:只標省書符號。
  3、另有一種省書方式沒有特殊符號的標示,而是對常用字形直接減筆書寫,如𦬇為菩薩的省書符號,此時則標為:<choice>卄卄<expan>菩薩</expan></choice>。
    1)包含的字形若是萬國碼(Unicode)有收錄的異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。
    2)包含的字形若是萬國碼(Unicode)未收錄有的異體字,則標為:<orig reg="X">Y</orig>。
    3)<expan>只在表示的縮寫還原時使用, <expan> 標記中已視為「正規化」,故不再有如 <reg>或<unclear> 等標記。
  

字形模糊不清、損毀、塗改的標記

  1、<unclear>:當文字墨色模糊(如:退色或磨損)或文字筆畫不清(如:行書、草書)難以判斷,需依賴上下文才能判讀時使用;若需要其他文獻校勘才能判讀時,便加上<note>說明文獻出處。
    1)若是遇到文字模糊不清無法確切辨識清楚時使用(原有的<reg>標號不用),標成:<unclear>A</unclear>(A代表該字);若是雖然字形不甚清晰,但仍有50%以上的把握能判斷該字,則直其書其字。
    2)若是異體字的字形不清楚,亦直接以<unclear>包覆標準字,不再使用<orig reg="X">或<choice>。
    3)若是因行書、草書的寫法導致筆畫不清,則不管字跡是否模糊,皆使以<unclear>包覆標準字。
  2、<damage>:當文字損毀時使用。
    1)文字略有損毀,尚可辨識時使用,標成:<damage>A</damage>(A代表損毀字)。
    2)若因破損而無法辨識,則標成:<damage unit="char" extent="X"/>(X代表損毀的字數)。
    3)損毀嚴重,需參酌他本,理校出正字,則標成:<choice><unclear><damage unit="char" extent="1"/></unclear><reg>A</reg></choice>(A代表編碼者理校出的正字)。(<unit="chars"> 是早期的標記,現在統一作 unit="char")
  3、<gap>:文字並非損毀,或因塗改或其他原因,使得完全無法分辨字形時使用,標成:<gap unit="char" extent="1"/>。

刪除字的標記

  1、當某字被刪去時,標為:<del>A</del>(A代表被刪去的字);若A為異體字,則代入<orig reg="X">Y</orig>。
  2、同一行中,先刪去某字,隨後寫上正確的字時,標為:<del>A</del>À(A代表原本寫錯的字,À代表改正後的字)。
  3、當某字被刪去後,又在其右邊加上改正的字時,標為:<subst><del>A</del><add place="inline-right">À</add></subst>(A代表原本寫錯的字,À代表改正後的字)。
  4、當某字被塗毀時,導致無法辨別字體時,標為:
  5、當在錯字上添加筆畫改成正確的字時,標為:<subst><del>A</del><add>À</add></subst>(A代表原本寫錯的字,À代表改正後的字)。
  6、寫卷表示刪除字,除了直接劃掉、塗改筆畫,還有在被刪字的右邊標上卜字或是頓點等符號,詳細例證可參見媒體:敦煌古代的標點符號.pdf,在此並不特別標出符號形式,統一採用<del>標記。

插入字的標記

  1、在字的右邊插入文字時,標為:<add place="inline-right">A</add>(A代表被插入的字)。
  2、在筆劃不清的字右邊插入文字時,標為:<subst><add place="inline-right">A</add></subst>。
  3、在錯字上添加筆畫改成正確的字時,標為:<subst><del>A</del><add>À</add></subst>(A代表原本寫錯的字,À代表改正後的字)。
  4、當被刪去的某字被塗毀而無法辨識,又在右邊加入改正字時,標為:<subst><gap unit="char" extent="1"/><add place="inline-right">A</add></subst>(A代表被插入的字)。
  5、當被刪改的錯字被標記者判定為誤時,在<choice><sic>A</sic><corr>B</corr></choice>(A代表原文字形,B代表編碼者修訂的字)後加上<note>作說明。

標點符號的標記

  1、一般標點標為:<pc>X</pc>(X代表編碼者插入的中式全型標點符號,只會在標準字體化的版本顯示)。
  2、當標點剛好落在重文符號中間時,如:以手遮<choice>日〻<expan>日日</expan></choice>光所下之䖏,兩個日中間當斷句時,可標為:<expan>日<pc>,</pc>日</expan>,或是日<pc>,</pc><choice><expan>日</expan></choice>。

注解的標記

  1、小字雙行夾注,標為:<hi rendition="#inline-para">X<lb/>X</hi>(X代表注解內容,<lb/>代表換行點)。
  2、後人寫的雙行小字注解文字,標為:<note resp="hand2" rendition="#inline-para">X<lb/>X</note>(X代表注解內容,<lb/>代表換行點)。
  3、後人寫在右邊注解文字,標為:<note resp="hand2" rendition="#inline-right">X</note>(X代表注解內容)。
  4、編碼者的說明(會公開顯示),標為:<note>X</note>(X代表注解內容)。
  5、編碼者給自己看的提示(不會公開顯示),標為:<!--X-->。
  6、《敦煌變校注》的錨點(目前顯示為□):<anchor type="dh-bw-jiaozhu" n="X"/>(X代表原書注解序號)。

空格的標記

  • 凡是文獻末尾的空格不予以標記。

  1、韻文的空格:在散文描述中,插入一段偈語或詩歌時,往往換行縮排,並在句與句之間空若干字,此時在空下的位置標記<space type="verseSpacing" unit="char" extent="X"/>(X代表所空字數)。
  2、段落的空格:在另起一段,或徵引文獻時,行首會空下若干字,此時在空下的位置標記<space type="punctuation" unit="char" extent="X"/>(X代表所空字數)。
  3、挪抬的空格:在行文中,有為表示敬意而空一字者,此時在空下的位置標記<space type="honorific" unit="char" extent="X"/>(X代表所空字數)。
  4、無意義的空格:有在標題上空下數字,或在行文中有不該有空字而空者,此時在空下的位置標記<space type="simpleSpace" unit="char" extent="X"/>(X代表所空字數)。

參、標記語言範例表

肆、標記原則

  • 基本原則一:不論原文使用何種字體(楷書、行書、草書等),皆迻錄為楷書(楷化)。
  • 基本原則二:沒有特殊標記之字即標準字,此所謂標準字指的是2015年前後時期教育部異體字字典所定正字。

依照寫卷字形情況分成下面幾類標記規則:
  一、標準字
    1、字形筆畫與教育部異體字典所定正字完全相同者,即直書其字型而不作任何標記。
    2、字形與標準字大致相同,但筆畫因書寫習慣而有細部不同時,亦直書其字型而不作任何標記。
    3、當字形可辨識為某字,但細部筆畫不易辨識時,即標示為<unclear>標準字</unclear>。
  二、異體字(包含通同字)
    1、當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣造成時,判定為異體字。
    2、萬國碼(Unicode)有收錄者,按原字型迻錄(此類將由freecommandXE程式轉成< orig >,顯示在原文抄本時為原字型,在標準字體化則呈現為藍色標準字)。
    3、萬國碼(Unicode)無收錄,而教育部異體字典有收錄,能夠以所對應的正字表達出來,教育部異體字字典對該字的編號會記錄在<g>@ref標記中,如:<orig reg="那"><g ref="#A04204-023"/></orig>。
    4、萬國碼(Unicode)與教育部異體字典皆無收錄,但字形結構上能夠分辨者:
      1)字形與教育部異體字典收錄之字雖不完全相同,但差異不大者,標為:<orig reg="那"><g ref="#A04204-023"/></orig>。
      2)字形與教育部異體字典有明顯不同者,<g>@ref標記編號為該字的卷次、行次、字次,如:<orig reg="福"><g ref="#S-2113-036-09"/></orig>(S-2113為卷次,036為行次,09為字次)。
    5、古今通同字:兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<orig reg="震">辰</orig><note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。
  三、錯字(包含同音通假、形近而誤)
    1、當字形筆畫與標準字有結構性的不同,且確定其與音義標準字也不同,判定為錯字。一般錯字標為:<choice><sic>錯字</sic><corr>標準字</corr></choice>,其後加<note>判定錯誤的依據</note>
    2、形近而誤:因此字形相近而產生錯誤,如:雹子空中自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分,此處客當作容,而容通溶。</note>。
    3、同音通假:因字音相近而產錯誤,如:恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice><note>見蘇遠鳴:〈敦煌石窟中的瑞像圖〉。</note>。

伍、所見異體字表

  • 關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理,詳見所見異體字表
  • 關於"所見異體字表"裡的一些規範:

 一、EUC:是Unicode未收,但全字庫字碼有的字型。
 二、Unicode已收之字,教育部異體字典必定有收,因此不附異體字典字碼。
 三、本專案在標記異體字的順序為:
  1、萬國碼(Unicode)已收之字,不附異體字典碼;
  2、萬國碼(Unicode)未收,但EUC有的字碼,採用EUC字碼,而不用異體字典字碼;
  3、萬國碼(Unicode)已收之字,但電腦字型打不出來,則採用異體字典字碼;
  4、萬國碼(Unicode)未收,則採用異體字典字碼;
  5、萬國碼(Unicode)與異體字典皆未收,則採用專案自訂字碼(通常是字圖的位置)。
 四、在備註欄標註"同F252-049-07","F252-049-07"為Unicode與教育部異體字典皆未收,表示此字型在標記時,因其字型與此字碼相同,因此標為同一字。
 五、拼音欄皆依照台灣常用注音為準(某些字的讀音有破音字,或其聲調在大陸與台灣有別)。

陸、完成寫卷

第一階段

時間:2015-07-06~2017-03-31
工作內容:進行敦煌佛教寫本之數位化標記寫卷七種,總計十四卷:

  • 諸佛瑞像記 S.5659、S.2113
  • 破魔變 P.2187、S.3491
  • 難陀出家經起 P.2324
  • 佛說楞伽經禪門悉談章 P.2204、P.2212
  • 太子成道經 P.2999、S.2682、S.4626
  • 維摩詰經講經文 F.101、F.252
  • 菩提達摩南宗定是非論 P.2045、P3488

第二階段

時間:2017-04-01~2017-12-31
工作內容:進行破魔變P.2187、S.3491之中英對照校注出版,可參見中古佛教寫寫卷資料庫出版專案

第三階段

時間:2018-01-01~2018-12-31
工作內容:進行敦煌佛教寫本之數位化標記寫卷有十二種,總計十六卷:

  • 南宗定邪正五更轉 Db.77、BD.8325、S.2679
  • 五更轉南宗贊 S.4173、S.4654
  • 菩提達摩南宗定是非論 Dunbo77
  • 南陽和尚頓教解脫禪門直了性壇語 Db.77、P.2045
  • 淨覺註般若波羅蜜多心經 S.4556
  • 興山寺禪師沙門定慧詩朁 S.5809
  • 第七祖大照和尚寂滅日齋贊文 S.2512
  • 大晉敦煌郡張和尚寫真贊 P.3792
  • 前河西僧統翟和尚邈真贊 P.4660
  • 晉敦煌郡張和尚寫真贊 P.3792
  • 悉達太子修道因緣 R.48
  • 妙法蓮華經講經文 P.2305

第四階段

時間:2019-01-01~2019-12-31
工作內容:

一、進行敦煌佛教寫本之數位化標記寫卷有十種,總計二十卷:

  • 勸諸人一偈 S.3017、P.3409
  • 稠禪師藥方療有漏 P.3664
  • 稠禪師解虎讚 P.4597、P.3490
  • 頓悟大乘正理訣 S.2672
  • 達摩禪師論 P. 2039、BD.15054
  • 澄心論 S.2669、S.3558
  • 歡喜國王緣 P.3375v
  • 大小乘廿二問本 上博42(39644)
  • 證道歌 S.4037、S.6000、S.2165、P.2104、P.2105、P.3360
  • 孟姜女變文 P.5019、P.5039

二、建立展示網頁:A DATABASE OF MEDIEVAL CHINESE TEXTS

第五階段

時間:2020-01-01~2020-12-31
工作內容:

一、進行敦煌佛教寫本之數位化標記寫卷,總計三種:

  • 金剛峻經金剛頂一切如來甚妙秘密金剛界大三昧耶修行四十二重壇法經作用威法儀則大毗盧遮那金剛心地法門秘法戒壇法儀則 P.3913
  • 醜女緣起 P.3048
  • 四獸因緣 P.2187

二、寫卷年代表

第六階段

時間:2021-01-01~2021-12-31
工作內容:

一、進行敦煌佛教寫本之數位化標記寫卷,總計五種:

  • 頓悟真宗金剛般若修行達彼岸法門要決 P.2799
  • 大乘無生方便門 BD.03924
  • 夜坐號 P.3664
  • 李陵變文 BD.14666
  • 張議潮變文 P.2962

二、寫卷序錄

三、論文——〈「中古佛教寫本資料庫編碼專案」簡介〉

四、線上專案成果發表會:文字游覽敦煌

柒、標記工作的心得與問題討論

  • 異體字與通同字並不等同,是否該分同一類?
  • 通假字是否該視為錯字?
  • 專案新增之異體字,亦可能是錯字,或需考證?或需更多證據?證據數量的標準?
  • 異體字書寫筆畫之判讀,如:辵字旁寫作辶,或作人字型;水字旁寫作兩點,或作一直豎;戈字旁的點畫或在橫筆之下,或與撇筆相連;艹字旁或相連,或不相連,這些筆畫是否該分清楚?
  • "所遇異體字表"在增至兩百頁左右,因圖檔太多,Word檔容易產遲緩反應,或許可改用另一種方式制作表,目前資料庫數量太大,不宜重新制做,以待後人。
  • 使用"教育部異體字典"時,發現字典收錄的字有若干問題,待資料增多之後,可一併討論。
  • 塗改字佔一個字位還是兩個字位?(塗毀一個字位+插入一個字位)
  • 寫卷有特別之書寫習慣者,應該將其字列入異體字嗎?例:P2305妙法蓮華經講經文:其字型凡有宀部首之字皆少右邊一勾;其字型凡有日部首之字皆將中間橫畫作豎畫;其字型凡有寸部首之字皆將一點作一豎畫。