於 2016年1月13日 (三) 11:44 的修訂

中古佛教寫本資料庫編碼工作手冊
The Database on the Grammar of Medieval Chinese
Date: 2015-7-06 Author:林靜慧（Lin Ching-hui）

本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲（Hung Jen-jou）、安東平（Christoph Anderl）主持，馬德偉（Marcus Bingenheimer, Temple University）、張伯雍（Zhang Boyong）擔任顧問。

壹、工作流程

一、下載所需敦煌寫卷影像檔（如至國際敦煌項目），並在PDF檔上標好行號。
二、搜尋寫卷內容是否有文字檔，若有文字檔則下載；若沒有則將影像檔初步打成文字檔。
三、細部分辨寫卷字形，用Notepad＋＋或oxygen開啟寫卷文字檔（xml檔），在文字檔的基礎上，開始加上標記語言。
　　注意事項：
　　１注意標記語言的使用（參見「#參、標記語言範例表」）。
　　２遇到萬國碼（Unicode）有的異體字，需同時維護異體字庫（參見檔案「00-variant-table-Ms-Project」），並注意程式只能判斷一組正字與異體字的關係，所以如果該異體字另兼正字，那麼就不能列入該檔中，需用人工輸入，以免因程式無法分辦而造成混亂。
　　３遇到萬國碼（Unicode）沒有的異體字，需到教育部異體字字典找出對應字與下載字圖，存入異體字圖庫（參見檔案「gaiji」）；若是異體字典沒有對應的字，先標明缺字並記錄該字的卷號行號字號，稍後需要造字。（如果將來出版實體書，這些unicode沒有的異體字圖檔皆需造字，將圖檔改成文字。）
四、完成標記後，用oxygen轉成原抄本檔與標準字檔，初步檢查是否有誤。
五、最後用freecommandXE程式將異體字庫中的異體字轉成<orig reg="X">（X代表教育部規範之正字），最後再檢查是否有誤。

注意：

標明資料來源。
所使用的標記規範為 TEI P5。
最好安裝 Unicode Super-CJK Fonts v6.0。

貳、編碼語言使用說明

異體字或通同字的標記

　　１、在標明異體字或通同字時使用，標為：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字或通同字）。
　　２、當Ｙ為萬國碼（Unicode）所沒有的字時，則代換成<g ref="#Ｚ"/>（Ｚ代表教育部異體字典中的字碼或缺字的卷行字號）。
　　３、檔案「00-variant-table-Ms-Project」中的異體字，程式會自動轉成<orig reg="Ｘ">Ｙ</orig>的編碼並出現type（Unicode常用罕用字分類），但是若在<orig reg="Ｘ">中放進「00-variant-table-Ms-Project」有的異體字，程式會自動略過，字形不會產生變動，因此若遇到一字兼兩種正字的異體時，要選擇其中一種人工輸入，如仏字同時是佛與似的異體字，「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體，程式只會自動將仏轉成佛，那麼遇到似的異體時，便要標為：<orig reg="似">仏</orig>。
　　４、所謂通同字，意指兩字有時有通用的情形，又各自另兼正字，如：鍾鐘為通同字，但其各有本義，鍾為酒器，鐘為樂器，在「二口金鍾」此文之鍾字作樂器解時，其本字當為鐘，此時編碼作<orig reg="鐘">鍾</orig>；又如：「有願尅從」，剋與尅為同音同義的通同字，克與剋為通同字，此文尅當作「能夠」解，克與尅都有「能夠」之意，而此尅依據教育部字典考定為：因與正字剋形體相近而成為常用之俗寫異體字，此時編碼作<orig reg="剋">尅</orig>。
　　５、或有因字形相近，導致書寫習慣將兩字通同者，如：无（無的異體）與元，師與帥，客與容，雨與兩，此雖有通用的事實，但視為錯字，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表錯字，Ｂ代表正確的標準字）。
　　

錯字或假借字的情況

　　１、在標明錯字或同音通假時使用，標為：<choice><sic>Ａ</sic><corr>Ｂ</corr></choice> （Ａ代表錯字，Ｂ代表正確的標準字），若有他本可以作為校勘證據，便用<note>說明出處（出處可使用簡稱，並在凡例中將完整出處說明）。
　　２、當Ａ為萬國碼（Unicode）所沒有的字時，則代換成<orig reg="Ｘ">Ｙ</orig>。
　　３、所謂假借字，意指因同音或音近而造成的錯字，如: 「吝此明珠如姓明」，姓明二字語義不通，當為性命之同音假借的錯字，此時標為：<choice><sic>姓明</sic><corr>性命</corr></choice>。
　　４、形近而誤的錯字，如：S-3491「跂覢電作朱旗」，跂乃形近跛而誤，而跛與披音近通假，有另一版本P-2187降魔變押座文與本卷之語為證，故標為：<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語，故知跂為跛之誤，且跂覢二字P-2187作披閃，蓋跛假作披。</note>。
　　

使用特殊符號的情況

　　１、以萬國碼「雁點」（レ点 U+3191）為倒乙符號（參見：媒體:敦煌古代的標點符號.pdf、維基百科：訓読），在標明文字倒乙時使用（有㆑與乙兩種符號，依實際情況使用），標為：<orig reg="ＡＢ">Ｂ<add place="inline-right">㆑</add>Ａ</orig>（<orig reg="ＡＢ">中的Ａ、Ｂ字體須為標準字，Ｂ<add place="inline-right">㆑</add>Ａ此處的Ａ、Ｂ則可放入異體字）。
　　　　１）倒乙字若是萬國碼（Unicode）有的異體字則直書異體字，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）倒乙字若是萬國碼（Unicode）沒有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　２、在標明省書符號時使用，如𦬇為菩薩的省書符號，則標為：<choice>卄卄<expan>菩薩</expan></choice>。（<expan>只在表示的縮寫還原時使用， <expan> 標記中已視為「正規化」，故不再有如 <reg>或<unclear> 等標記）
　　３、以萬國碼「疊字符號」（踊り字 U+303B）為省書重文符號，在標明省書重文時使用，如：<choice>Ａ〻<expan>ＡＡ</expan></choice>或<choice>Ａ〻Ｂ〻<expan>ＡＢＡＢ</expan></choice>（所有的 <expan> 標記中已視為「正規化」，故不再有如 <unclear> 等標記）。
　　　　１）重文字若是萬國碼（Unicode）有收錄的異體字則直書異體字，freecommandXE程式會將其轉成<orig reg="X">Ｙ</orig>。
　　　　２）重文字若是萬國碼（Unicode）未收錄有的異體字，則標為：<orig reg="Ｘ">Ｙ</orig>。
　　　　３）省書符號前有行號時的標法：只標省書符號。

字形模糊不清、損毀、塗改等情況

　　１、<unclear>：當文字墨色模糊（如：退色或磨損）或文字筆畫不清（如：行書、草書）難以判斷，需依賴上下文才能判讀時使用；若需要其他文獻校勘才能判讀時，便加上<note>說明文獻出處。
　　　　１）若是遇到文字模糊不清無法確切辨識清楚時使用（原有的<reg>標號不用），標成：<unclear>Ａ</unclear>（Ａ代表該字）；若是雖然字形不甚清晰，但仍有50%以上的把握能判斷該字，則直其書其字。
　　　　２）若是異體字的字形不清楚，亦直接以<unclear>包覆標準字，不再使用<orig reg="Ｘ">或<choice>。
　　　　３）若是因行書、草書的寫法導致筆畫不清，則不管字跡是否模糊，皆使以<unclear>包覆標準字。
　　２、<damage>：當文字損毀時使用。
　　　　１）文字略有損毀，尚可辨識時使用，標成：<damage>Ａ</damage>（Ａ代表損毀字）。
　　　　２）若因破損而無法辨識，則標成：<damage unit="char" extent="1"/>。
　　　　３）損毀嚴重，需參酌他本，理校出正字，則標成：<choice><unclear><damage unit="char" extent="1"/></unclear><reg>Ａ</reg></choice>（Ａ代表理校出的正字）。（<unit="chars"> 是早期的標記，現在統一作 unit="char"）
　　３、<gap>：文字並非損毀，或因塗改或其他原因，使得完全無法分辨字形，則標成：<gap unit="char" extent="1"/>。

刪除標記

　　１、當某字被刪去時，標為：< del>Ａ</ del>（Ａ代表被刪去的字）；若被刪去為異體字，Ａ則代入<orig reg="Ｘ">Ｙ</orig>。
　　２、當某字被刪去後，又在其右邊加上改正的字時，標為：<subst><del>Ａ</del><add place="inline-right">À</add></subst>（Ａ代表原本寫錯的字，À代表改正後的字）。
　　３、當某字被塗毀時，導致無法辨別字體時，標為：。
　　４、當某字因錯誤而被添加筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>。

插入標記

　　１、在字的右邊插入文字時，標為：<add place="inline-right">Ａ</add>（Ａ代表被插入的字）。
　　２、在筆劃不清的字右邊插入文字時，標為：<subst><add place="inline-right">Ａ</add></subst>。
　　３、同一行中，先刪去某字，隨後寫上正確的字時，標為：<del>Ａ</del>À（Ａ代表原本寫錯的字，À代表改正後的字）。
　　４、在錯字上修正筆畫改成正確的字時，標為：<subst><del>Ａ</del><add>À</add></subst>。
　　５、當被刪去的某字被塗毀而無法辨識，又在右邊加入改正字時，標成：<subst><gap unit="char" extent="1"/><add place="inline-right">Ａ</add></subst>（Ａ代表被插入的字）。
　　６、當被刪改後的錯字為誤時，在<choice><sic>Ａ</sic><corr>Ｂ</corr></choice>（Ａ代表原抄寫者所寫的字，Ｂ代表標記者修訂的字）後加上<note>作說明。

標點標記

　　１、一般標點標為：<pc>Ｘ</pc>（Ｘ代表標點符號）。
　　２、當標點剛好落在重文符號中間時，如：以手遮<choice>日〻<expan>日日</expan></choice>光所下之䖏，兩個日中間當斷句時，可標為：<expan>日<pc>，</pc>日</expan>，或是日<pc>，</pc><choice>〻<expan>日</expan></choice>。

注解標記

１、公開給讀者看的說明，標為：<note>Ｘ</note>（Ｘ代表注解內容）。
　　２、編碼者給自己看的提示（不會公開顯示），標為：。
　　３、敦煌變校注的錨點（目前顯示為□）：<anchor type="dh-bw-jiaozhu" n="Ｘ"/>（Ｘ代表原書注解序號）。
　　４、小字雙行夾注，標成：<hi rendition="#inline-para">Ｘ<lb/>Ｘ</hi>（Ｘ代表夾注內容，<lb/>代表換行點）。
　　５、後人寫的雙行小字注解文字，標成：<note resp="hand2" rendition="#inline-para">Ｘ<lb/>Ｘ</note>。
　　６、後人寫在右邊注解文字，標成：<note resp="hand2" rendition="#inline-right">Ｘ</note>。

空格標記

文獻末尾空格不標記。

　　１、韻文的空格：在散文描述中，插入一段偈語或詩歌時，往往換行縮排，並在句與句之間空若干字，此時在空下的位置標記<space type="verseSpacing" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　２、段落的空格：在另起一段，或徵引文獻時，行首會空下若干字，此時在空下的位置標記<space type="punctuation" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　３、挪抬的空格：在行文中，為表示敬意而空一字，此時在空下的位置標記<space type="honorific" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。
　　４、無意義的空格：在標題上，或不該有空字而空者，此時在空下的位置標記<space type="simpleSpace" unit="char" extent="Ｘ"/>（Ｘ代表所空字數）。

更正標記

　　１、一般錯字：<choice><sic>Ａ</sic><corr>À</corr></choice>（Ａ為原抄寫的錯字，À為標記者改訂的正字）。
　　２、一字誤拆為二字，如：臭的異體字臰被誤拆成自㤪二字，則標成：<choice><sic>自㤪</sic><corr>臰</corr></choice>。
　　３、一字誤拆為二字，並換行則加入<lb/>，如：尖被誤拆成五人二字，其中人字換行書寫，則標成：<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。

參、標記語言範例表

關於標記語言的規範與實例，請參見：媒體:編碼語言範例.pdf（陸續修訂中）。

肆、標記原則

基本原則一：不論原文使用何種字體（楷書、行書、草書等），皆迻錄為楷書（楷化）。
基本原則二：沒有特殊標記之字即標準字，此所謂標準字指的是2015年前後時期教育部異體字字典所定正字。

依照寫卷字形情況分成下面幾類標記規則：
　　一、標準字
　　　　１、字形筆畫與教育部異體字典所定正字完全相同者，即直書其字型而不作任何標記。
　　　　２、字形與標準字大致相同，但筆畫因書寫習慣而有細部不同時，亦直書其字型而不作任何標記。
　　　　３、當字形可辨識為某字，但細部筆畫不易辨識時，即標示為<unclear>標準字</unclear>。
　　二、異體字（包含通同字）
　　　　１、當字形筆畫與標準字有結構性的不同，而此不同並非因為書寫習慣造成時，判定為異體字。
　　　　２、萬國碼（Unicode）有收錄者，按原字型迻錄（此類將由freecommandXE程式轉成< orig >，顯示在原文抄本時為原字型，在標準字體化則呈現為藍色標準字）。
　　　　３、萬國碼（Unicode）無收錄，而教育部異體字典有收錄，能夠以所對應的正字表達出來（已確定），教育部異體字字典對該字的編號會記錄在<g>@ref標記中，如：<orig reg="那"><g ref="#A04204-023"/></orig>。
　　　　４、萬國碼（Unicode）無收錄，而教育部異體字典無收錄，但字形結構上能夠分辨者（專案新增）：
　　　　　　１）字形與異體字典無明顯不同者，標示同上例３。
　　　　　　２）字形與異體字典有明顯不同者，<g>@ref標記編號為該字的卷次、行次、字次，如：<orig reg="福"><g ref="#S-2113-036-09"/></orig>。
　　　　５、古今通用字，兩者字形不同，但為古今字或有通用的情形，標例同異體字：如：紅旗初<choice><orig>辰</orig><reg>震</reg></choice> <note>《說文》段注云：辰，震也。震振古通用，此亦可作振。</note>。
　　三、錯字（包含同音通假、形近而誤）
　　　　１、當字形筆畫與標準字有結構性的不同，且確定其與音義標準字也不同，判定為錯字。一般錯字標示為<choice><sic>錯字</sic><corr>標準字</corr></choice>，其後加<note>判定錯誤的依據</note>
　　　　２、形近而誤：如：雹子空中自消<choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分，此處客當作容，而容通溶。</note>。
　　　　３、同音通假：恡此明珠如<choice><orig>姓明</orig><reg>性命</reg></choice> <note>蘇遠鳴：〈敦煌石窟中的瑞像圖〉</note>。

伍、所見異體字表

關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理，詳見：媒體:所遇異體字表.pdf（表格尚在陸續增訂中）。

@@ 行 21： / 行 21： @@
 =貳、編碼語言使用說明=
-==異體字或通同字的 情況==
+==異體字或通同字的 標記==
  　　１、在標明異體字或通同字時使用，標為：<orig reg="Ｘ">Ｙ</orig>（Ｘ代表教育部規範之正字，Ｙ代表異體字或通同字）。<br/>
  　　２、當Ｙ為萬國碼（Unicode）所沒有的字時，則代換成<g ref="#Ｚ"/>（Ｚ代表教育部異體字典中的字碼或缺字的卷行字號）。<br/>

匿名

搜尋

「中古佛教寫本資料庫工作手冊」：修訂間差異

命名空間

更多

頁面操作

於 2016年1月13日 (三) 11:44 的修訂

目次

壹、工作流程

貳、編碼語言使用說明

異體字或通同字的標記

錯字或假借字的情況

使用特殊符號的情況

字形模糊不清、損毀、塗改等情況

刪除標記

插入標記

標點標記

注解標記

空格標記

更正標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

「中古佛教寫本資料庫工作手冊」：修訂間差異

於 2016年1月13日 (三) 11:44 的修訂

壹、工作流程

貳、編碼語言使用說明

異體字或通同字的標記

錯字或假借字的情況

使用特殊符號的情況

字形模糊不清、損毀、塗改等情況

刪除標記

插入標記

標點標記

注解標記

空格標記

更正標記

參、標記語言範例表

肆、標記原則

伍、所見異體字表

導覽

wiki工具

頁面工具