匿名
尚未登入
登入
DILA Wiki
搜尋
檢視 中古佛教寫本資料庫工作手冊 的原始碼
出自DILA Wiki
命名空間
頁面
討論
更多
更多
頁面操作
閱讀
檢視原始碼
歷史
←
中古佛教寫本資料庫工作手冊
由於下列原因,您沒有權限進行編輯此頁面的動作:
您請求的操作只有這個群組的使用者能使用:
使用者
您可以檢視並複製此頁面的原始碼。
'''中古佛教寫本資料庫編碼工作手冊'''<br/> '''The Database on Medieval Chinese Dūnhuáng Texts'''<br/> Date: 2015-7-06 Author:林靜慧(Lin Ching-hui) 本計畫為中華佛研所與根特大學根特佛學研究中心的合作專案。由洪振洲(Hung Jen-jou)、安東平(Christoph Anderl)主持,馬德偉(Marcus Bingenheimer, Temple University)、張伯雍 (Zhang Boyong)擔任顧問。<br/> [[圖片:S-3491寫卷影像.png|frame|工作圖例一:[[S-3491.png]]寫卷影像]][[圖片:S-3491的TEI標記.png|frame|工作圖例二:[[S-3491TEI.png]]標記]][[圖片:S-3491的數位版本.png|frame|工作圖例三:[[S-3491TEXT.png]]的數位版本]] =壹、工作流程說明= 一、下載所需敦煌寫卷影像檔(如至[http://idp.nlc.gov.cn 國際敦煌項目]),並在PDF檔上標好行號。<br/> 二、搜尋寫卷內容是否有文字檔,若有文字檔則下載;若沒有則將影像檔初步打成文字檔。<br/> 三、細部分辨寫卷字形,用Notepad++或oxygen開啟寫卷文字檔(xml檔),在文字檔的基礎上,開始加上標記語言。工作時需注意下例幾點:<br/> 1、注意標記語言的使用(參見「[[#參、標記語言範例表]]」)。<br/> 2、遇到萬國碼(Unicode)已收錄的異體字,需同時維護異體字庫(參見檔案「00-variant-table-Ms-Project」),並注意程式只能判斷一組正字與異體字的關係,所以如果該異體字另兼正字,那麼就不能列入該檔中,需用人工輸入標記:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字),以免因程式無法分辦而造成混亂。<br/> 3、遇到萬國碼(Unicode)沒收錄的異體字,需到[http://dict2.variants.moe.edu.tw/variants/ 教育部異體字字典]找出對應字與下載字圖,存入異體字圖庫(參見檔案「gaiji」);若是異體字典沒有對應的字,先標明缺字並記錄該字的卷次行次字次,稍後需要造字。(如果將來出版實體書,這些Unicode沒有的異體字圖檔皆需造字,將圖檔改成文字。)<br/> 4、遇到萬國碼(Unicode)、教育部異體字典未收錄,而全字庫中有造字的異體字,到檔案「png_24x24」搜尋字碼,存到「gaiji\png」中,因字檔前面不能是數字,所以在原檔名前加上大寫的Q。<br/> 5、標明資料來源。<br/> 四、完成標記後,用oxygen轉成原抄本檔與標準字檔,初步檢查是否有誤。<br/> 五、使用freecommandXE軟體叫出encoding-desc.rb程式,用Oxygen中的Tools/Compare Files將轉好的00-encodingDesc檔案合併,異體字庫中的缺字(專案新增異體字)才能顯示在html的頁面上。<br/> 六、最後使用freecommandXE軟體叫出char-reg.rb程式,將異體字庫中的異體字轉成<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字),用Oxygen中的Tools/Compare Files將轉好的標記xml檔案合併,最後再檢查是否有誤。<br/> *附加說明: #所使用的標記規範為 [http://www.tei-c.org/release/doc/tei-p5-doc/zh-TW/html/index.html TEI P5]。<br/> #最好安裝 Unicode Super-CJK Fonts v6.0。 =貳、編碼語言使用說明= ==異體字(包含通同字)的標記== 1、在標明異體字或通同字時使用,標為:<orig reg="X">Y</orig>(X代表教育部規範之正字,Y代表異體字)。<br/> 2、當Y為萬國碼(Unicode)所沒有的字時,則代換成<g ref="#Z"/>(Z代表教育部異體字典中的字碼或缺字所在的卷次行次字次)。<br/> 3、檔案「00-variant-table-Ms-Project」收錄的異體字,freecommandXE程式會自動轉成<orig reg="X">Y</orig>的標記並出現type(Unicode常用罕用字分類),但是若在<orig reg="X">中放進「00-variant-table-Ms-Project」收錄的異體字,卻會被程式自動略過,字形不會產生變動,因此若遇到一字兼兩種正字的異體時,要選擇其中一種收入「00-variant-table-Ms-Project」,另外一種則採用人工輸入,如仏字同時是佛與似的異體字,「00-variant-table-Ms-Project」檔中已選擇仏作為佛的異體,程式只會自動將仏轉成佛,那麼遇到似的異體時,便要標為:<orig reg="似">仏</orig>。<br/> 4、所謂通同字,意指兩字有時有通用的情形,又各自另兼正字,如:鍾鐘為通同字,但其各有本義,鍾為酒器,鐘為樂器,在「二口金鍾」此文之鍾字作樂器解時,其本字當為鐘,此時編碼作<orig reg="鐘">鍾</orig>;又如:「有願尅從」,剋與尅為同音同義的通同字,克與剋為通同字,此文尅當作「能夠」解,克與尅都有「能夠」之意,而此尅依據教育部異體字典考定:因與正字剋形體相近而成為常用之俗寫異體字,此時編碼作<orig reg="剋">尅</orig>。<br/> 5、或有因字形相近,導致書寫習慣將兩字通用者,如:无(無的異體)與元,師與帥,客與容,雨與兩,此雖有通用的事實,但為書寫筆畫的習慣,而非意義有相通處,因此被歸入形近而誤的錯字,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表原文字形,B代表編碼者修定的標準字)。<br/> ==錯字(包含假借字)的標記== 1、一般錯字:在標明字形書寫錯誤時使用,標為:<choice><sic>A</sic><corr>B</corr></choice> (A代表原寫本的字形,B代表編碼者修定的標準字,當A為Unicode所沒有的字時,則代換成<orig reg="X">Y</orig>),若有他本可以作為校勘證據,便用<note>說明出處(出處可使用簡稱,並在凡例中將完整出處說明)。除了單字對應的錯字之外,還有一字誤為兩者:<br/> 1)一字誤拆為二字者,如:S-3491有臭的異體字臰被誤拆成自㤪二字,則標成:<choice><sic>自㤪</sic><corr>臰</corr></choice>。<br/> 2)一字誤拆為二字,並換行者,則加入<lb/>,如:S-3491有尖被誤拆成五人二字,其中人字換行書寫,則標成:<choice><sic>五</sic><lb/><sic corr="尖">人</sic></choice>。<br/> 2、同音通假(假借字)視為因音同或音近而造成的錯字,如:S-2113「吝此明珠如姓明」,姓明二字語義不通,當為性命之同音假借的錯字,此時標為:<choice><sic>姓明</sic><corr>性命</corr></choice>。<br/> 3、形近而誤的錯字,如:S-3491「跂覢電作朱旗」,跂乃形近跛而誤,而跛與披音近通假,有另一版本P-2187降魔變押座文與本卷之語為證,故標為:<choice><sic>跂</sic><corr>跛</corr></choice><note>本卷95行有跛旗之語,故知跂為跛之誤,且跂覢二字P-2187作披閃,蓋跛假作披。</note>。<br/> ==特殊符號的標記== 1、以萬國碼「雁點」(レ点 U+3191)與乙字為倒乙符號(參見:[[媒體:敦煌古代的標點符號.pdf]]、[https://ja.wikipedia.org/wiki/%E8%A8%93%E8%AA%AD 維基百科:訓読] ),在標明文字倒乙時使用,標為:<orig reg="AB">B<add place="inline-right">㆑</add>A</orig>或<orig reg="AB">B<add place="inline-right">乙</add>A</orig>。<br/> 1)倒乙字若是萬國碼(Unicode)已收錄的異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。<br/> 2)倒乙字若是萬國碼(Unicode)未收錄的異體字,則標為:<orig reg="X">Y</orig>。<br/> 3)<orig reg="AB">中的A、B字體須為標準字,B<add place="inline-right">㆑</add>A此處的A、B則可放入異體字。<br/> 2、以萬國碼「疊字符號」(踊り字 U+303B)為重文符號,在標明省書重文時使用,如:<choice><abbr>A〻</abbr><expan>AA</expan></choice>或<choice><abbr>A〻B〻</abbr><expan>ABAB</expan></choice>(所有的 <expan> 標記中已視為「正規化」,故不再有如 <unclear> 等標記)。<br/> 1)重文字若是萬國碼(Unicode)有收錄的異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。<br/> 2)重文字若是萬國碼(Unicode)未收錄有的異體字,則標為:<orig reg="X">Y</orig>。<br/> 3)省書符號前有行號時的標法:只標省書符號。<br/> 3、另有一種省書方式沒有特殊符號的標示,而是對常用字形直接減筆書寫,如𦬇為菩薩的省書符號,此時則標為:<choice><abbr>卄卄</abbr><expan>菩薩</expan></choice>。<br/> 1)<abbr>包含的字形若是萬國碼(Unicode)有收錄的異體字則直書其字形,freecommandXE程式會將其轉成<orig reg="X">Y</orig>。<br/> 2)<abbr>包含的字形若是萬國碼(Unicode)未收錄有的異體字,則標為:<orig reg="X">Y</orig>。<br/> 3)<expan>只在表示<abbr>的縮寫還原時使用, <expan> 標記中已視為「正規化」,故不再有如 <nowiki><reg></nowiki>或<unclear> 等標記。<br/> ==字形模糊不清、損毀、塗改的標記== 1、<unclear>:當文字墨色模糊(如:退色或磨損)或文字筆畫不清(如:行書、草書)難以判斷,需依賴上下文才能判讀時使用;若需要其他文獻校勘才能判讀時,便加上<note>說明文獻出處。<br/> 1)若是遇到文字模糊不清無法確切辨識清楚時使用(原有的<nowiki><reg></nowiki>標號不用),標成:<unclear>A</unclear>(A代表該字);若是雖然字形不甚清晰,但仍有50%以上的把握能判斷該字,則直其書其字。<br/> 2)若是異體字的字形不清楚,亦直接以<unclear>包覆標準字,不再使用<orig reg="X">或<choice>。<br/> 3)若是因行書、草書的寫法導致筆畫不清,則不管字跡是否模糊,皆使以<unclear>包覆標準字。<br/> 2、<damage>:當文字損毀時使用。<br/> 1)文字略有損毀,尚可辨識時使用,標成:<damage>A</damage>(A代表損毀字)。<br/> 2)若因破損而無法辨識,則標成:<damage unit="char" extent="X"/>(X代表損毀的字數)。<br/> 3)損毀嚴重,需參酌他本,理校出正字,則標成:<nowiki><choice><unclear><damage unit="char" extent="1"/></unclear><reg>A</reg></choice></nowiki>(A代表編碼者理校出的正字)。(<unit="chars"> 是早期的標記,現在統一作 unit="char")<br/> 3、<gap>:文字並非損毀,或因塗改或其他原因,使得完全無法分辨字形時使用,標成:<gap unit="char" extent="1"/>。<br/> ==刪除字的標記== 1、當某字被刪去時,標為:<nowiki><del>A</del></nowiki>(A代表被刪去的字);若A為異體字,則代入<orig reg="X">Y</orig>。<br/> 2、同一行中,先刪去某字,隨後寫上正確的字時,標為:<nowiki><del>A</del>À</nowiki>(A代表原本寫錯的字,À代表改正後的字)。<br/> 3、當某字被刪去後,又在其右邊加上改正的字時,標為:<nowiki><subst><del>A</del><add place="inline-right">À</add></subst></nowiki>(A代表原本寫錯的字,À代表改正後的字)。<br/> 4、當某字被塗毀時,導致無法辨別字體時,標為:<del unit="char" extent="1"/>。<br/> 5、當在錯字上添加筆畫改成正確的字時,標為:<nowiki><subst><del>A</del><add>À</add></subst></nowiki>(A代表原本寫錯的字,À代表改正後的字)。<br/> 6、寫卷表示刪除字,除了直接劃掉、塗改筆畫,還有在被刪字的右邊標上卜字或是頓點等符號,詳細例證可參見[[媒體:敦煌古代的標點符號.pdf]],在此並不特別標出符號形式,統一採用<nowiki><del></nowiki>標記。<br/> ==插入字的標記== 1、在字的右邊插入文字時,標為:<add place="inline-right">A</add>(A代表被插入的字)。<br/> 2、在筆劃不清的字右邊插入文字時,標為:<subst><del unit="char" extent="1"/><add place="inline-right">A</add></subst>。<br/> 3、在錯字上添加筆畫改成正確的字時,標為:<nowiki><subst><del>A</del><add>À</add></subst></nowiki>(A代表原本寫錯的字,À代表改正後的字)。<br/> 4、當被刪去的某字被塗毀而無法辨識,又在右邊加入改正字時,標為:<subst><gap unit="char" extent="1"/><add place="inline-right">A</add></subst>(A代表被插入的字)。<br/> 5、當被刪改的錯字被標記者判定為誤時,在<choice><sic>A</sic><corr>B</corr></choice>(A代表原文字形,B代表編碼者修訂的字)後加上<note>作說明。<br/> ==標點符號的標記== 1、一般標點標為:<pc>X</pc>(X代表編碼者插入的中式全型標點符號,只會在標準字體化的版本顯示)。<br/> 2、當標點剛好落在重文符號中間時,如:以手遮<choice><abbr>日〻</abbr><expan>日日</expan></choice>光所下之䖏,兩個日中間當斷句時,可標為:<expan>日<pc>,</pc>日</expan>,或是日<pc>,</pc><choice><abbr>〻</abbr><expan>日</expan></choice>。<br/> ==注解的標記== 1、小字雙行夾注,標為:<hi rendition="#inline-para">X<lb/>X</hi>(X代表注解內容,<lb/>代表換行點)。<br/> 2、後人寫的雙行小字注解文字,標為:<note resp="hand2" rendition="#inline-para">X<lb/>X</note>(X代表注解內容,<lb/>代表換行點)。<br/> 3、後人寫在右邊注解文字,標為:<note resp="hand2" rendition="#inline-right">X</note>(X代表注解內容)。<br/> 4、編碼者的說明(會公開顯示),標為:<note>X</note>(X代表注解內容)。<br/> 5、編碼者給自己看的提示(不會公開顯示),標為:<nowiki><!--X--></nowiki>。<br/> 6、《敦煌變校注》的錨點(目前顯示為□):<anchor type="dh-bw-jiaozhu" n="X"/>(X代表原書注解序號)。<br/> ==空格的標記== *凡是文獻末尾的空格不予以標記。 1、韻文的空格:在散文描述中,插入一段偈語或詩歌時,往往換行縮排,並在句與句之間空若干字,此時在空下的位置標記<space type="verseSpacing" unit="char" extent="X"/>(X代表所空字數)。<br/> 2、段落的空格:在另起一段,或徵引文獻時,行首會空下若干字,此時在空下的位置標記<space type="punctuation" unit="char" extent="X"/>(X代表所空字數)。<br/> 3、挪抬的空格:在行文中,有為表示敬意而空一字者,此時在空下的位置標記<space type="honorific" unit="char" extent="X"/>(X代表所空字數)。<br/> 4、無意義的空格:有在標題上空下數字,或在行文中有不該有空字而空者,此時在空下的位置標記<space type="simpleSpace" unit="char" extent="X"/>(X代表所空字數)。<br/> =參、標記語言範例表= *關於標記語言的規範與實例,請參見:[[媒體:編碼語言範例(修訂版).pdf]]。 =肆、標記原則= *基本原則一:不論原文使用何種字體(楷書、行書、草書等),皆迻錄為楷書(楷化)。 *基本原則二:沒有特殊標記之字即標準字,此所謂標準字指的是2015年前後時期[http://dict2.variants.moe.edu.tw/variants/ 教育部異體字字典]所定正字。 依照寫卷字形情況分成下面幾類標記規則:<br/> 一、標準字<br/> 1、字形筆畫與教育部異體字典所定正字完全相同者,即直書其字型而不作任何標記。<br/> 2、字形與標準字大致相同,但筆畫因書寫習慣而有細部不同時,亦直書其字型而不作任何標記。<br/> 3、當字形可辨識為某字,但細部筆畫不易辨識時,即標示為<unclear>標準字</unclear>。<br/> 二、異體字(包含通同字)<br/> 1、當字形筆畫與標準字有結構性的不同,而此不同並非因為書寫習慣造成時,判定為異體字。<br/> 2、萬國碼(Unicode)有收錄者,按原字型迻錄(此類將由freecommandXE程式轉成< orig >,顯示在原文抄本時為原字型,在標準字體化則呈現為藍色標準字)。<br/> 3、萬國碼(Unicode)無收錄,而教育部異體字典有收錄,能夠以所對應的正字表達出來,教育部異體字字典對該字的編號會記錄在<g>@ref標記中,如:<orig reg="那"><g ref="#A04204-023"/></orig>。<br/> 4、萬國碼(Unicode)與教育部異體字典皆無收錄,但字形結構上能夠分辨者:<br/> 1)字形與教育部異體字典收錄之字雖不完全相同,但差異不大者,標為:<orig reg="那"><g ref="#A04204-023"/></orig>。<br/> 2)字形與教育部異體字典有明顯不同者,<g>@ref標記編號為該字的卷次、行次、字次,如:<orig reg="福"><g ref="#S-2113-036-09"/></orig>(S-2113為卷次,036為行次,09為字次)。<br/> 5、古今通同字:兩者字形不同,但為古今字或有通用的情形,標例同異體字:如:紅旗初<orig reg="震">辰</orig><note>《說文》段注云:辰,震也。震振古通用,此亦可作振。</note>。<br/> 三、錯字(包含同音通假、形近而誤)<br/> 1、當字形筆畫與標準字有結構性的不同,且確定其與音義標準字也不同,判定為錯字。一般錯字標為:<nowiki><choice><sic>錯字</sic><corr>標準字</corr></choice>,其後加<note>判定錯誤的依據</note></nowiki><br/> 2、形近而誤:因此字形相近而產生錯誤,如:雹子空中自消<nowiki><choice><orig>客</orig><reg>溶</reg></choice><note>本卷客容不分,此處客當作容,而容通溶。</note>。</nowiki><br/> 3、同音通假:因字音相近而產錯誤,如:恡此明珠如<nowiki><choice><orig>姓明</orig><reg>性命</reg></choice><note>見蘇遠鳴:〈敦煌石窟中的瑞像圖〉。</note>。</nowiki><br/> =伍、所見異體字表= *關於本計畫所見之異體字與標記異體字的標準、特殊情況的處理,詳見[https://docs.google.com/a/dila.edu.tw/uc?id=0B-FcOEt_yc6dTmxET2dUamRrYWM&export=download 所見異體字表]。 *關於"所見異體字表"裡的一些規範:<br/> 一、EUC:是Unicode未收,但[http://www.cns11643.gov.tw/AIDB/query_composite.do/ 全字庫]的字碼有的字型。<br/> 二、Unicode已收之字,教育部異體字典必定有收,因此不附異體字典字碼。<br/> 三、本專案在標記異體字的順序為:<br/> 1、萬國碼(Unicode)已收之字,不附異體字典碼;<br/> 2、萬國碼(Unicode)未收,但EUC有的字碼,採用EUC字碼,而不用異體字典字碼;<br/> 3、萬國碼(Unicode)已收之字,但電腦字型打不出來,則採用異體字典字碼;<br/> 4、萬國碼(Unicode)未收,則採用異體字典字碼;<br/> 5、萬國碼(Unicode)與異體字典皆未收,則採用專案自訂字碼(通常是字圖的位置)。<br/> 四、在備註欄標註"同F252-049-07","F252-049-07"為Unicode與教育部異體字典皆未收,表示此字型在標記時,因其字型與此字碼相同,因此標為同一字。<br/> 五、拼音欄皆依照台灣常用注音為準(某些字的讀音有破音字,或其聲調在大陸與台灣有別)。<br/> =陸、標記工作的心得與問題討論= *異體字與通同字並不等同,是否該分同一類? *通假字是否該視為錯字? *專案新增之異體字,亦可能是錯字,或需考證?或需更多證據?證據數量的標準? *異體字書寫筆畫之判讀,如:辵字旁寫作辶,或作人字型;水字旁寫作兩點,或作一直豎;戈字旁的點畫或在橫筆之下,或與撇筆相連;艹字旁或相連,或不相連,這些筆畫是否該分清楚? *"所遇異體字表"在增至兩百頁左右,因圖檔太多,Word檔容易產遲緩反應,或許可改用另一種方式制作表,目前資料庫數量太大,不宜重新制做,以待後人。 *使用"教育部異體字典"時,發現字典收錄的字有若干問題,待資料增多之後,可一併討論。
返回到「
中古佛教寫本資料庫工作手冊
」。
導覽
導覽
首頁
近期變更
隨機頁面
MediaWiki說明
wiki工具
wiki工具
特殊頁面
頁面工具
頁面工具
使用者頁面工具
更多
連結至此的頁面
相關變更
頁面資訊
頁面日誌