「《南亭和尚全集》專案工作手冊」:修訂間差異
imported>Tsairung lin (→byline) |
imported>Tsairung lin (→檔案架構) |
||
(未顯示由 2 位使用者於中間所作的 85 次修訂) | |||
行 1: | 行 1: | ||
=範圍= | =範圍= | ||
* 《南亭和尚全集》共 計 13 冊。 | |||
=更新= | |||
*search-vol-json | |||
*vols | |||
新增每冊,記得更新:P:\2017南亭和尚全集\02Master data\out | |||
=修改版權頁= | |||
"P:\2017南亭和尚全集\02Master data\bin\epub-template\back.xhtml" | |||
"P:\2017南亭和尚全集\02Master data\bin\epub-back.rb" | |||
=刪除內容= | |||
<choice><sic>ABC</sic></choice> | |||
=修訂內容= | |||
<choice><sic>ABC</sic><corr>DEF</corr></choice> | |||
=轉檔程式= | =轉檔程式= | ||
*ruby | *ruby | ||
Commander =>P:\2017南亭和尚全集\02Master data\bin | |||
=>工具=>Dos 視窗 | |||
<syntaxhighlight lang="XML"> | <syntaxhighlight lang="XML"> | ||
1. | 1. 文件檔轉xml=>ruby t2x.rb | ||
2. | 從P:\2017南亭和尚全集\02Master data\out\xml複製到外面的xml | ||
3.跑 | 2. 跑本文ruby x2h.rb | ||
3.跑 全文檢索ruby x2t.rb | |||
4.跑樹狀ruby toc.rb | 4.跑樹狀ruby toc.rb | ||
</syntaxhighlight> | </syntaxhighlight> | ||
= | =架構= | ||
<syntaxhighlight lang="XML"> | <syntaxhighlight lang="XML"> | ||
行 83: | 行 105: | ||
=XML Elements= | =XML Elements= | ||
==byline== | ==byline== | ||
行 96: | 行 112: | ||
<syntaxhighlight lang="XML"><p rend="kaiti">——摘錄自 國父遺敎教選集第五卷、心理建設甲部、第一章</p></syntaxhighlight> | <syntaxhighlight lang="XML"><p rend="kaiti">——摘錄自 國父遺敎教選集第五卷、心理建設甲部、第一章</p></syntaxhighlight> | ||
==choice== | |||
*新增「註解」 | |||
【原書用字】:深密經;【數位版】:解深密經 | |||
例如第二冊:2-1.xml | |||
<syntaxhighlight lang="XML"><lbn="5.06"/>夫子之文章,可得而聞也;夫子之言性與天道,不可得而聞也。』」此與<choice><sic>深密經</sic><corr>解深密經</corr></choice>上,佛說:「阿<lbn="5.07"/>陀那識甚深細,</syntaxhighlight> | |||
==div 1== | |||
* 章節調整 | |||
* | |||
<syntaxhighlight lang="XML"> | |||
<syntaxhighlight lang="XML">< | <div><head type="add"> 第三節 說經的時候和說經的處所</head><p rend="head"> 第二講</p> | ||
<p> 各位聽眾!佛說孛 經 鈔,今天講第一章中的</p> | |||
<p rend="h2"> 第三節 說經的時候和 說 經的處所</p> | |||
</syntaxhighlight> | |||
==div== | ==div 2== | ||
*div(文本區段)文件的正文前資訊、正文及正文後資訊的分支區段。章節皆以 div 元素標示。例如第一冊a1,(1-3xml) | *div(文本區段)文件的正文前資訊、正文及正文後資訊的分支區段。章節皆以 div 元素標示。例如第一冊a1,(1-3xml) | ||
<syntaxhighlight lang="XML"><div><head>引言</head></syntaxhighlight> | <syntaxhighlight lang="XML"><div><head>引言</head></syntaxhighlight> | ||
行 109: | 行 135: | ||
例如第一冊,p5(1-3xml) | 例如第一冊,p5(1-3xml) | ||
<syntaxhighlight lang="XML"><div><p>這是講翻譯這部經的人。「吳」是東漢以後,魏、蜀、吳三國中的吳。「支謙」是翻譯這部</syntaxhighlight> | <syntaxhighlight lang="XML"><div><p>這是講翻譯這部經的人。「吳」是東漢以後,魏、蜀、吳三國中的吳。「支謙」是翻譯這部</syntaxhighlight> | ||
==head== | ==head== | ||
行 115: | 行 144: | ||
<div><head>…</head></div> | <div><head>…</head></div> | ||
</syntaxhighlight> | </syntaxhighlight> | ||
<syntaxhighlight lang="XML">如果科判不用兩層,則不需要再開頭加上<head>,而改用<p>,例如11-77.xml | |||
= | <lb | ||
n="308.01"/><div><p>〈鳳山佛教蓮社廿五周年、大雄寶殿落成〉</p></syntaxhighlight> | |||
*標體層次,字體需要變大 | |||
<syntaxhighlight lang="XML"> | <syntaxhighlight lang="XML"> | ||
<div><head | <div><head rend="large"> 〈心地觀 經 報恩品簡介〉</head></syntaxhighlight> | ||
</syntaxhighlight> | |||
==jing== | ==jing== | ||
行 127: | 行 155: | ||
<syntaxhighlight lang="XML"> | <syntaxhighlight lang="XML"> | ||
<div rend="jing"><p>聞如是:一時,佛在舍衛國。</p></div> | <div rend="jing"><p>聞如是:一時,佛在舍衛國。</p></div> | ||
</syntaxhighlight> | |||
== note == | |||
*place:標明來源文件中註釋出現的位置<br/> | |||
雙行夾註 | |||
例如:第二冊,p38(2-2.xml) | |||
<syntaxhighlight lang="XML"> | |||
孔夫子釣而不綱,弋<note place="inline2">音<lb/>意</note> | |||
</syntaxhighlight> | </syntaxhighlight> | ||
==orig== | ==orig== | ||
*保留原書文字,並顯示正規化文字 | *保留原書文字,並顯示正規化文字 | ||
<syntaxhighlight lang="XML" | <syntaxhighlight lang="XML">南亭和<choice><orig>尙</orig><reg>尚</reg></choice>全集序</syntaxhighlight> | ||
==p== | ==p== | ||
行 144: | 行 183: | ||
n="1.01"/> | n="1.01"/> | ||
</syntaxhighlight> | </syntaxhighlight> | ||
==rend== | |||
*在PDF,須強制換頁 | |||
<syntaxhighlight lang="XML"> | |||
例如(1-3xml) | |||
<lb | |||
n="a3.08"/><p>中華民國四十七年五月於臺北市華嚴蓮社</p><pb n="1"/><lb | |||
n="1.01"/></div></div><div rend="pagebreak"><head rend="large">《佛說孛經鈔講話》</head></syntaxhighlight> | |||
==search== | |||
以xml分總序、冊、篇章,P:\2017南亭和尚全集\02Master data\out\search-vol-json | |||
*$vols = array( | |||
*'1-1' => '第一冊 南亭和尚全集序(汪慧枝)', | |||
*'1-2' => '第一冊 南亭和尚全集序(李志夫)', | |||
*'1-3' => '第一冊《佛說孛經鈔講話》', | |||
*...... | |||
*'5-1' => '第五冊〈歸戒授受的演變〉', | |||
==seg== | ==seg== | ||
行 152: | 行 208: | ||
*<seg style="font-weight:bold"> 粗體 | *<seg style="font-weight:bold"> 粗體 | ||
*<seg style="font-weight:normal"> 不要粗體 | *<seg style="font-weight:normal"> 不要粗體 | ||
*<seg style="font-size:small">縮小 | |||
*<p style="font-size:small">整段縮小 | |||
<syntaxhighlight lang="XML"><p><lb | <syntaxhighlight lang="XML"><p><lb | ||
n="181.03"/><p rend="h2">2 釋經文,<seg style="font-weight:normal">分六</seg>:(1) 示行果。</p></p></syntaxhighlight> | n="181.03"/><p rend="h2">2 釋經文,<seg style="font-weight:normal">分六</seg>:(1) 示行果。</p></p></syntaxhighlight> | ||
<syntaxhighlight lang="XML"> | |||
<seg style="font-size:small">佛法無邊</seg></syntaxhighlight> | |||
<syntaxhighlight lang="XML"> | |||
<p style="font-size:small"></p></syntaxhighlight> | |||
==toc== | |||
總目類別、冊別架構見於: | |||
*P:\2017南亭和尚全集\02Master data\bin\toc-vols.txt | |||
*P:\2017南亭和尚全集\02Master data\bin\toc.txt | |||
*toc.txt | |||
編輯時,第一層保留兩個空格,第二層保留四個空格 | |||
=OCR= | =OCR= | ||
行 168: | 行 239: | ||
*4.ABBY | *4.ABBY | ||
=校對規範= | =OCR 校對規範= | ||
*1.以word檔案,比對ABBYY與Google Docs產生的文字。 | *1.以word檔案,比對ABBYY與Google Docs產生的文字。 | ||
*2.頁碼:請打在每一頁文字的開頭,自己獨立的一行。格式例如:p1 p2 | *2.頁碼:請打在每一頁文字的開頭,自己獨立的一行。格式例如:p1 p2 | ||
行 180: | 行 251: | ||
*8.「頁眉」請刪除。 | *8.「頁眉」請刪除。 | ||
*9.「目錄」請刪除。 | *9.「目錄」請刪除。 | ||
*10.異體字,請參考異體字表格:保留原書字體。 | *10.異體字,請參考異體字表格:保留原書字體。 例如四「衆」弟子 | ||
*11.如果打不出該文字,或者無法判斷該文字是否有誤,例如:異體字,請先打上● | *11.如果打不出該文字,或者無法判斷該文字是否有誤,例如:異體字,請先打上● | ||
*12.經文前標示英文字母J(不用內縮空兩格)。 | *12.經文前標示英文字母J(不用內縮空兩格)。 | ||
行 186: | 行 257: | ||
*14.針對有疑問的字詞,可列一個表格清單:例如第四冊,p91,絕對沒有那「們」(疑為「麼」) | *14.針對有疑問的字詞,可列一個表格清單:例如第四冊,p91,絕對沒有那「們」(疑為「麼」) | ||
*15.針對內容有疑慮部分,可列表參照。 | *15.針對內容有疑慮部分,可列表參照。 | ||
=標記校對規範= | |||
*1.標記之前確認: | |||
標逗、 | |||
內文與目錄不符、 | |||
字詞疑慮、 | |||
字詞統一、 | |||
專有名詞、 | |||
政治宗教上等對立議題,並列表請示作法。 | |||
以上可參考校對人員寫的「校對註記」 | |||
*2.標記之前,確認打不出來的異體字● | |||
*3.如遇異體字,請輸入異體字正規化_凡例2018_10_26.xlsx | |||
n1.1,原書:沾漑益廣;數位化:沾溉益廣 | |||
*4.如遇新的異體字,請輸入variant.txt | |||
例如:尙,尚;衆,眾 | |||
*5.PNG需要改成png,勾選副檔名就可以改png | |||
*6.加入科判層次 | |||
*7.雙層夾註檢查 | |||
*8.更改title | |||
*9.檢查out裡面html的toc-vols,toc.txt | |||
*10.check well-formed | |||
=科判= | =科判= | ||
行 193: | 行 285: | ||
<syntaxhighlight lang="XML"> | <syntaxhighlight lang="XML"> | ||
h1 | h1 | ||
...內文... | ....內文.... | ||
h2 | h2 | ||
</syntaxhighlight> | </syntaxhighlight> | ||
=異體字= | =異體字= | ||
* 「異體字正規化之作業規範」 | |||
<syntaxhighlight lang="XML"> | <syntaxhighlight lang="XML"> | ||
1.書中使用之「罕用字」,根據教育部異體字字典判定為異體字者,為方便讀者查閱,則正規化為常用之正字:例如:「够」為「罕用字」,並且為異體字,正規化為「夠」。「冲」為「罕用字」,並且為異體字,正規化為「沖」。 | 1.書中使用之「罕用字」,根據教育部異體字字典判定為異體字者,為方便讀者查閱,則正規化為常用之正字: | ||
2.若有另兼正字之異體字,並為教育部判斷之常用字,則沿用原字不予改動。例如:招徠的「徠」,教育部判為「次常用字」。雖然「徠」、「來」為異體字,「徠」也為正字,沿用原字「徠」不予改動 。 | 例如:「够」為「罕用字」,並且為異體字,正規化為「夠」。「冲」為「罕用字」,並且為異體字,正規化為「沖」。 | ||
2.若有另兼正字之異體字,並為教育部判斷之常用字,則沿用原字不予改動。 | |||
例如:招徠的「徠」,教育部判為「次常用字」。雖然「徠」、「來」為異體字,「徠」也為正字,沿用原字「徠」不予改動 。 | |||
3.人名、地名、專有名詞不作正規化。 | 3.人名、地名、專有名詞不作正規化。 | ||
4.凡正規化字體,可以點選該字,即可看到原書之字體。 | 4.凡正規化字體,可以點選該字,即可看到原書之字體。 | ||
行 207: | 行 301: | ||
=缺字處理= | =缺字處理= | ||
* 介面的缺字圖片來源依據難檢字庫之ID | |||
文內標記,例,冊4,p101.14: | 文內標記,例,冊4,p101.14: |
於 2020年3月30日 (一) 10:41 的最新修訂
範圍
- 《南亭和尚全集》共計 13 冊。
更新
- search-vol-json
- vols
新增每冊,記得更新:P:\2017南亭和尚全集\02Master data\out
修改版權頁
"P:\2017南亭和尚全集\02Master data\bin\epub-template\back.xhtml"
"P:\2017南亭和尚全集\02Master data\bin\epub-back.rb"
刪除內容
<choice><sic>ABC</sic></choice>
修訂內容
<choice><sic>ABC</sic><corr>DEF</corr></choice>
轉檔程式
- ruby
Commander =>P:\2017南亭和尚全集\02Master data\bin =>工具=>Dos 視窗
1.文件檔轉xml=>ruby t2x.rb
從P:\2017南亭和尚全集\02Master data\out\xml複製到外面的xml
2.跑本文ruby x2h.rb
3.跑全文檢索ruby x2t.rb
4.跑樹狀ruby toc.rb
架構
<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="../schema/nanting.rnc" type="application/relax-ng-compact-syntax"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:h="http://www.w3.org/1999/xhtml">
<teiHeader>
<fileDesc>
<titleStmt>
<title>《佛說孛經鈔講話》</title>
<author>南亭和尚</author>
</titleStmt>
<publicationStmt>
<p>本電子檔智慧財產權屬於台北市華嚴蓮社,不得散佈發行。</p>
</publicationStmt>
<sourceDesc>
<bibl>
<title level="s">南亭和尚全集</title><biblScope>二</biblScope>
<title level="m">佛說孛經鈔講話(第一冊)</title>
<publisher>財團法人台北市華嚴蓮社董事會</publisher>
<pubPlace>台北市,台灣</pubPlace>
<date when="1985-09-03">中華民國七四年九月三日</date><edition n="8">初版</edition>
</bibl>
</sourceDesc>
</fileDesc>
<revisionDesc>
<change when="2018-02"><name>周邦信</name> MS Word 轉為 TEI P5 標記</change>
</revisionDesc>
</teiHeader>
<text>
<body>
txt轉XML
- txt轉檔前,人力標示:
p1 => 頁數
tab =><p>
J =><div rend="jing"><p>
〔〕〔〕 =>雙行夾註
H1...H2 (大寫)轉<div><head>=>顯示在科判,也顯示在內文。
h1...h2 (小寫)=>轉成科判目錄,已重新編排順序,不顯示在內文。
自序、引言,標示H
注意:
以上的雙行夾註不是這個:[...][...]
括號不要選錯了。
- txt轉檔前,另存新檔:
存檔類型:(*.txt)=>其他編碼方式=>Unicode(UTF 8)
注意:
編輯器請勿使用 windows 內建的筆記本,它會偷偷加 BOM。
Windows 下純文字編輯器建議使用 notepad++ , 它會顯示檔案的編碼, 也會顯示有沒有 BOM, 也不會偷偷的加 BOM.
XML分檔案
- 一冊分成不同篇章:
1-1.xml
1-2.xml
1-3.xml
XML轉介面科判
- 編輯:
toc.txt
toc-vols.txt
XML Elements
byline
- 顯示楷體
例如第十冊:p203(10-1xml)
<p rend="kaiti">——摘錄自 國父遺敎教選集第五卷、心理建設甲部、第一章</p>
choice
- 新增「註解」
【原書用字】:深密經;【數位版】:解深密經
例如第二冊:2-1.xml
<lbn="5.06"/>夫子之文章,可得而聞也;夫子之言性與天道,不可得而聞也。』」此與<choice><sic>深密經</sic><corr>解深密經</corr></choice>上,佛說:「阿<lbn="5.07"/>陀那識甚深細,
div 1
- 章節調整
<div><head type="add">第三節 說經的時候和說經的處所</head><p rend="head">第二講</p>
<p>各位聽眾!佛說孛經鈔,今天講第一章中的</p>
<p rend="h2">第三節 說經的時候和說經的處所</p>
div 2
- div(文本區段)文件的正文前資訊、正文及正文後資訊的分支區段。章節皆以 div 元素標示。例如第一冊a1,(1-3xml)
<div><head>引言</head>
例如第一冊,p5(1-3xml)
<div><p>這是講翻譯這部經的人。「吳」是東漢以後,魏、蜀、吳三國中的吳。「支謙」是翻譯這部
head
- TEI 定義:(標題)包含任何種類的標題,如章節、列表、詞彙表、寫本描述等的標題。
<div><head>…</head></div>
如果科判不用兩層,則不需要再開頭加上<head>,而改用<p>,例如11-77.xml
<lb
n="308.01"/><div><p>〈鳳山佛教蓮社廿五周年、大雄寶殿落成〉</p>
- 標體層次,字體需要變大
<div><head rend="large">〈心地觀經報恩品簡介〉</head>
jing
- <jing>經文
<div rend="jing"><p>聞如是:一時,佛在舍衛國。</p></div>
note
- place:標明來源文件中註釋出現的位置
雙行夾註
例如:第二冊,p38(2-2.xml)
孔夫子釣而不綱,弋<note place="inline2">音<lb/>意</note>
orig
- 保留原書文字,並顯示正規化文字
南亭和<choice><orig>尙</orig><reg>尚</reg></choice>全集序
p
- 標記散文的段落。
例如:冊一,p2(1-3.xml)
<p>——供中國佛敎會廣播組佛敎之聲佛學廣播用</p>
pb
- 頁碼記錄於 pb 元素的 n 屬性,例如:冊一,p1(1-3.xml)
<pb n="1"/><lb
n="1.01"/>
rend
- 在PDF,須強制換頁
例如(1-3xml)
<lb
n="a3.08"/><p>中華民國四十七年五月於臺北市華嚴蓮社</p><pb n="1"/><lb
n="1.01"/></div></div><div rend="pagebreak"><head rend="large">《佛說孛經鈔講話》</head>
search
以xml分總序、冊、篇章,P:\2017南亭和尚全集\02Master data\out\search-vol-json
- $vols = array(
- '1-1' => '第一冊 南亭和尚全集序(汪慧枝)',
- '1-2' => '第一冊 南亭和尚全集序(李志夫)',
- '1-3' => '第一冊《佛說孛經鈔講話》',
- ......
- '5-1' => '第五冊〈歸戒授受的演變〉',
seg
在 TEI 的中英文解釋:
<seg> (arbitrary segment) represents any segmentation of text below the ‘chunk’ level.
<seg> (隨機分割)包含文件中任何隨機字詞層次的單元 (包括其他分割元素)。
- <seg style="font-weight:bold"> 粗體
- <seg style="font-weight:normal"> 不要粗體
- <seg style="font-size:small">縮小
整段縮小
<p><lb
n="181.03"/><p rend="h2">2 釋經文,<seg style="font-weight:normal">分六</seg>:(1) 示行果。</p></p>
<seg style="font-size:small">佛法無邊</seg>
<p style="font-size:small"></p>
toc
總目類別、冊別架構見於:
- P:\2017南亭和尚全集\02Master data\bin\toc-vols.txt
- P:\2017南亭和尚全集\02Master data\bin\toc.txt
- toc.txt
編輯時,第一層保留兩個空格,第二層保留四個空格
OCR
Google Docs
- 1.有檔案大小限制,一本書需切檔,一次約切30頁。
- 2.半形符號取代為全形,書眉拿掉。
ABBY前製作業(兩面掃成一頁) 例如第三冊:
- 1.Adobe =>把第三冊,另存為180個jpg
- 2.Scan Tailor =>裁切,轉出檔案 001_1L,001_2R,002_1L,002_2R
- 3.FreeCommander(2 mins) =>批次重新命名=>編排順序lL改為3L
- 4.ABBY
OCR校對規範
- 1.以word檔案,比對ABBYY與Google Docs產生的文字。
- 2.頁碼:請打在每一頁文字的開頭,自己獨立的一行。格式例如:p1 p2
- 3.內縮空兩格請輸入:tab鍵
- 4.需要如書一樣換行。
- 5.雙行夾註,加入〔〕符號:
例如:第三冊第一頁。 ...無漏法〔既能自利,又能利他〕〔如大車乘能運重致遠〕...智慧
- 6.「圖片檔案」的文字請刪除,將以掃描檔方式呈現。
- 7.「隔頁書名」請刪除。
- 8.「頁眉」請刪除。
- 9.「目錄」請刪除。
- 10.異體字,請參考異體字表格:保留原書字體。例如四「衆」弟子
- 11.如果打不出該文字,或者無法判斷該文字是否有誤,例如:異體字,請先打上●
- 12.經文前標示英文字母J(不用內縮空兩格)。
- 13.破折號輸入:——(請複製該格式)
- 14.針對有疑問的字詞,可列一個表格清單:例如第四冊,p91,絕對沒有那「們」(疑為「麼」)
- 15.針對內容有疑慮部分,可列表參照。
標記校對規範
- 1.標記之前確認:
標逗、 內文與目錄不符、 字詞疑慮、 字詞統一、 專有名詞、 政治宗教上等對立議題,並列表請示作法。 以上可參考校對人員寫的「校對註記」
- 2.標記之前,確認打不出來的異體字●
- 3.如遇異體字,請輸入異體字正規化_凡例2018_10_26.xlsx
n1.1,原書:沾漑益廣;數位化:沾溉益廣
- 4.如遇新的異體字,請輸入variant.txt
例如:尙,尚;衆,眾
- 5.PNG需要改成png,勾選副檔名就可以改png
- 6.加入科判層次
- 7.雙層夾註檢查
- 8.更改title
- 9.檢查out裡面html的toc-vols,toc.txt
- 10.check well-formed
科判
- 表示科判層次,在txt文件檔案:
一、(一)1(1)➀➊A(A)a(a)Ⓐ, 分別以h1,h2,h3,h4,h5,h6,h7,h8,h9,h10,h11 表示:
h1
....內文....
h2
異體字
- 「異體字正規化之作業規範」
1.書中使用之「罕用字」,根據教育部異體字字典判定為異體字者,為方便讀者查閱,則正規化為常用之正字:
例如:「够」為「罕用字」,並且為異體字,正規化為「夠」。「冲」為「罕用字」,並且為異體字,正規化為「沖」。
2.若有另兼正字之異體字,並為教育部判斷之常用字,則沿用原字不予改動。
例如:招徠的「徠」,教育部判為「次常用字」。雖然「徠」、「來」為異體字,「徠」也為正字,沿用原字「徠」不予改動 。
3.人名、地名、專有名詞不作正規化。
4.凡正規化字體,可以點選該字,即可看到原書之字體。
缺字處理
- 介面的缺字圖片來源依據難檢字庫之ID
文內標記,例,冊4,p101.14:
<choice><orig><g ref="#Z0079"/></orig><reg>瞋</reg></choice>
- ref 屬性是該缺字的編碼