成一老和尚著作專案
出自DILA Wiki
VPN連線服務
- Pulse
範圍
- 《成一老和尚全集》共計38冊、《智光和尚法彙》1本、靄亭和尚《華嚴一乘教義章集解》1本、《栖雲文集》1本,以上共計41本,約382萬字。
修訂
- P:\2020成一老和尚著作\07修訂
- 成一老和尚著作修訂「字詞、標逗、政治對立議題」20200330
架構
$vols = array(
'1-1' => '《華嚴文選》', '2-1' => '《導遊華嚴世界》', '3-1' => '《淨土法門集》', '4-1' => '《彌勒淨土法門集》', '5-1' => '《彌勒淨土法門續篇》', '6-1' => '《大方廣佛華嚴經如來隨好光明功德品講記》', '6-2' => '《華嚴發願文略釋》', '7-1' => '《勸發菩提心文講話》',
'8-1' => '《出家三十要則講話》', '9-1' => '《慧日集》初編', '10-1' => '《慧日集》二編', '11-1' => '《慧日集》第四集', '12-1' => '《慧日集》三編', '13-1' => '《慧日集》上冊', '14-1' => '《慧日集》下冊', '15-1' => '《慧日集》第八集 ', '16-1' => '《慧日集》第九集', '17-1' => '《成一長老法語集》', '18-1' => '《成一法語集》', '19-1' => '《成一文集》', '21-1' => '〈為什麼要念佛〉', '22-1' => '〈介紹兜率淨土法門〉', '23-1' => '〈娑婆弟子應修的淨土法門〉', '24-1' => '〈華嚴佛七開示〉', '25-1' => '〈華嚴經品會大意淺釋〉', '26-1' => '〈華嚴發願文講記〉', '27-1' => '〈桃園僑愛佛教講堂秋季華嚴法會開示錄〉', '28-1' => '〈華嚴綸貫略釋〉', '29-1' => '〈普賢十大願(第一集)〉', '30-1' => '〈普賢十大願(第二集)〉', '31-1' => '〈藥師佛七開示錄〉', '32-1' => '〈華嚴蓮社佛門名聯錄〉', '33-1' => '〈參加做佛事須知〉', '34-1' => '〈佛說盂蘭盆經〉附:農曆七月為教孝月而非鬼月', '35-1' => '《宣傳預約大藏經環島訪問團日記》', '36-1' => '《地藏菩薩聖德大觀》(弘一律師)', '38-1' => '《成一法師傳》(范觀瀾)', 'a1-1' => '《智光大師法彙》(智光法師)', 'a1-2' => '《智光老和尚紀念集》(智光法師)', 'a1-3' => '《智光老和尚遺著》(智光法師)', 'a2-1' => '《栖雲文集》(靄亭法師)', 'a2-2' => '《靄亭和尚紀念特刊》(靄亭法師)', 'a3-1' => '《華嚴一乘教義章集解》(靄亭法師)',
異體字作業規範
- 1.「異體字正規化之作業規範」
(1)書中使用之「罕用字」,根據教育部異體字字典判定為異體字者,為方便讀者查閱,則正規化為常用之正字: 例如:「够」為「罕用字」,並且為異體字,正規化為「夠」。 「冲」為「罕用字」,並且為異體字,正規化為「沖」。 (2)若有另兼正字之異體字,並為教育部判斷之常用字,則沿用原字不予改動。
例如:招徠的「徠」,教育部判為「次常用字」。雖然「徠」、「來」為異體字,「徠」也為正字, 沿用原字「徠」不予改動 。
(3)排版字型有異之問題: 例如: 與「溢」為同一字,因排版字型而略有差異,則統一字為細明體之字型。 建議正規為:溢 (4)人名、地名、專有名詞不作正規化。 (5)凡正規化字體,可以點選該字,即可看到原書之字體。
- 2.「通用字以通俗正體字為主」
(1)單詞意義相同,以通俗字替換艱難或罕見字詞 例如:「祇」有=「只」有、「那」裡?=「哪」裡?、「纔」=才 (2)複詞意義相同,以通俗詞替代罕用詞 例如:可窺一斑之「全豹」=可窺一斑之「全貌」、「和穆」=「和睦」、「義意=「意義」 以上,以通俗字詞替代艱難或罕見字詞,如欲見原書用字,可點選該字,即可看到原書之字體。
ABBY前製作業
以ABBYY處理,一面一頁。
- 1.PDF 辨識
- 2.轉成 TXT Document
- 3.visual studio code,UTF-8 BOM 取消 BOM
=>save with Encoding=>UTF-8
- 4.由於《智光大師法彙》較多手寫字,在ABBYY辨認率相當低,故改在google docs 重新辨識(分成20個檔案)。
標記作業
書籍標題
<div rend="pagebreak"><head rend="large">《華嚴文選》</head>
篇名
字體放大,例:5-1.xml,p.1
XML:
<div><head rend="large">〈彌勒淨土法門續篇〉 彌勒行者</head>
OCR前置作業
- 由於書籍需先歸還,故請影印店掃描黑白PDF、影印2份正本,以供校對。
- 彩色封面、表格、照片由助理掃描存檔。
OCR
- P:\2020成一老和尚著作\05Work\03OCR
- P:\2020成一老和尚著作\05Work\05專案助理處理
OCR後置作業
- 用程式自動處理
- 以下符號刪除:
- 日文、半行英數字
- 〖〗;,'ヾー+ゝ>>乂广] «丄=〜()££丨¢!}♦ @§€© % $¥“® _ -——o〇◎》.••^ i{!*°< m±# <»&„~"■▲▼§/ |lIi #〇—:/〆卜?口
- 半行空白,轉為換行。
- 以下符號刪除:
OCR校對規範
- 1.以Visual Studio Code校對。字數參考:「非空白字符數」。
- 2.頁碼:請打在每一頁文字的開頭,自己獨立的一行。
例如:p1。序格式:a1 例如:遇空白頁直接寫頁碼,如頁六無內容,頁七開始有內容,則第一行:p6,第二行:p7。
- 3.內縮空兩格請輸入:tab鍵
- 4.需要如書一樣換行。
- 5.雙行夾註,請加入〔〕符號:
例如:《智光大師法彙》p3,〔國民大會代表〕〔滿分優婆塞〕 蔡運辰法名寬運拜撰......
- 6.「圖片檔案」的文字請刪除。(專案助理之後將以掃描檔方式呈現。)
- 7.「隔頁書名」請刪除。(專案助理會處理。)
- 8.「頁眉」請刪除。(專案助理會處理。)
- 9.「目錄」請刪除。(專案助理會處理。)
- 10.出版資訊請刪除。(專案助理會處理。)
- 11.標題、粗體、科判、結尾語不須處理。(專案助理後續標記。)
- 12.異體字,請參考異體字表格:保留原書字體。(遇到異體字先保留原書異體字體,留待二校同時保留原書字體及正體字(正規化)。)
例如:四「衆」弟子
- 13.如果打不出該文字,或者無法判斷該文字是否有誤。
例如:異體字,請先打上●
- 14.經文之前,請標示英文字母J(不用內縮空兩格)。
例如:《華嚴一乘教義章集解》p10: 建立一乘第一, 教義攝益第二, 古今立教第三, 分教開宗第四, 乘教開合第五, 教起前後第六, 決擇其義第七, 施設異相第八, 所詮差別第九, 義理分齊第十。
- 15.破折號輸入:——(請複製該格式)
- 16.音界號 . / 書名號 《 》 〈 〉 ,請按原書處理。
- 17.針對有疑問的字詞,請「列表清單」。
例如:第四冊,p91,絕對沒有那「們」(疑為「麼」)
- 18.針對內容有疑慮部分,請「列表」參照。
- 19.針對在宗教、政治、強勢文化之立場上,持對立或過於否定的說法,請列表註明「疑不利流通」。
圖案
例如:栖雲文集03xml XML:
<figure><graphic url="03-1.047.png"/></figure>
跑html
bin
- 產生目錄ruby catalog.rb
- 產生內文 HTML:ruby x2h.rb
- 產生純文字 for 全文檢索ruby x2t.rb
初步標記
成一和尚著作 純文字 轉 XML
頁碼
初標:序:p.a1。 初標:序:文本:p1。
XML:
<pb n="a1"/>, <pb n="1"/>
段落
初標:tab
XML:
<p>
行號
初標:換行。
XML:
<lb n=".."/>
雙行夾註
初標:〔〕〔〕 慧日集九,p441
〔華嚴蓮社董事長成一〕〔住持賢度〕 曁兩序大眾
XML:
<note place="inline2">華嚴蓮社董事長成一<lb/>住持賢度</note>
經文
初標:J
例:02-華嚴一乘教義章集解 p10
J初明建立一乘者,
XML:
<p rend="jing">初明建立一乘者,</p>
連結cbetaonline
例:6-1.xml,p.31
XML:
<p rend="jing" source="T10n0279_p0256a026">「著五欲樂,障諸善根。諸天子!譬如劫火燒須彌山,悉令除盡,<lb
n="31.03"/>無餘可得。貪欲纏心,亦復如是,終不能生念佛之意!諸天子!汝等<lb
n="31.04"/>應當知恩報恩!」</p>
標題
H 原書就有的標題
粗標:層次H1H2H3...
例:02-華嚴一乘教義章集解,p7
H1華嚴一乘教義分齊章集解卷一
XML:
<div>
<head>華嚴一乘教義分齊章集解卷一</head>
</div>
h 新增的標題
粗標:層次h1h2h3...
例:02-華嚴一乘教義章集解,p7
h2甲初
XML:
<div>
<head>甲初</head>
</div>
雙行標題
此功能停用
初標:行首h2
例如:
h2十二月二十日
h2購地
XML:
<head>十二月二十日</lb>購地</head>
粗體
初標:行首
例:06-慧日集(三)p.62
<b>第一、道安法師為人很隨和</b>
XML:
<seg rend='bold'>道安法師為人很隨和</seg>
偈頌、詩詞、對聯(line group)
初標:行首 n
例:24-成一法師傳p.234
n諸佛菩薩放毫光 天龍八部降吉祥
n國運昌隆佛法興 江山一統樂太平
XML:
<lg>
<l>諸佛菩薩放毫光 天龍八部降吉祥</l>
<l>國運昌隆佛法興 江山一統樂太平</l>
</lg>
網站介面呈現時,偈頌前面空三格。
進階標記
頂置
沒有空兩格,例如:
11-1.xm.
<lb
n="250.02"/><p style="text-indent:0"><seg rend='bold'>開!</seg></p></div>
經文換行
a3-1.xml
《華嚴一乘教義章集解》
<lb
n="10.06"/><lg rend="jing" source="T45n1866_p0477a08"><l>建立一乘第一, 教義攝益第二,</l><lb
n="10.07"/><l>古今立教第三, 分教開宗第四,</l><lb
n="10.08"/><l>乘教開合第五, 教起前後第六,</l><lb
n="10.09"/><l>決擇其義第七, 施設異相第八,</l><lb
n="10.10"/><l>所詮差別第九, 義理分齊第十。</l></lg>
靠右
38-1.xml
<lb
n="262.15"/><p rend="text-right">成一敬識</p>