範圍

《南亭和尚全集》共 13 冊。

轉檔程式

ruby

1.Commander =>P:\2017南亭和尚全集\02Master data\bin
2.=>工具=>Dos 視窗
3.跑本文ruby x2h.rb
4.跑樹狀ruby toc.rb

檔案架構

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="../schema/nanting.rnc" type="application/relax-ng-compact-syntax"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:h="http://www.w3.org/1999/xhtml">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>《佛說孛經鈔講話》</title>
        <author>南亭和尚</author>
      </titleStmt>
      <publicationStmt>
        <p>本電子檔智慧財產權屬於台北市華嚴蓮社，不得散佈發行。</p>
      </publicationStmt>
      <sourceDesc>
        <bibl>
          <title level="s">南亭和尚全集</title><biblScope>二</biblScope>
          <title level="m">佛說孛經鈔講話（第一冊）</title>
          <publisher>財團法人台北市華嚴蓮社董事會</publisher>
          <pubPlace>台北市，台灣</pubPlace>
          <date when="1985-09-03">中華民國七四年九月三日</date><edition n="8">初版</edition>
        </bibl>
      </sourceDesc>
    </fileDesc>
    <revisionDesc>
      <change when="2018-02"><name>周邦信</name> MS Word 轉為 TEI P5 標記</change>
    </revisionDesc>
  </teiHeader>
  <text>
    <body>

txt轉XML

txt檔案內，初步分出架構：

p1  => 頁數
tab =><p>
J   =><div rend="jing"><p>
〔〕〔〕 =>雙行夾註
H1...H2 =>顯示在科判，也顯示在內文。
h1...h2 =>轉成科判目錄，已重新編排順序，不顯示在內文。

XML分檔案

由於一冊有分不同篇章，故分成：

1-1.xml
1-2.xml
1-3.xml

XML Elements

雙行夾註

place：標明來源文件中註釋出現的位置

例如：第二冊，p38（2-2.xml）

孔夫子釣而不綱，弋<note place="inline2">音<lb/>意</note>

div

div(文本區段)文件的正文前資訊、正文及正文後資訊的分支區段。章節皆以 div 元素標示。例如第一冊a1,（1-3xml）

<div><head>引言</head>

例如第一冊,p5（1-3xml）

<div><p>這是講翻譯這部經的人。「吳」是東漢以後，魏、蜀、吳三國中的吳。「支謙」是翻譯這部

head

TEI 定義：（標題）包含任何種類的標題，如章節、列表、詞彙表、寫本描述等的標題。

<div><head>…</head></div>

章節調整

<div><head type="add">第三節  說經的時候和說經的處所</head><p rend="head">第二講</p>
<p>各位聽眾！佛說孛經鈔，今天講第一章中的</p>
<p rend="h2">第三節  說經的時候和說經的處所</p>

jing

<jing>經文

<div rend="jing"><p>聞如是：一時，佛在舍衛國。</p></div>

orig

保留原書文字，並顯示正規化文字

<div><head>南亭和<choice><orig>尙</orig><reg>尚</reg></choice>全集序</head>

p

標記散文的段落。

例如：冊一,p2（1-3.xml）

<p>——供中國佛敎會廣播組佛敎之聲佛學廣播用</p>

pb

頁碼記錄於 pb 元素的 n 屬性，例如：冊一,p1（1-3.xml）

<pb n="1"/><lb 
n="1.01"/>

OCR

Google Docs

1.有檔案大小限制，一本書需切檔，一次約切30頁。
2.半形符號取代為全形，書眉拿掉。

ABBY前製作業（兩面掃成一頁）例如第三冊：

1.Adobe =>把第三冊，另存為180個jpg
2.Scan Tailor =>裁切，轉出檔案 001_1L,001_2R,002_1L,002_2R
3.FreeCommander(2 mins) =>批次重新命名=>編排順序lL改為3L
4.ABBY

校對規範

1.以word檔案，比對ABBYY與Google Docs產生的文字。
2.頁碼：請打在每一頁文字的開頭，自己獨立的一行。格式例如：p1 p2
3.內縮空兩格請輸入：tab鍵
4.需要如書一樣換行。
5.雙行夾註，加入〔〕符號：

例如：第三冊第一頁。 ...無漏法〔既能自利，又能利他〕〔如大車乘能運重致遠〕...智慧

6.「圖片檔案」的文字請刪除，將以掃描檔方式呈現。
7.「隔頁書名」請刪除。
8.「頁眉」請刪除。
9.「目錄」請刪除。
10.異體字，請參考異體字表格：保留原書字體。
11.如果打不出該文字，或者無法判斷該文字是否有誤，例如：異體字，請先打上●
12.經文前標示英文字母J（不用內縮空兩格）。
13.破折號輸入：——（請複製該格式）
14.針對有疑問的字詞，可列一個表格清單：例如第四冊，p91，絕對沒有那「們」（疑為「麼」）

科判

表示科判層次，在txt文件檔案：

一、(一)1.(1)➀➊A(A)a(a)，分別以h1,h2,h3,h4,h5,h6,h7,h8 表示。：

h1
...內文...
h2

異體字

「異體字正規化之作業規範」

1.書中使用之「罕用字」，根據教育部異體字字典判定為異體字者，為方便讀者查閱，則正規化為常用之正字：例如：「够」為「罕用字」，並且為異體字，正規化為「夠」。「冲」為「罕用字」，並且為異體字，正規化為「沖」。
2.若有另兼正字之異體字，並為教育部判斷之常用字，則沿用原字不予改動。例如：招徠的「徠」，教育部判為「次常用字」。雖然「徠」、「來」為異體字，「徠」也為正字，沿用原字「徠」不予改動　。
3.人名、地名、專有名詞不作正規化。
4.凡正規化字體，可以點選該字，即可看到原書之字體。

匿名

搜尋

《南亭和尚全集》專案工作手冊

命名空間

更多

頁面操作

目次

範圍

轉檔程式

檔案架構

txt轉XML

XML分檔案

XML Elements

雙行夾註

div

head

章節調整

jing

orig

p

pb

OCR

校對規範

科判

異體字

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

《南亭和尚全集》專案工作手冊

範圍

轉檔程式

檔案架構

txt轉XML

XML分檔案

XML Elements

雙行夾註

div

head

章節調整

jing

orig

p

pb

OCR

校對規範

科判

異體字

導覽

wiki工具

頁面工具