範圍

《南亭和尚全集》共 13 冊。

轉檔程式

ruby

Commander =>P:\2017南亭和尚全集\02Master data\bin =>工具=>Dos 視窗

1.文件檔轉xml=>ruby t2x.rb
 從P:\2017南亭和尚全集\02Master data\out\xml複製到外面的xml
2.跑本文ruby x2h.rb
3.跑全文檢索ruby x2t.rb
4.跑樹狀ruby toc.rb

檔案架構

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="../schema/nanting.rnc" type="application/relax-ng-compact-syntax"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:h="http://www.w3.org/1999/xhtml">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>《佛說孛經鈔講話》</title>
        <author>南亭和尚</author>
      </titleStmt>
      <publicationStmt>
        <p>本電子檔智慧財產權屬於台北市華嚴蓮社，不得散佈發行。</p>
      </publicationStmt>
      <sourceDesc>
        <bibl>
          <title level="s">南亭和尚全集</title><biblScope>二</biblScope>
          <title level="m">佛說孛經鈔講話（第一冊）</title>
          <publisher>財團法人台北市華嚴蓮社董事會</publisher>
          <pubPlace>台北市，台灣</pubPlace>
          <date when="1985-09-03">中華民國七四年九月三日</date><edition n="8">初版</edition>
        </bibl>
      </sourceDesc>
    </fileDesc>
    <revisionDesc>
      <change when="2018-02"><name>周邦信</name> MS Word 轉為 TEI P5 標記</change>
    </revisionDesc>
  </teiHeader>
  <text>
    <body>

txt轉XML

txt轉檔前，人力標示：

p1  => 頁數
tab =><p>
J   =><div rend="jing"><p>
〔〕〔〕 =>雙行夾註
H1...H2 (大寫)轉<div><head>=>顯示在科判，也顯示在內文。
h1...h2 (小寫)=>轉成科判目錄，已重新編排順序，不顯示在內文。
自序、引言，標示H

注意：以上的雙行夾註不是這個：［...］［...］
括號不要選錯了。

txt轉檔前，另存新檔：

存檔類型：(*.txt)=>其他編碼方式=>Unicode(UTF 8)

注意：
編輯器請勿使用 windows 內建的筆記本，它會偷偷加 BOM。
Windows 下純文字編輯器建議使用 notepad++ , 它會顯示檔案的編碼, 也會顯示有沒有 BOM, 也不會偷偷的加 BOM.

XML分檔案

一冊分成不同篇章：

1-1.xml
1-2.xml
1-3.xml

XML轉介面科判

編輯：

toc.txt
toc-vols.txt

XML Elements

byline

顯示楷體

例如第十冊：p203（10-1xml）

<p rend="kaiti">——摘錄自　國父遺敎教選集第五卷、心理建設甲部、第一章</p>

choice

新增「註解」

【原書用字】：深密經；【數位版】：解深密經

例如第二冊：2-1.xml

<lbn="5.06"/>夫子之文章，可得而聞也；夫子之言性與天道，不可得而聞也。』」此與<choice><sic>深密經</sic><corr>解深密經</corr></choice>上，佛說：「阿<lbn="5.07"/>陀那識甚深細，

div 2

div(文本區段)文件的正文前資訊、正文及正文後資訊的分支區段。章節皆以 div 元素標示。例如第一冊a1,（1-3xml）

<div><head>引言</head>

例如第一冊,p5（1-3xml）

<div><p>這是講翻譯這部經的人。「吳」是東漢以後，魏、蜀、吳三國中的吳。「支謙」是翻譯這部

head

TEI 定義：（標題）包含任何種類的標題，如章節、列表、詞彙表、寫本描述等的標題。

<div><head>…</head></div>

div

章節調整

<div><head type="add">第三節  說經的時候和說經的處所</head><p rend="head">第二講</p>
<p>各位聽眾！佛說孛經鈔，今天講第一章中的</p>
<p rend="h2">第三節  說經的時候和說經的處所</p>

jing

<jing>經文

<div rend="jing"><p>聞如是：一時，佛在舍衛國。</p></div>

note

place：標明來源文件中註釋出現的位置

雙行夾註

例如：第二冊，p38（2-2.xml）

孔夫子釣而不綱，弋<note place="inline2">音<lb/>意</note>

orig

保留原書文字，並顯示正規化文字

<div><head>南亭和<choice><orig>尙</orig><reg>尚</reg></choice>全集序</head>

p

標記散文的段落。

例如：冊一,p2（1-3.xml）

<p>——供中國佛敎會廣播組佛敎之聲佛學廣播用</p>

pb

頁碼記錄於 pb 元素的 n 屬性，例如：冊一,p1（1-3.xml）

<pb n="1"/><lb 
n="1.01"/>

seg

在 TEI 的中英文解釋：
<seg> (arbitrary segment) represents any segmentation of text below the ‘chunk’ level.
<seg> （隨機分割）包含文件中任何隨機字詞層次的單元（包括其他分割元素）。

<seg style="font-weight:bold"> 粗體
<seg style="font-weight:normal"> 不要粗體

<p><lb 
n="181.03"/><p rend="h2">2 釋經文，<seg style="font-weight:normal">分六</seg>：(1) 示行果。</p></p>

OCR

Google Docs

1.有檔案大小限制，一本書需切檔，一次約切30頁。
2.半形符號取代為全形，書眉拿掉。

ABBY前製作業（兩面掃成一頁）例如第三冊：

1.Adobe =>把第三冊，另存為180個jpg
2.Scan Tailor =>裁切，轉出檔案 001_1L,001_2R,002_1L,002_2R
3.FreeCommander(2 mins) =>批次重新命名=>編排順序lL改為3L
4.ABBY

OCR校對規範

1.以word檔案，比對ABBYY與Google Docs產生的文字。
2.頁碼：請打在每一頁文字的開頭，自己獨立的一行。格式例如：p1 p2
3.內縮空兩格請輸入：tab鍵
4.需要如書一樣換行。
5.雙行夾註，加入〔〕符號：

例如：第三冊第一頁。 ...無漏法〔既能自利，又能利他〕〔如大車乘能運重致遠〕...智慧

6.「圖片檔案」的文字請刪除，將以掃描檔方式呈現。
7.「隔頁書名」請刪除。
8.「頁眉」請刪除。
9.「目錄」請刪除。
10.異體字，請參考異體字表格：保留原書字體。例如四「衆」弟子
11.如果打不出該文字，或者無法判斷該文字是否有誤，例如：異體字，請先打上●
12.經文前標示英文字母J（不用內縮空兩格）。
13.破折號輸入：——（請複製該格式）
14.針對有疑問的字詞，可列一個表格清單：例如第四冊，p91，絕對沒有那「們」（疑為「麼」）
15.針對內容有疑慮部分，可列表參照。

標記校對規範

1.標記之前，確認標逗、內文與目錄不符、字詞疑慮、字詞統一、專有名詞、政治宗教上等對立議題，並列表請示作法。
2.標記之前，確認打不出來的異體字●
3.如遇異體字，請輸入異體字正規化_凡例2018_10_26.xlsx

  n1.1,原書：沾漑益廣；數位化：沾溉益廣

4.如遇新的異體字，請輸入variant.txt

  例如：尙,尚；衆,眾

5.PNG需要改成png，勾選副檔名就可以改png
6.加入科判層次
7.雙層夾註檢查
8.更改title
9.檢查out裡面html的toc-vols,toc.txt
10.check well-formed

科判

表示科判層次，在txt文件檔案：

一、(一)1(1)➀➊A(A)a(a)Ⓐ，分別以h1,h2,h3,h4,h5,h6,h7,h8,h9,h10,h11 表示：

h1
...內文...
h2

異體字

「異體字正規化之作業規範」

1.書中使用之「罕用字」，根據教育部異體字字典判定為異體字者，為方便讀者查閱，則正規化為常用之正字：例如：「够」為「罕用字」，並且為異體字，正規化為「夠」。「冲」為「罕用字」，並且為異體字，正規化為「沖」。
2.若有另兼正字之異體字，並為教育部判斷之常用字，則沿用原字不予改動。例如：招徠的「徠」，教育部判為「次常用字」。雖然「徠」、「來」為異體字，「徠」也為正字，沿用原字「徠」不予改動　。
3.人名、地名、專有名詞不作正規化。
4.凡正規化字體，可以點選該字，即可看到原書之字體。

缺字處理

介面的缺字圖片來源依據難檢字庫之ID

文內標記，例，冊4，p101.14：

<choice><orig><g ref="#Z0079"/></orig><reg>瞋</reg></choice>

ref 屬性是該缺字的編碼

匿名

搜尋

《南亭和尚全集》專案工作手冊

命名空間

更多

頁面操作

目次

範圍

轉檔程式

檔案架構

txt轉XML

XML分檔案

XML轉介面科判

XML Elements

byline

choice

div 2

head

div

jing

note

orig

p

pb

seg

OCR

OCR校對規範

標記校對規範

科判

異體字

缺字處理

導覽

導覽

wiki工具

wiki工具

匿名

搜尋

《南亭和尚全集》專案工作手冊

範圍

轉檔程式

檔案架構

txt轉XML

XML分檔案

XML轉介面科判

XML Elements

byline

choice

div 2

head

div

jing

note

orig

p

pb

seg

OCR

OCR校對規範

標記校對規範

科判

異體字

缺字處理

導覽

wiki工具

頁面工具