檢視《南亭和尚全集》專案工作手冊的原始碼

=範圍=
《南亭和尚全集》共 13 冊。





=轉檔程式=
*ruby 

Commander =>P:\2017南亭和尚全集\02Master data\bin
=>工具=>Dos 視窗
<syntaxhighlight lang="XML">
1.文件檔轉xml=>ruby t2x.rb
 從P:\2017南亭和尚全集\02Master data\out\xml複製到外面的xml
2.跑本文ruby x2h.rb
3.跑全文檢索ruby x2t.rb
4.跑樹狀ruby toc.rb
</syntaxhighlight>

=檔案架構=
<syntaxhighlight lang="XML">

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="../schema/nanting.rnc" type="application/relax-ng-compact-syntax"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:h="http://www.w3.org/1999/xhtml">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title>《佛說孛經鈔講話》</title>
        <author>南亭和尚</author>
      </titleStmt>
      <publicationStmt>
        <p>本電子檔智慧財產權屬於台北市華嚴蓮社，不得散佈發行。</p>
      </publicationStmt>
      <sourceDesc>
        <bibl>
          <title level="s">南亭和尚全集</title><biblScope>二</biblScope>
          <title level="m">佛說孛經鈔講話（第一冊）</title>
          <publisher>財團法人台北市華嚴蓮社董事會</publisher>
          <pubPlace>台北市，台灣</pubPlace>
          <date when="1985-09-03">中華民國七四年九月三日</date><edition n="8">初版</edition>
        </bibl>
      </sourceDesc>
    </fileDesc>
    <revisionDesc>
      <change when="2018-02"><name>周邦信</name> MS Word 轉為 TEI P5 標記</change>
    </revisionDesc>
  </teiHeader>
  <text>
    <body>
</syntaxhighlight>

=txt轉XML=
*txt轉檔前，人力標示：

<syntaxhighlight lang="XML">
p1  => 頁數
tab =><p>
J   =><div rend="jing"><p>
〔〕〔〕 =>雙行夾註
H1...H2 (大寫)轉<div><head>=>顯示在科判，也顯示在內文。
h1...h2 (小寫)=>轉成科判目錄，已重新編排順序，不顯示在內文。
自序、引言，標示H
</syntaxhighlight>

注意：
以上的雙行夾註不是這個：［...］［...］<br>
括號不要選錯了。

*txt轉檔前，另存新檔：

<syntaxhighlight lang="XML">
存檔類型：(*.txt)=>其他編碼方式=>Unicode(UTF 8)
</syntaxhighlight>

注意：<br>
編輯器請勿使用 windows 內建的筆記本，它會偷偷加 [https://zh.wikipedia.org/wiki/%E4%BD%8D%E5%85%83%E7%B5%84%E9%A0%86%E5%BA%8F%E8%A8%98%E8%99%9F BOM]。  <br>
Windows 下純文字編輯器建議'''使用 notepad++''' , 它會顯示檔案的編碼, 也會顯示有沒有 BOM, 也不會偷偷的加 BOM.

=XML分檔案=
*一冊分成不同篇章：
<syntaxhighlight lang="XML">1-1.xml
1-2.xml
1-3.xml</syntaxhighlight>

=XML轉介面科判=
*編輯：<br/>
<syntaxhighlight lang="XML">toc.txt
toc-vols.txt</syntaxhighlight>

=XML Elements=

==byline==
*顯示楷體

例如第十冊：p203（10-1xml）
<syntaxhighlight lang="XML"><p rend="kaiti">——摘錄自　國父遺敎教選集第五卷、心理建設甲部、第一章</p></syntaxhighlight>

==choice==
*新增「註解」
【原書用字】：深密經；【數位版】：解深密經

例如第二冊：2-1.xml
<syntaxhighlight lang="XML"><lbn="5.06"/>夫子之文章，可得而聞也；夫子之言性與天道，不可得而聞也。』」此與<choice><sic>深密經</sic><corr>解深密經</corr></choice>上，佛說：「阿<lbn="5.07"/>陀那識甚深細，</syntaxhighlight>





==div 1==

章節調整

<syntaxhighlight lang="XML">
<div><head type="add">第三節  說經的時候和說經的處所</head><p rend="head">第二講</p>
<p>各位聽眾！佛說孛經鈔，今天講第一章中的</p>
<p rend="h2">第三節  說經的時候和說經的處所</p>
</syntaxhighlight>

==div 2==
*div(文本區段)文件的正文前資訊、正文及正文後資訊的分支區段。章節皆以 div 元素標示。例如第一冊a1,（1-3xml）
<syntaxhighlight lang="XML"><div><head>引言</head></syntaxhighlight>

例如第一冊,p5（1-3xml）
<syntaxhighlight lang="XML"><div><p>這是講翻譯這部經的人。「吳」是東漢以後，魏、蜀、吳三國中的吳。「支謙」是翻譯這部</syntaxhighlight>


==head==
*TEI 定義：（標題）包含任何種類的標題，如章節、列表、詞彙表、寫本描述等的標題。
<syntaxhighlight lang="XML">
<div><head>…</head></div>
</syntaxhighlight>

==jing==
*<jing>經文
<syntaxhighlight lang="XML">
<div rend="jing"><p>聞如是：一時，佛在舍衛國。</p></div>
</syntaxhighlight>

== note ==

*place：標明來源文件中註釋出現的位置<br/>

雙行夾註

例如：第二冊，p38（2-2.xml）
<syntaxhighlight lang="XML">
孔夫子釣而不綱，弋<note place="inline2">音<lb/>意</note>
</syntaxhighlight>

==orig==
*保留原書文字，並顯示正規化文字
<syntaxhighlight lang="XML"><div><head>南亭和<choice><orig>尙</orig><reg>尚</reg></choice>全集序</head></syntaxhighlight>

==p==
*標記散文的段落。
例如：冊一,p2（1-3.xml）
<syntaxhighlight lang="XML"><p>——供中國佛敎會廣播組佛敎之聲佛學廣播用</p></syntaxhighlight>

==pb==
*頁碼記錄於 pb 元素的 n 屬性，例如：冊一,p1（1-3.xml）
<syntaxhighlight lang="XML">
<pb n="1"/><lb 
n="1.01"/>
</syntaxhighlight>

==search==
以xml分冊、章、篇，P:\2017南亭和尚全集\02Master data\out\search-vol-json
*$vols = array(
*'1-1' => '第一冊 南亭和尚全集序（汪慧枝）',
*'1-2' => '第一冊 南亭和尚全集序（李志夫）',
*'1-3' => '第一冊《佛說孛經鈔講話》',
*'2-1' => '第二冊《八大人覺經講義》',

==seg==
在 TEI 的中英文解釋：<br>
<seg> (arbitrary segment) represents any segmentation of text below the ‘chunk’ level.<br>
<seg> （隨機分割）包含文件中任何隨機字詞層次的單元 （包括其他分割元素）。<br>

*<seg style="font-weight:bold"> 粗體
*<seg style="font-weight:normal"> 不要粗體
<syntaxhighlight lang="XML"><p><lb 
n="181.03"/><p rend="h2">2 釋經文，<seg style="font-weight:normal">分六</seg>：(1) 示行果。</p></p></syntaxhighlight>

=OCR=
Google Docs

*1.有檔案大小限制，一本書需切檔，一次約切30頁。
*2.半形符號取代為全形，書眉拿掉。

ABBY前製作業（兩面掃成一頁）
例如第三冊：
*1.Adobe =>把第三冊，另存為180個jpg
*2.Scan Tailor =>裁切，轉出檔案 001_1L,001_2R,002_1L,002_2R
*3.FreeCommander(2 mins) =>批次重新命名=>編排順序lL改為3L
*4.ABBY

=OCR校對規範=
*1.以word檔案，比對ABBYY與Google Docs產生的文字。
*2.頁碼：請打在每一頁文字的開頭，自己獨立的一行。格式例如：p1  p2
*3.內縮空兩格請輸入：tab鍵
*4.需要如書一樣換行。
*5.雙行夾註，加入〔〕符號：
例如：第三冊第一頁。
...無漏法〔既能自利，又能利他〕〔如大車乘能運重致遠〕...智慧
*6.「圖片檔案」的文字請刪除，將以掃描檔方式呈現。
*7.「隔頁書名」請刪除。
*8.「頁眉」請刪除。
*9.「目錄」請刪除。
*10.異體字，請參考異體字表格：保留原書字體。例如四「衆」弟子
*11.如果打不出該文字，或者無法判斷該文字是否有誤，例如：異體字，請先打上●
*12.經文前標示英文字母J（不用內縮空兩格）。
*13.破折號輸入：——（請複製該格式）
*14.針對有疑問的字詞，可列一個表格清單：例如第四冊，p91，絕對沒有那「們」（疑為「麼」）
*15.針對內容有疑慮部分，可列表參照。

=標記校對規範=
*1.標記之前，確認標逗、內文與目錄不符、字詞疑慮、字詞統一、專有名詞、政治宗教上等對立議題，並列表請示作法。
*2.標記之前，確認打不出來的異體字●
*3.如遇異體字，請輸入異體字正規化_凡例2018_10_26.xlsx
   n1.1,原書：沾漑益廣；數位化：沾溉益廣
*4.如遇新的異體字，請輸入variant.txt 
   例如：尙,尚；衆,眾
*5.PNG需要改成png，勾選副檔名就可以改png
*6.加入科判層次
*7.雙層夾註檢查
*8.更改title
*9.檢查out裡面html的toc-vols,toc.txt
*10.check well-formed

=科判=
*表示科判層次，在txt文件檔案：
一、(一)1(1)➀➊A(A)a(a)Ⓐ，
分別以h1,h2,h3,h4,h5,h6,h7,h8,h9,h10,h11 表示：
<syntaxhighlight lang="XML">
h1
...內文...
h2
</syntaxhighlight>

=異體字=
「異體字正規化之作業規範」
<syntaxhighlight lang="XML">
1.書中使用之「罕用字」，根據教育部異體字字典判定為異體字者，為方便讀者查閱，則正規化為常用之正字：例如：「够」為「罕用字」，並且為異體字，正規化為「夠」。「冲」為「罕用字」，並且為異體字，正規化為「沖」。
2.若有另兼正字之異體字，並為教育部判斷之常用字，則沿用原字不予改動。例如：招徠的「徠」，教育部判為「次常用字」。雖然「徠」、「來」為異體字，「徠」也為正字，沿用原字「徠」不予改動　。
3.人名、地名、專有名詞不作正規化。
4.凡正規化字體，可以點選該字，即可看到原書之字體。
</syntaxhighlight>

=缺字處理=
介面的缺字圖片來源依據難檢字庫之ID

文內標記，例，冊4，p101.14：
<syntaxhighlight lang="XML">
<choice><orig><g ref="#Z0079"/></orig><reg>瞋</reg></choice>
</syntaxhighlight>
*ref 屬性是該缺字的編碼