佛寺志 Metadata

出自DILA Wiki

佛寺志網站上公開下載的檔案中包含遵循 METS 標準 (http://www.loc.gov/standards/mets/) 的 metadata。

遵循該標準,佛寺志的metadata包含以下六大部分:

METS頭(METS Header)

METS 頭包含了描述METS文檔自身的元資料,包含創建者、檔案管理者的個人(專案主持人)及團體名稱(本校)。例如:

<mets:metsHdr CREATEDATE="2012-03-16T08:42:51">
  <mets:agent TYPE="INDIVIDUAL" ROLE="ARCHIVIST">
    <mets:name>Marcus Bingenheimer</mets:name>
  </mets:agent>
  <mets:agent TYPE="ORGANIZATION" ROLE="ARCHIVIST">
    <mets:name>Dharma Drum Buddhist College 法鼓佛教學院</mets:name>
  </mets:agent>
  <mets:agent TYPE="ORGANIZATION" ROLE="CREATOR">
    <mets:name>Dharma Drum Buddhist College 法鼓佛教學院</mets:name>
  </mets:agent>
</mets:metsHdr>

描述型元資料(Descriptive Metadata)-- TEI Header

如果該寺志已製作全文TEI XML檔,那麼在這裡會包含TEI Header。 結構如下:

<mets:dmdSec ID="TEIHDR">
  <mets:mdWrap MIMETYPE="text/xml" MDTYPE="TEIHDR">
    <mets:xmlData>
      <tei:teiHeader xmlns:xi="http://www.w3.org/2001/XInclude">
      ....
      </tei:teiHeader>
    </mets:xmlData>
  </mets:mdWrap>
</mets:dmdSec>

遵循TEI標準在TEI Header裡面的資料如下:

檔案描述(file description)

標題陳述(title statement)

該寺志中英文標題、作者、贊助者、主持人、製作團隊等資料。 例如:

<tei:titleStmt>
  <tei:title type="main" xml:lang="zh">名山古剎-《中國佛寺史志》數位典藏</tei:title>
  <tei:title type="main" xml:lang="en">Digital Archive of Chinese Buddhist Temple Gazetteers</tei:title>
  <tei:title type="subordinate" xml:lang="zh">重修普陀山志</tei:title>
  <tei:title type="subordinate" xml:lang="en">Chong xiu pu tuo shan zhi</tei:title>
  <tei:author>Dharma Drum Buddhist College, Library and Information Center, Digital Archives Section 法鼓佛教學院 圖書資訊館 數位典藏組</tei:author>
  <tei:sponsor>Chung-hwa Institute of Buddhist Studies 中華佛學研究所</tei:sponsor>
  <tei:principal>Marcus Bingenheimer 馬徳偉</tei:principal>
  <tei:respStmt>
    <tei:resp>Programming and Interface 程式及介面撰寫</tei:resp>
    <tei:name>花金地</tei:name>
    <tei:name>李志賢</tei:name>
  </tei:respStmt>
  <tei:respStmt>
    <tei:resp>Authority Files 規範資料庫架設、維護</tei:resp>
    <tei:name>洪振洲</tei:name>
    <tei:name>闕慧貞</tei:name>
    <tei:name>葛賢敏</tei:name>
  </tei:respStmt>
  <tei:respStmt>
    <tei:resp>Encoding 標記</tei:resp>
    <tei:name>王秀雯</tei:name>
    <tei:name>林智妙</tei:name>
    <tei:name>何易儒</tei:name>
  </tei:respStmt>
  <tei:respStmt>
    <tei:resp>Archive creation 檔案庫製作</tei:resp>
    <tei:name>周邦信</tei:name>
    <tei:name>Simon Wiles</tei:name>
  </tei:respStmt>
  <tei:respStmt>
    <tei:resp>Proofreading 校閱</tei:resp>
    <tei:name>林智妙</tei:name>
    <tei:name>蔡謀芳</tei:name>
  </tei:respStmt>
  <tei:respStmt>
    <tei:resp>XML to PDF transformation</tei:resp>
    <tei:name>周邦信</tei:name>
    <tei:name>Simon Wiles</tei:name>
  </tei:respStmt>
</tei:titleStmt>

發行陳述(publication statement)

發行者(本校)名稱、郵寄地址、電子郵件地址、發行日期、發行授權方式等資料。 例如:

<tei:publicationStmt>
  <tei:publisher>法鼓佛教學院</tei:publisher>
  <tei:address>
    <tei:addrLine>20842台北縣金山鄉西勢湖2-6號</tei:addrLine>
    <tei:addrLine>da@ddbc.edu.tw</tei:addrLine>
  </tei:address>
  <tei:date>2009-2011</tei:date>
  <tei:availability>
    <tei:p>This document is published under a CC Attribution-Share Alike License</tei:p>
  </tei:availability>
</tei:publicationStmt>

來源描述(source description)

本數位版本所依據的來源紙本書目資料,包括叢刊名、書名、作者、發行地、發行者、日期,以及該寺志的範圍冊數、頁數,該書在本校圖書館館藏中的索書號。 例如:

<tei:sourceDesc>
  <tei:bibl>
    <tei:title type="main">中國佛寺史志彙刊</tei:title>
    <tei:title type="subordinate">重修普陀山志</tei:title>
    <tei:editor>杜潔祥</tei:editor>
    <tei:pubPlace>臺灣‧臺北</tei:pubPlace>
    <tei:publisher>宗青圖書出版公司</tei:publisher>
    <tei:date>1994</tei:date>
    <tei:biblScope type="vol">第一輯第九册</tei:biblScope>
    <tei:biblScope type="pp">1 - 578</tei:biblScope>
    <tei:idno type="CallNo">DDBC:017945</tei:idno>
  </tei:bibl>
</tei:sourceDesc>

編碼描述(encoding description)

該寺志所使用到的每個特殊字元的宣告,包括該字元的組字式、CBETA缺字編號、缺字圖檔等資料,例如:

<tei:encodingDesc>
  <tei:charDecl>
    <tei:glyph xml:id="btg008020701">
      <tei:glyphName>Non Unicode Character</tei:glyphName>
      <tei:mapping type="cbeta">[火*崩]</tei:mapping>
      <tei:mapping type="cbetaNo">CB30081</tei:mapping>
      <tei:graphic url="btg008020701.gif"/>
    </tei:glyph>
    ....
  </tei:charDecl>
</tei:encodingDesc>

描述型元資料(Descriptive Metadata)Image Metadata

不論該寺志是否已製作全文TEI XML,都會在這裡提供每一頁的metadata。 整個描述元資料結構如下:

<mets:dmdSec ID="ImageMetadata">
  <mets:mdWrap MIMETYPE="text/xml" MDTYPE="OTHER">
    <mets:xmlData>
      <page xml:id="g001f1">...</page>
      ...
      <page xml:id="g001p0222">...</page>
    </mets:xmlData>
  </mets:mdWrap>
</mets:dmdSec>

每一頁都會有一個page元素,每一個page元素都包含以下資料:

物理參照

包括該頁屬於哪一部叢刊、哪一冊、該冊中的第幾個寺志、紙本上的頁碼。

<reference type="physical">
  <unit type="collection">1</unit>
  <unit type="section">1</unit>
  <unit type="book">1</unit>
  <unit type="page">p0222</unit>
</reference>

邏輯參照

該頁所屬寺志的邏輯ID,例如:

<reference type="logical">
  <unit type="gazetteer">g001</unit>
</reference>

內容型態

該頁內容文字的型態,例如:

<contentType>內文</contentType>

目錄架構

該頁所屬目錄架構,例如:

<section title="洛陽伽藍記">
  <section title="洛陽伽藍記校勘記"/>
</section>

節錄該頁起始文字

節錄該頁文字的最前面三個字,例如:

<firstThreeChars>特後八</firstThreeChars>

管理型元資料(Administrative Metadata)

管理型元資料中包括頁碼編碼規則描述以及每一頁掃描圖檔的技術資訊。

頁碼編碼規則描述

本專案採取的頁碼編碼規則描述,例如:

<mets:techMD ID="page_number_description">
  <mets:mdWrap MDTYPE="OTHER">
    <mets:xmlData>
      <tei:p>Page numbers are prefixed with the following abbreviations 頁碼編碼規則如下:</tei:p>
      <tei:list>
        <tei:item>First pages of the physical book 內文前的版權頁、志名頁、題詞等頁面(f+1碼數字):g***f*</tei:item>
        <tei:item>Gazetteer text 內文頁碼(p+4碼數字):g***p****</tei:item>
        <tei:item>版本說明:g***p0000a, g***p0000b...</tei:item>
      </tei:list>
    </mets:xmlData>
  </mets:mdWrap>
</mets:techMD>

掃描圖檔技術資訊

遵循MIX標準(Metadata for Images in XML Schema, http://www.loc.gov/standards/mix/ )提供每一頁掃描圖檔的技術資訊,結構如下:

<mets:techMD ID="techMD.g001p0001">
  <mets:mdWrap OTHERMDTYPE="MIX" MDTYPE="OTHER">
    <mets:xmlData>
      <mix:BasicDigitalObjectInformation>....</mix:BasicDigitalObjectInformation>
      <mix:BasicImageInformation>....</mix:BasicImageInformation>
      <mix:ImageCaptureMetadata>....</mix:ImageCaptureMetadata>
      <mix:ChangeHistory>....</mix:ChangeHistory>
    </mets:xmlData>
  </mets:mdWrap>
<mets:techMD>

其中的資料分為以下幾部分:

基本數位元件資訊

包括圖檔檔名、圖檔所佔磁碟空間、圖檔格式、驗證圖檔完整性的MD5(RFC 1321,The MD5 Message-Digest Algorithm,http://tools.ietf.org/html/rfc1321 )訊息摘要等資料,例如:

<mix:BasicDigitalObjectInformation>
  <mix:ObjectIdentifier>
    <mix:objectIdentifierType>Filename</mix:objectIdentifierType>
    <mix:objectIdentifierValue>luoyangqielanji_p0001.jpg</mix:objectIdentifierValue>
  </mix:ObjectIdentifier>
  <mix:fileSize>32394</mix:fileSize>
  <mix:FormatDesignation>
    <mix:formatName>image/jpg</mix:formatName>
  </mix:FormatDesignation>
  <mix:byteOrder use="system">little endian</mix:byteOrder>
  <mix:Compression/>
  <mix:Fixity>
    <mix:messageDigestAlgorithm>MD5</mix:messageDigestAlgorithm>
      <mix:messageDigest>27ff02ea99a35a73d3173ef9380aabdf</mix:messageDigest>
      <mix:messageDigestOriginator>DDBC</mix:messageDigestOriginator>
  </mix:Fixity>
</mix:BasicDigitalObjectInformation>

基本圖檔資訊

圖片長寬尺寸、顏色數

<mix:BasicImageInformation>
  <mix:BasicImageCharacteristics>
    <mix:imageWidth>459</mix:imageWidth>
    <mix:imageHeight>646</mix:imageHeight>
    <mix:PhotometricInterpretation>
      <mix:colorSpace>Gray</mix:colorSpace>
    </mix:PhotometricInterpretation>
  </mix:BasicImageCharacteristics>
</mix:BasicImageInformation>

圖檔掃描數據

來源紙本長寬尺寸、掃描採用解析度,例如:

<mix:ImageCaptureMetadata>
  <mix:SourceInformation>
    <mix:sourceType>Xerox copy of a Woodblock Print</mix:sourceType>
    <mix:SourceID>
      <mix:sourceIDType>Gazetteer Title</mix:sourceIDType>
      <mix:sourceIDValue>洛陽伽藍記</mix:sourceIDValue>
    </mix:SourceID>
    <mix:SourceID>
      <mix:sourceIDType>Chapter Title</mix:sourceIDType>
      <mix:sourceIDValue>洛陽伽藍記-洛陽伽藍記</mix:sourceIDValue>
    </mix:SourceID>
    <mix:SourceID>
      <mix:sourceIDType>Book Number and Page Number</mix:sourceIDType>
      <mix:sourceIDValue>Collection 1, Section 1, Book 1, Page p0001</mix:sourceIDValue>
    </mix:SourceID>
    <mix:SourceSize>
      <mix:SourceXDimension>
        <mix:sourceXDimensionValue>125</mix:sourceXDimensionValue>
        <mix:sourceXDimensionUnit>mm</mix:sourceXDimensionUnit>
      </mix:SourceXDimension>
      <mix:SourceYDimension>
        <mix:sourceYDimensionValue>190</mix:sourceYDimensionValue>
        <mix:sourceYDimensionUnit>mm</mix:sourceYDimensionUnit>
      </mix:SourceYDimension>
    </mix:SourceSize>
  </mix:SourceInformation>
  <mix:GeneralCaptureInformation>
    <mix:dateTimeCreated>2008-12-22T12:48:45</mix:dateTimeCreated>
    <mix:imageProducer>Digital Archives Section 數位典藏, Library and Information Center 圖書資訊館,Dharma Drum Buddhist College 法鼓佛教學院, Taiwan</mix:imageProducer>
    <mix:captureDevice>reflection print scanner</mix:captureDevice>
  </mix:GeneralCaptureInformation>
  <mix:ScannerCapture>
    <mix:scannerManufacturer/>
    <mix:ScannerModel>
      <mix:scannerModelName/>
      <mix:scannerModelNumber/>
      <mix:scannerModelSerialNo/>
    </mix:ScannerModel>
    <mix:MaximumOpticalResolution>
      <mix:xOpticalResolution>400</mix:xOpticalResolution>
      <mix:yOpticalResolution>400</mix:yOpticalResolution>
    </mix:MaximumOpticalResolution>
    <mix:scannerSensor>ColorTriLinear</mix:scannerSensor>
    <mix:ScanningSystemSoftware>
      <mix:scanningSoftwareName/>
      <mix:scanningSoftwareVersionNo/>
    </mix:ScanningSystemSoftware>
  </mix:ScannerCapture>
  <mix:orientation>normal*</mix:orientation>
</mix:ImageCaptureMetadata>

變更紀錄

變更紀錄包含兩大部份:圖檔掃描後處理、處理前圖檔資訊,結構如下:

<mix:ChangeHistory>
  <mix:ImageProcessing>....</mix:ImageProcessing>
  <mix:PreviousImageMetadata>....</mix:PreviousImageMetadata>
</mix:ChangeHistory>

「圖檔掃描後處理」部份包括:時間、處理原因、採用的圖檔處理軟體、所進行的處理動作,例如:

<mix:ImageProcessing>
  <mix:dateTimeProcessed>2009-06-24T11:36:00</mix:dateTimeProcessed>
  <mix:sourceData>Initial Capture</mix:sourceData>
  <mix:processingAgency>Digital Archives Section 數位典藏, Library and Information Center 圖書資訊館,Dharma Drum Buddhist College 法鼓佛教學院, Taiwan</mix:processingAgency>
  <mix:processingRationale>Improve image clarity and readability, add DDBC watermark,and create file of suitable size/quality for distribution</mix:processingRationale>
  <mix:ProcessingSoftware>
    <mix:processingSoftwareName>ImageMagick</mix:processingSoftwareName>
    <mix:processingSoftwareVersion>6.4.5</mix:processingSoftwareVersion>
    <mix:processingOperatingSystemName>Ubuntu GNU/Linux</mix:processingOperatingSystemName>
    <mix:processingOperatingSystemVersion>9.04</mix:processingOperatingSystemVersion>
  </mix:ProcessingSoftware>
  <mix:processingActions>
    crop away the blank edges;
    convert tiff to jpg, convert quality to 72;
    resize to 25%;
    apply sigmoidal-contrast filter - 5x25%;
    apply sigmoidal-contrast filter - 6x100%;
    Add DDBC watermark
  </mix:processingActions>
</mix:ImageProcessing>

「處理前圖檔資訊」包括原檔名、檔案大小、MD5訊息摘要,例如:

<mix:PreviousImageMetadata>
  <mix:BasicDigitalObjectInformation>
    <mix:ObjectIdentifier>
      <mix:objectIdentifierType>Filename</mix:objectIdentifierType>
      <mix:objectIdentifierValue>1B001P010.tif</mix:objectIdentifierValue>
    </mix:ObjectIdentifier>
    <mix:fileSize>5891470</mix:fileSize>
    <mix:Fixity>
      <mix:messageDigestAlgorithm>MD5</mix:messageDigestAlgorithm>
      <mix:messageDigest>4e14ecfaef033aef98f2bc90acf68f1d</mix:messageDigest>
      <mix:messageDigestOriginator>DDBC</mix:messageDigestOriginator>
    </mix:Fixity>
  </mix:BasicDigitalObjectInformation>
</mix:PreviousImageMetadata>

智財權宣告(intellectual property rights metadata)

遵循TEI的發行陳述,包括發行者、日期、授權方式等資訊,例如:

<mets:rightsMD ID="Publication_Statement">
  <mets:mdWrap OTHERMDTYPE="tei:publicationStmt" MDTYPE="OTHER">
    <mets:xmlData>
      <tei:publicationStmt>
        <tei:publisher>法鼓佛教學院</tei:publisher>
        <tei:address>
          <tei:addrLine>台北縣金山鄉20842三界村西勢湖2-6號</tei:addrLine>
          <tei:addrLine>da@ddbc.edu.tw</tei:addrLine>
        </tei:address>
        <tei:date>2009</tei:date>
        <tei:availability>
          <tei:p>This document is published under the GNU Public License</tei:p>
        </tei:availability>
      </tei:publicationStmt>
    </mets:xmlData>
  </mets:mdWrap>
</mets:rightsMD>

來源描述

遵循TEI提供本數位版本所依據的來源紙本書目資料,包括叢刊名、書名、作者、發行地、發行者、日期,以及該寺志的範圍冊數、頁數,該書在本校圖書館館藏中的索書號。 例如:

<mets:sourceMD ID="Source_Description">
  <mets:mdWrap OTHERMDTYPE="tei:sourceDesc" MDTYPE="OTHER">
    <mets:xmlData>
      <tei:sourceDesc>
        <tei:bibl>
          <tei:title type="main">中國佛寺史志彙刊</tei:title>
          <tei:title type="subordinate">重修普陀山志</tei:title>
          <tei:editor>杜潔祥</tei:editor>
          <tei:pubPlace>臺灣‧臺北</tei:pubPlace>
          <tei:publisher>宗青圖書出版公司</tei:publisher>
          <tei:date>1994</tei:date>
          <tei:biblScope type="vol">第一輯第九册</tei:biblScope>
          <tei:biblScope type="pp">1 - 578</tei:biblScope>
          <tei:idno type="CallNo">DDBC:017945</tei:idno>
        </tei:bibl>
      </tei:sourceDesc>
    </mets:xmlData>
  </mets:mdWrap>
</mets:sourceMD>

文件節(File Section)

這裡是所有檔案的資訊。 在文件節元素 <mets:fileSec> 之下有一個或多個檔案群組元素 <mets:fileGrp>。相同類型的檔案放在同一個 <mets:fileGrp> 裡面。

如果該寺志已製作TEI全文,那麼就會有一個 <mets:fileGrp USE="TEI_full-text">,裡面說明該寺志的TEI XML檔資訊,包括檔案路徑、大小、MD5 checksum等資料,例如:

<mets:fileGrp USE="TEI_full-text">
  <mets:file MIMETYPE="text/xml" CHECKSUM="4a6f7f88d9293e4dbef0461a99a28b33" SIZE="495402" ID="TEI" CHECKSUMTYPE="MD5">
    <mets:FLocat LOCTYPE="URL" xlink:href="file:///g008.tei.xml"/>
  </mets:file>
</mets:fileGrp>

另外,不論該寺志是否已製作TEI全文,都會有一個檔案群組 <mets:fileGrp USE="Facsimilie Images"> 裡面有多個 <mets:file> 元素,每一頁掃描圖都對應一個 <mets:file> 元素,裡面有圖檔類型、路徑、檔名、序號等資訊,例如:

<mets:file MIMETYPE="image/jpeg" ADMID="techMD.g001f1" ID="file.g001f1" SEQ="2">
  <mets:FLocat LOCTYPE="URL" xlink:href="file:///images/luoyangqielanji_f1.jpg"/>
</mets:file>

結構圖

METS 文檔的結構圖(Structural Map)定義了一種把數位物件呈現給用戶的層次結構,讓使用者可以透過這個層次結構來瀏覽這個數位物件。

<structMap> 元素利用一系列嵌套的 <div> 元素體現了這種層次結構。並以 <mets:fptr> 指標元素指向對應的掃描圖檔ID,依據此ID可以在前述的 <mets:fileSec> 元素中找到關於該圖檔的相關資料。

每一個寺志都提供邏輯、物理兩種結構圖。邏輯結構圖是關於內容的結構,像一般書本的內容目錄;物理結構是冊、頁等物理結構。

邏輯結構圖

例如《重修普陀山志》第一層目錄結構如下:

<mets:structMap TYPE="logical">
  <mets:div ADMID="Publication_Statement Source_Description" TYPE="gazetteer" LABEL="重修普陀山志" DMDID="TEIHDR">
    <mets:div LABEL="普陀山志卷前"><mets:fptr FILEID="file.g008p0000a"/>....</mets:div>
    <mets:div LABEL="普陀山志卷一"><mets:fptr FILEID="file.g008p0025"/>....</mets:div>
    <mets:div LABEL="普陀山志卷二"><mets:fptr FILEID="file.g008p0071"/>....</mets:div>
    <mets:div LABEL="普陀山志卷三"><mets:fptr FILEID="file.g008p0191"/>....</mets:div>
    <mets:div LABEL="普陀山志卷四"><mets:fptr FILEID="file.g008p0271"/>....</mets:div>
    <mets:div LABEL="普陀山志卷五"><mets:fptr FILEID="file.g008p0389"/>....</mets:div>
  </mets:div>
</mets:structMap>

其中卷一的下層結構如下:

<mets:div LABEL="普陀山志卷一">
  <mets:fptr FILEID="file.g008p0025"/>
  <mets:div LABEL="宸翰"><mets:fptr FILEID="file.g008p0025"/>....</mets:div>
  <mets:div LABEL="普陀寺殿圖"><mets:fptr FILEID="file.g008p0067"/></mets:div>
</mest:div>

各層次依此類推,以 <mets:div> 元素套疊。

物理結構圖

例如《重修普陀山志》來自《中國佛寺史志彙刊》第一輯第九冊,物理結構圖如下:

<mets:structMap TYPE="physical">
  <mets:div TYPE="gazetteer" LABEL="重修普陀山志">
    <mets:div TYPE="collection" LABEL="Zhongguo Fosi Shizhi Huikan 中國佛寺史志彙刊">
      <mets:div TYPE="section" LABEL="第1輯">
        <mets:div TYPE="book" LABEL="第9冊">
          <mets:div ORDERLABEL="f1" TYPE="page" ORDER="1">
            <mets:fptr FILEID="file.g008f1"/>
          </mets:div>
          <!-- 以下類推,每一頁都有一個 div。 -->
        </mets:div>
      </mets:div>
    </mets:div>
  </mets:div>
</mtes:structMap>