「文獻掃瞄作業要點」:修訂間差異

出自DILA Wiki
imported>Putitz
imported>Putitz
 
(未顯示同一使用者於中間所作的 11 次修訂)
行 1: 行 1:
 本文所謂「文獻」,是指以紙本為媒體的手寫、印刷、圖片、照片等平面文獻。
 本文所謂「文獻」,是指以紙本為媒體的手寫、印刷、圖片、照片等平面文獻。
   由於文獻具有稀有性、易毀性,為了能讓大眾方便閱讀,以掃描的方式複製為「數位文獻」,是目前讓文獻流通的有效方法。
   由於文獻具有稀有性、易毀性,為了能讓大眾方便閱讀,以掃描的方式複製為「數位文獻」,是目前讓文獻流通的有效方法。
   但「數位文獻」尚未為所有學者承認為「文獻」 (如高明道老師) ,所以掃描時必須在metadata中說明是使用哪一個單本。
   但「數位文獻」尚未為所有學者承認為「文獻」,所以掃描時必須在metadata中說明是使用哪一個單本。
   (如《中國佛寺志》專案所掃描的為DDBC藏本)
   (如《中國佛寺志》專案所掃描的為DDBC藏本)
=文獻原件的分類=
=文獻原件的分類=
行 10: 行 10:


==灰階稿(gray)==
==灰階稿(gray)==
   含黑白照片及單色印刷品皆是。
   含黑白照片及單色印刷品皆是 。印刷品掃描時會有[http://en.wikipedia.org/wiki/Moire 錯網]的現象,需另做處理


==彩色稿(color)==
==彩色稿(color)==
行 20: 行 20:


==線條稿(line)==
==線條稿(line)==
   所儲存的每一個[http://zh.wikipedia.org/zh-tw/%E5%83%8F%E7%B4%A0 畫素](pixel)以 1 bit 表達,其內容僅 0 與 1。如「點陣字」的形式。存檔後無法再轉存為灰階或彩色。
   所儲存的每一個[http://zh.wikipedia.org/zh-tw/%E5%83%8F%E7%B4%A0 畫素](pixel)以 1 bit 表達,其內容僅 0 與 1。如「點陣字」的形式。存檔後無法再轉存為灰階或彩色 。<br />這一類的掃描控制在於「臨界點」


==灰階稿(gray)==
==灰階稿(gray)==
   所儲存的每一個畫素(pixel)以 8 bit 表達,其內容由 0 至 255。存檔後可轉存為線條稿,但無法再轉存為彩色。
   所儲存的每一個畫素(pixel)以 8 bit 表達,其內容由 0 至 255。存檔後可轉存為線條稿,但無法再轉存為彩色 。<br />這一類的掃描控制在於「[http://www.dreamstime.com/royalty-free-stock-photography-color-control-chart-image596057 灰階控制卡]」


==彩色稿(color)==
==彩色稿(color)==
   所儲存的每一個畫素(pixel)以 Red、Green、Blue 各 8 bit 表達,其內容為 R G B三色,各由 0 至 255。存檔後可轉存為線條稿或灰階。
   所儲存的每一個畫素(pixel)以 Red、Green、Blue 各 8 bit 表達,其內容為 R G B三色,各由 0 至 255。存檔後可轉存為線條稿或灰階。<br />這一類的掃描控制在於「[http://proj3.moeaidb.gov.tw/nmipo/upload2/content/35_1.pdf 色彩控制卡]」




行 35: 行 35:
=檔案格式的選擇=
=檔案格式的選擇=
   根據上述的設定,檔案大小會決定於原稿尺寸、[http://zh.wikipedia.org/zh-tw/%E8%89%B2%E5%BD%A9%E6%B7%B1%E5%BA%A6 色彩深度]及解析度,但最後仍由所要儲存的[http://zh.wikipedia.org/zh-tw/%E5%9B%BE%E5%BD%A2%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E6%AF%94%E8%BE%83 檔案格式]決定。以 A4,300 ppi 彩色檔案為例,<br />其檔案大小就有 8*300*12*300*3*8=207.36 MB。
   根據上述的設定,檔案大小會決定於原稿尺寸、[http://zh.wikipedia.org/zh-tw/%E8%89%B2%E5%BD%A9%E6%B7%B1%E5%BA%A6 色彩深度]及解析度,但最後仍由所要儲存的[http://zh.wikipedia.org/zh-tw/%E5%9B%BE%E5%BD%A2%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E6%AF%94%E8%BE%83 檔案格式]決定。以 A4,300 ppi 彩色檔案為例,<br />其檔案大小就有 8*300*12*300*3*8=207.36 MB。
   但若儲存於不同格式的檔案,仍有可能以較小的檔案儲存。或是多頁的文獻,想要儲存於一個檔案,就需要採用 .pdf or .tiff這種檔案。
   但若儲存於不同格式的檔案,仍有可能以較小的檔案儲存。或是多頁的文獻,想要儲存於一個檔案,就需要採用 .pdf or .tiff這種檔案。<br /> 比較安全的做法是以深色高密度的設定掃描,應用時再降檔。
  比較安全的做法是以深色高密度的設定掃描,應用時再降檔。
 
 
=2012年新增的metadata標準=
  Adobe Extensible Metadata Platform (XMP) 是一種以標準為依據的開放式技術, 可以擷取、保留和交換數位媒體與工作流程所用的metadate。[http://www.adobe.com/products/xmp/ Adobe XMP]
 
=MS Office2010 OCR安裝=
  請參考:[http://support.microsoft.com/kb/982760/zh-tw http://support.microsoft.com/kb/982760/zh-tw]、

於 2012年11月28日 (三) 10:53 的最新修訂

本文所謂「文獻」,是指以紙本為媒體的手寫、印刷、圖片、照片等平面文獻。

 由於文獻具有稀有性、易毀性,為了能讓大眾方便閱讀,以掃描的方式複製為「數位文獻」,是目前讓文獻流通的有效方法。
 但「數位文獻」尚未為所有學者承認為「文獻」,所以掃描時必須在metadata中說明是使用哪一個單本。
 (如《中國佛寺志》專案所掃描的為DDBC藏本)

文獻原件的分類

 這裡的分類是指依原稿的表現特性區分,作為掃描的設定參考。

線條稿(line)

 以文字、線條及色塊所組成的文獻,如寒溪村區監督李秀山等3名為該村舉行水路通水典禮函

灰階稿(gray)

 含黑白照片及單色印刷品皆是。印刷品掃描時會有錯網的現象,需另做處理。

彩色稿(color)

 雙色或三色以上之彩色文件,以照片、圖片為主。


顏色設定的選擇

 掃描顏色設定也分為線條、灰階及彩色三大類,工作前必須考慮未來可能的用途,然後決定以哪一類型掃描儲存。

線條稿(line)

 所儲存的每一個畫素(pixel)以 1 bit 表達,其內容僅 0 與 1。如「點陣字」的形式。存檔後無法再轉存為灰階或彩色。
這一類的掃描控制在於「臨界點」。

灰階稿(gray)

 所儲存的每一個畫素(pixel)以 8 bit 表達,其內容由 0 至 255。存檔後可轉存為線條稿,但無法再轉存為彩色。
這一類的掃描控制在於「灰階控制卡」。

彩色稿(color)

 所儲存的每一個畫素(pixel)以 Red、Green、Blue 各 8 bit 表達,其內容為 R G B三色,各由 0 至 255。存檔後可轉存為線條稿或灰階。
這一類的掃描控制在於「色彩控制卡


解析度設定的選擇

 解析度的單位為 ppi (Pixels per inch),一般使用於網頁需要 72~96 ppi,用於印刷底稿需要 300~400 ppi。(原寸)


檔案格式的選擇

 根據上述的設定,檔案大小會決定於原稿尺寸、色彩深度及解析度,但最後仍由所要儲存的檔案格式決定。以 A4,300 ppi 彩色檔案為例,
其檔案大小就有 8*300*12*300*3*8=207.36 MB。 但若儲存於不同格式的檔案,仍有可能以較小的檔案儲存。或是多頁的文獻,想要儲存於一個檔案,就需要採用 .pdf or .tiff這種檔案。
比較安全的做法是以深色高密度的設定掃描,應用時再降檔。


2012年新增的metadata標準

 Adobe Extensible Metadata Platform (XMP) 是一種以標準為依據的開放式技術, 可以擷取、保留和交換數位媒體與工作流程所用的metadate。Adobe XMP

MS Office2010 OCR安裝

 請參考:http://support.microsoft.com/kb/982760/zh-tw