文獻掃瞄作業要點

出自DILA Wiki

本文所謂「文獻」,是指以紙本為媒體的手寫、印刷、圖片、照片等平面文獻。

 由於文獻具有稀有性、易毀性,為了能讓大眾方便閱讀,以掃描的方式複製為「數位文獻」,是目前讓文獻流通的有效方法。
 但「數位文獻」尚未為所有學者承認為「文獻」,所以掃描時必須在metadata中說明是使用哪一個單本。
 (如《中國佛寺志》專案所掃描的為DDBC藏本)

文獻原件的分類

 這裡的分類是指依原稿的表現特性區分,作為掃描的設定參考。

線條稿(line)

 以文字、線條及色塊所組成的文獻,如寒溪村區監督李秀山等3名為該村舉行水路通水典禮函

灰階稿(gray)

 含黑白照片及單色印刷品皆是。印刷品掃描時會有錯網的現象,需另做處理。

彩色稿(color)

 雙色或三色以上之彩色文件,以照片、圖片為主。


顏色設定的選擇

 掃描顏色設定也分為線條、灰階及彩色三大類,工作前必須考慮未來可能的用途,然後決定以哪一類型掃描儲存。

線條稿(line)

 所儲存的每一個畫素(pixel)以 1 bit 表達,其內容僅 0 與 1。如「點陣字」的形式。存檔後無法再轉存為灰階或彩色。
這一類的掃描控制在於「臨界點」。

灰階稿(gray)

 所儲存的每一個畫素(pixel)以 8 bit 表達,其內容由 0 至 255。存檔後可轉存為線條稿,但無法再轉存為彩色。
這一類的掃描控制在於「灰階控制卡」。

彩色稿(color)

 所儲存的每一個畫素(pixel)以 Red、Green、Blue 各 8 bit 表達,其內容為 R G B三色,各由 0 至 255。存檔後可轉存為線條稿或灰階。
這一類的掃描控制在於「色彩控制卡


解析度設定的選擇

 解析度的單位為 ppi (Pixels per inch),一般使用於網頁需要 72~96 ppi,用於印刷底稿需要 300~400 ppi。(原寸)


檔案格式的選擇

 根據上述的設定,檔案大小會決定於原稿尺寸、色彩深度及解析度,但最後仍由所要儲存的檔案格式決定。以 A4,300 ppi 彩色檔案為例,
其檔案大小就有 8*300*12*300*3*8=207.36 MB。 但若儲存於不同格式的檔案,仍有可能以較小的檔案儲存。或是多頁的文獻,想要儲存於一個檔案,就需要採用 .pdf or .tiff這種檔案。
比較安全的做法是以深色高密度的設定掃描,應用時再降檔。


2012年新增的metadata標準

 Adobe Extensible Metadata Platform (XMP) 是一種以標準為依據的開放式技術, 可以擷取、保留和交換數位媒體與工作流程所用的metadate。Adobe XMP

MS Office2010 OCR安裝

 請參考:http://support.microsoft.com/kb/982760/zh-tw