文獻掃瞄作業要點
出自DILA Wiki
本文所謂「文獻」,是指以紙本為媒體的手寫、印刷、圖片、照片等平面文獻。
由於文獻具有稀有性、易毀性,為了能讓大眾方便閱讀,以掃描的方式複製為「數位文獻」,是目前讓文獻流通的有效方法。 但「數位文獻」尚未為所有學者承認為「文獻」,所以掃描時必須在metadata中說明是使用哪一個單本。 (如《中國佛寺志》專案所掃描的為DDBC藏本)
文獻原件的分類
這裡的分類是指依原稿的表現特性區分,作為掃描的設定參考。
線條稿(line)
以文字、線條及色塊所組成的文獻,如寒溪村區監督李秀山等3名為該村舉行水路通水典禮函
灰階稿(gray)
含黑白照片及單色印刷品皆是。印刷品掃描時會有錯網的現象,需另做處理。
彩色稿(color)
雙色或三色以上之彩色文件,以照片、圖片為主。
顏色設定的選擇
掃描顏色設定也分為線條、灰階及彩色三大類,工作前必須考慮未來可能的用途,然後決定以哪一類型掃描儲存。
線條稿(line)
所儲存的每一個畫素(pixel)以 1 bit 表達,其內容僅 0 與 1。如「點陣字」的形式。存檔後無法再轉存為灰階或彩色。
這一類的掃描控制在於「臨界點」。
灰階稿(gray)
所儲存的每一個畫素(pixel)以 8 bit 表達,其內容由 0 至 255。存檔後可轉存為線條稿,但無法再轉存為彩色。
這一類的掃描控制在於「灰階控制卡」。
彩色稿(color)
所儲存的每一個畫素(pixel)以 Red、Green、Blue 各 8 bit 表達,其內容為 R G B三色,各由 0 至 255。存檔後可轉存為線條稿或灰階。
這一類的掃描控制在於「色彩控制卡」
解析度設定的選擇
解析度的單位為 ppi (Pixels per inch),一般使用於網頁需要 72~96 ppi,用於印刷底稿需要 300~400 ppi。(原寸)
檔案格式的選擇
根據上述的設定,檔案大小會決定於原稿尺寸、色彩深度及解析度,但最後仍由所要儲存的檔案格式決定。以 A4,300 ppi 彩色檔案為例,
其檔案大小就有 8*300*12*300*3*8=207.36 MB。 但若儲存於不同格式的檔案,仍有可能以較小的檔案儲存。或是多頁的文獻,想要儲存於一個檔案,就需要採用 .pdf or .tiff這種檔案。
比較安全的做法是以深色高密度的設定掃描,應用時再降檔。
2012年新增的metadata標準
Adobe Extensible Metadata Platform (XMP) 是一種以標準為依據的開放式技術, 可以擷取、保留和交換數位媒體與工作流程所用的metadate。Adobe XMP
MS Office2010 OCR安裝
請參考:http://support.microsoft.com/kb/982760/zh-tw、