2015年1月30日

圖片和PDF文件的文字辨識

2022/6/18 更新
我們透過 NVDA 協助得以瀏覽網頁、閱讀文件,但你是否遇到過一個難題,有些資料可能是以圖片方式呈現的,這樣一來 NBDA 就沒辦法讀取圖片內容了,或許你知道可以透過所謂的 OCR (光學文字辨識) 軟體便能將圖片上的文字轉換為可被編輯的文字,如此即可以 NVDA 閱讀內容。

不過這類軟體都為商業軟體,且視障者能否順利操作也是個問題,對於圖片資料的閱讀通常若不是找明眼人告知內容或是幫忙辨識轉換格式,大概只有放棄一途。
但事情好像也沒那麼糟,因為我想到了 Google 大神……

一提到 Google,你只想到搜尋引擎、Gmail 或 Youtube 嗎?Google 提供的服務可不是只有這樣而已,它的雲端硬碟服務也是很多人在用的喔!
很奇特的是這個雲端硬碟服務提供了將圖片或 PDF 檔案辨識轉換的功能,正好可滿足我們的需求,做法是將檔案上傳至雲端硬碟進行辨識。

  1. 打開瀏覽器到 Google 雲端硬碟首頁,按 K 到 [前往 Google 雲端硬碟] 連結 Enter 進入登入頁面進行登入。
  2. 進入雲端硬碟後 NVDA 會自動轉為焦點模式並且跳至檔案和資料夾檢視的表格位置,若無則請按 NVDA+空格鍵 切換為焦點模式,此為重要的一步,在雲端硬碟中須切換為焦點模式才能順利使用。

    附註:在 Google 雲端硬碟中檔案與資料夾的檢視方式分清單與格狀兩種,建議設為清單檢視以利後續操作,在瀏覽模式下按 B 找到 [清單檢視] 按鈕 Enter 切換,切換後會直接跳到檔案與資料夾檢視的表格位置且 NVDA 會轉為焦點模式,若切換檢視方式後沒有上述的情況,請按 NVDA+空格鍵 切換為焦點模式。

  3. 按 C 跳到 [新增] 功能表,往下到 [檔案上傳] 後 Enter。
  4. 出現 [上傳檔案] 對話方塊,請選取你要辨識的圖片或 PDF 檔案後 Enter 開始上傳。
  5. 上傳過程中有進度提示,完成後按 Tab 到 [關閉] 按鈕 Enter。
  6. 回到檔案和資料夾檢視的表格位置,若無則在焦點模式下按 G,L 跳到表格位置,按上下鍵找到剛上傳的圖片或 PDF 文件。

    附註:這裡的 G 和 l 並不是如同一般我們在按各種快速鍵的按法,而是依序按 G 後放開再按 L 放開。

  7. 按 快顯鍵 叫出快顯功能表,往下到 [選擇開啟工具] 再往右展開子功能表到 [Google 文件] Enter。
  8. 此時將會進行辨識並在新分頁中以 Google 文件格式呈現辨識後的結果。
  9. 按 Alt+Shift+F 跳到 [檔案] 功能表,往下到 [下載] 再往右展開子功能表,按上下鍵選擇想要存檔的格式後 Enter 將檔案儲存至你的電腦,如此便可以熟悉的方式閱讀辨識後的內容了,如果儲存的是 Word 等可包含圖文的檔案格式,則原本的圖片或 PDF 文件可能會在前面,後面才是辨識過的內容。
  10. 按 Ctrl+W 關閉 Google 文件分頁,回到雲端硬碟分頁,按 G,L 跳到檔案與資料夾檢視的表格,按上下鍵找到辨識過的圖片或 PDF 檔案,雖然你會讀到和原本上傳的檔案一樣的檔名,但請注意在檔名後有提示「Google 文件」而非「圖片」或「PDF」,表示該檔案已經是 Google 文件格式而非原本的檔案格式。
  11. 這些上傳的原檔案和辨識後產生的檔案若不再需要可以刪除,按上下鍵選定檔案後按 快顯鍵 叫出快顯功能表,按 向上鍵 到 [移除] Enter。

附註:
  1. 當以 Acrobat Reader DC 開啟 PDF 文件,若有提示「警告:空文件, 此文件似乎為空。它可能是一個需要 OCR 處理的掃描的影像或結構畸形的文件。」,表示該文件很有可能為影像格式,這類的 PDF 檔案 NVDA 無法讀取內容,需經過辨識後才能閱讀。
  2. 可接受辨識的圖片 (.jpg、.gif、.png) 和 PDF 檔案的大小上限為 2 MB,文字高度至少 10 像素,圖片或文件方向須正確。
  3. 辨識後的內容其樣貌將無法和原本的檔案樣貌一致,文字格式和結構元素 (例如項目符號和編號清單、表格、文字分欄以及註腳或章節附註) 很可能會遺失。
  4. 圖片的解析度、顏色對比、明暗等因素皆會影響辨識正確率,辨識結果可能無法完全正確,只要錯誤率不高仍然可掌握圖片資料內容。

延伸閱讀