2021年3月20日

AI幫你看圖片

2023/5/19 更新

得利於電腦科技的進步,AI 成為流行語彙,凡是冠上 AI 的東西就像施了魔法一般引人無限想像,近年應用 AI 技術在圖片的辨識上有不錯的進展,正好也可用來協助視障者看東西。

大家熟知的 Facebook 為協助視障者理解圖片內容,針對貼文中圖片/照片自動加上的替代文字說明正是利用 AI 技術的成果,但一般網站或部茖格上的圖片/照片視障者又要如何知曉其內容呢?
這裡介紹一個 NVDA 的附加元件可以用來辨識網頁上的圖片,以 AI 技術幫視障者瞧瞧圖片裡有什麼東西。

附加元件名稱:
CloudVision (AI 視覺)

取得方式:

  1. 到附加元件的官方網站 https://visionbot.ru/addon/info_ru.php,由於是俄文網站故大部份內容憗該都讀不到,有興趣者可利用瀏覽器的翻譯功能或其他翻譯工具了解網站內容。
  2. 按 H 到 [Дополнение для NVDA CloudVision-V.3.0.1.5.nvda-addon] 的標題,再按一次 K 到 [Скачать / Установить стабильную версию 3.0.1.5] 連結 Enter 下載附加元件。
  3. 執行下載的附加元件進行安裝,安裝過程為標準的 NVDA 附加元件安裝方式,請按照指示完成安裝並重新啟動 NVDA。


使用方式:
NVDA 的官方附加元件網站原本有一個同性質的 Image Describer,不過現已經不存在了,CloudVision 的開發則是基於 Image Describer 而來。
在網頁上以瀏覽模式游標或以物件導覽的方式瀏覽到圖片,不論有沒有替代文字說明或圖說文字,按 NVDA+Ctrl+I 就可對圖片進行辨識,,由於需要將圖片上傳至伺服器以進行辨識,需要一點等待時間,完成後 NVDA 將會朗讀辨識的結果,若在要辨識的圖片上連按兩次 NVDA+Ctrl+I 則辨識結果將會另開一個視窗顯示,可利用方向鍵來瀏覽或複製內容,這對辨識結果內容較多或要擷取辨識結果時很方便。
目前 CloudVision 的功能包括描述圖片中發生的事情、辨識圖片中的文字、讀取 QR code,若圖片中的主題為人物時還會嘗試分析人物的年齡頗為有趣,雖無法準確但可做為年齡偏向的參考。

附住:不建議對𡋛有敏感內容的圖片/照片進行辨識。

對圖片辨識結果的描述語言雖有繁體中文可以選擇,不過實際使用卻還是以英文描述,如果有理解上的困難可以將辨識結果的內容複製出來以翻譯工具進行翻譯。
在辨識圖片中的文字部份,中文字的辨識效果很不錯,但要將辨識結果文字做後續的使用會有和 NVDA 自身的 Windows OCR 文字辨識一樣的問題,文字間會有空格,中文標點符號可能會被辨識為英文標點符號,不過這些問題不影響 NVDA 語音的朗讀。
除了網頁上的圖片/照片,某些圖形驗證碼也能辨識,此外對於以 [相片] app 開啟電腦中的圖檔、以 Acrobat Reader DC 開啟的 PDF 影像檔、在 PowerPoint 投影片檢視中的圖片物件也都能辨識圖片或文字內容,另外在檔案總管中可對圖檔直接按快速鍵進行辨識。

CloudVision 的設定位於 NVDA 功能表 > [偏好] > [AI 視覺設定...],可以選擇是否要辨識文字、辨識圖片、讀取 QR code、翻譯文字、辨識中播放音效,及選擇圖片描述的語言等,在 NVDA 的 [輸入手勢] 中可變更辨識圖片的快速鍵、設定複製辨識結果的快速鍵。

延伸閱讀