【科技共融】無障礙人工智能技術 助殘疾人士日常生活

科技 11:00 2021/09/04

分享:

為滿足殘障人士的社會需求,一眾科企近年都積極研發促進無障礙環境的AI技術,協助他們應付日常生活,並享受科技帶來的便利。(法新社資料圖片)

全球資訊科技急劇發展,利用人工智能(AI)技術改善生活已日漸普及。 然而,殘疾人士所遇到的科技障礙,導致「數碼鴻溝」愈來愈嚴重。

以語言障礙人士為例,由於他們在發音上有各種困難,以一般人為服務對象的AI模型、系統,未必適合。近日有科企針對研究出新AI對話模型,聲稱可幫助使用者以自己的聲音翻譯不同語言,還可協助聲音機能或語言機能障礙者。

【無障礙溝通】手語雙向翻譯手套登場 轉化超過8千中文手語詞彙

【溝通無障礙】蘋果蒐集2.8萬聲音檔 訓練Siri辨識口吃及結巴

半導體公司NVIDIA日前研究將AI人工智能合成的聲音與真人聲音整合,並於INTERSPEECH 2021大會上展示其最新的AI語音對話模型。該模型打破人類說話時不同的語調,節奏和音色的限制,該全新的AI語音系統可用於線上客服,遊戲,亦能配合語言障礙患者在日常生活中應用。

雖然AI技術日新月異,但其合成的聲音與真人聲音仍有偏差。原因在於人類說話時帶有的複雜節奏、音調和音色,AI技術暫時都難以重現。該公司是次研發的AI語音模型,可捕捉和模仿人類說話時聲音的細節,使AI合成出來的聲音與真實的人聲更相似,有別於其他語音助理如Google Assistant、亞馬遜的Alexa。

NVIDIA團隊指出,透過其RAD-TTS技術,使用個人說話的聲音來訓練文字轉語音模型,即能將任何文字提示變成說話者的聲音。而該AI模型不只可用於配音,文字轉語音的功能及遊戲上,還可配合歌曲旋律,模擬歌手表演,還可模仿出歌手唱歌時的情感。

目前,該項研究的部分成果已放在NVIDIA NeMo工具套件中,並被列入開放原始碼內,有興趣的用家可在NVIDIA GPU Cloud(NGC4)或其他軟件中心取用。經最佳化調整後,可配合NVIDIA的GPU執行。與此同時,研究團隊仍持續研究AI對話功能,包括自然語言處理,自動語音識別,關鍵字偵測,音訊增強等。

Google針對痛點 建立語言辨識Al模型

事實上,Google早前亦有針對語言障礙人士的痛點,建立語言障礙者的語言辨識Al模型。透過AI模型,不但讓語言障礙者使用聲控設備,機器亦能將語言轉為文字,讓語言障礙擬者透過文字與更多人對話。同時,Google也針對手勢,貶眼等其他溝通方式,建立電腦視覺模型,讓語言障礙擬者能夠更加獨立與外界溝通。

據世界衛生組織(WHO)數據估計,全球約有10億人口身患殘疾。 為滿足殘障人士的社會需求,一眾科企近年都積極研發促進無障礙環境的AI技術,例如Microsoft就透過應用程式「Seeing Al」,讓視障人士辨認物件,貨幣面值及人物樣貌等,協助他們應付日常生活,並享受科技帶來的便利,重新走出社區。

Microsoft考量殘疾人士需要 加入輔助功能

此外,為協助業界開發人員在軟件加入輔助殘疾人士的功能,Microsoft早前曾推出開發人員專用的「Accessibility Insights」工具,透過人工智能檢測網頁或軟件的用戶界面設計,有否包括無障礙的設計或輔助功能。

該項工具還將持續更新,長遠會為開發人員偵測及提供更多共融設計的建議,確保科技方案在開發階段時已考量殘疾人士的需要,提升科技的可及性,並實現更共融的數碼經濟。

【促無障礙溝通】怕用助聽器遭標籤?初創受家人啟發 研聲紋辨認手環助提高警覺

責任編輯:施雯雯

緊貼財經時事新聞分析,讚好hket Facebook 專版