【人工智能】微軟研AI語音模型 模仿真人發聲及語氣

科技 12:00 2023/01/11

分享:

分享:

由於VALL-E能合成為某人的語音,可能存在濫用而造成類似「深偽技術」(Deepfake)的欺詐風險。(法新社)

人工智能(AI)的應用領域愈趨廣泛,例如Open AI的AI模型DALL-E,就可透過輸入文字描述,生成對應的圖片。微軟(Microsoft)亦發布了最新的AI模型VALL-E,可將3秒長度的語音樣本,模仿成某個真人的發聲,更可匹配成不同的說話語氣。

【網絡監管】Meta加強FB及IG廣告限制 禁止按性別向青少年投放廣告

藉Meta語音庫訓練

VALL-E屬於「神經編解碼語言模型」(Neural Codec Language Model),核心技術則來自Meta的AI壓縮神經網絡「Encodec」。微軟表示,研究人員是透過Meta的LibriLight語音庫中來自7,000多名演講者,共6萬小時英語語音來訓練VALL-E。

為改進VALL-E,微軟正計畫擴大其訓練數據,以提高模型在語氣、說話風格和說話人相似度方面的表現,以及減少不清楚或遺漏詞語的情況。

【淘汰設備】Meta擬停止支援VR設備初代Quest更新 部分功能無法使用

但微軟提到,由於該模型能合成為某人的語音,可能存在濫用而造成類似「深偽技術」(Deepfake)的欺詐風險,因此暫時不會開放VALL-E的代碼。

《ET贏商有計》每集請來香港企業品牌,分享疫下營商Tips。即看最新一集:

責任編輯:陳卓賢

開啟hket App,閱讀全文
緊貼財經時事新聞分析,讚好hket Facebook 專版
訂閱《香港經濟日報》電郵通訊
收取第一手財經新聞資訊 了解更多投資理財知識 提交代表本人同意收取香港經濟日報集團所發出的推廣訊息,你也可以查閱本網站的私隱政策使用條款