【阿里巴巴】阿里巴巴達摩院研發新古籍識別系統 古籍數字化準確率達97.5%

商業 10:00 2021/05/19

分享:

「漢典重光」項目將古籍刻本數字化,給公眾翻閱、檢索及調用。

古籍珍貴,除了本身有的歷史價值,記載的內容亦是珍貴之處。阿里巴巴公益基金會、中國四川大學、加州大學柏克萊分校、中國國家圖書館及浙江圖書館等合作,藉「漢典重光」項目將古籍刻本數字化,給公眾翻閱、檢索及調用。

【疫市營商】騰訊雲與首爾市觀光體育局合作 設計旅遊應用程式「一部手機遊首爾」

古籍數字化的方法主要分為兩種:

1)純人工錄入
主要靠人手,將內容全數輸入至電腦中。

2)電腦與人工相結合
由電腦利用光學字元辨識(Optical character recognition,OCR)技術識別一部分文字,電腦無法識別的文字,由專家人手錄入,最終再由人工進行校對。

【疫市開店】嘉禾院線筲箕灣新戲院「嘉禾銀河廣場」 開幕優惠成人票價45元

新系統錄入古籍 效率提升近30倍
中國古籍全部字符約有數十萬,絕大部分不但不被現代字庫收錄,還會幾乎找不到樣本供人工智能(AI)學習。達摩院技術團隊與四川大學專家,為了解決上述問題,合作研發一套全新的古籍識別系統。

【疫市營商】Dyson推新甲醛空氣清新機 三大功能更勝上一代(多圖)

新系統利用單字檢測、無監督單字聚類、少樣本分類、主動學習等有系統性的機器學習方法。並將會一邊識別古籍,一邊訓練模型,以97.5%的準確率,完成約20萬頁古籍的整體識別。

目前該系統已經能識別逾百本古籍,並有覆蓋逾3萬字的古籍字典。隨著古籍識別規模增加,機器會不斷提升準確率和效率。與專家人工錄入相比,將效率提升近30倍。

【消費優惠】品牌優惠停不了 網購、門市、零售折扣著數多(附優惠表一覽/不斷更新)

責任編輯:馬意文

緊貼財經時事新聞分析,讚好hket Facebook 專版