AI 中文化的困境

作者 :

 

前幾天 Google 在開發者大會上暗示了 Google Assistant 即將在臺灣上線,這無疑是一個非常振奮人心的消息,畢竟如果能像展示時那樣做到真假難分的直接對話,那可以說是在中文語音辨識上的突破性進展。

根據 Google Assistant 中文研究員宋雲軒接受臺灣媒體訪問時所透漏的內容,AI 助理之所以一直難以在中文有所突破,主要是關係到「斷句」、「聲調」、「語意辨識」等問題。大家不妨試試看要如何解讀以下中文句子:

  1. 冬天:能穿多少穿多少; 夏天:能穿多少穿多少。
  2. 以前是喜歡一個人,現在是喜歡一個人。

我們大概都能懂以上兩題的前後句差異,但對電腦識讀來說,理解這差異就是一個非常大的工程;再來則是聲調,但我個人認為這個影響會比較好解決,畢竟像影片中所展示的,都能夠辨識出老奶奶發音不標準的語句,要順利辨識出正確原意應該比較不困難,比較有問題的可能會是「同音異字」,像是九九與久久、明明與冥冥這種,就需要大量的前後文去比對使用者所說的到底是哪一個詞彙。

除此之外,還有句型結構的因素,有時候我們會在口語上「不小心」將一些字詞的語序調換,但在句意理解上並不會造成影響,例如:

  • 昨天我很晚回家;昨天我回家很晚

但並不是所有中文都是這樣:

  • 我睡很晚;我很晚睡

這句與上個例子一樣,只是調換了動詞的位置,卻改變了意思,於是 AI 必須去學習哪些詞語在一段句子當中被改變了順序後,會不會影響到原本的語意。

 

簡而言之,Google 想要開發的是能夠應對自然語言 ( Natural Language ) 的 AI 語音助理,而不是單純的問答機器人,要做到與人類對答如流的溝通,在這次的開發者大會上可以證明 Google 已經在英語上做得相當完善,但在中文方面可能還需要一段時間訓練,雖然目前已經可以使用中文語音搜尋,但宋雲軒表示,搜尋與 Assistant 的需求不一樣,語音搜尋只需要一個明確的問題,但 Assistant 需要理解、對話,而中文還是世界上數一數二難的語言,這些都是目前還無法讓中文版上線的原因。

而在大會上那張支援地區的暗示,或許也意謂著其實已經有相當程度的進展,大家還是可以期待一下。

 

 

影片連結:

國外的老奶奶使用 Google Home

Google Assistant 在聽取使用者需求之後,直接打電話幫使用者預約剪髮服務

 

 

新聞連結:

新聞幕後-對機器來說,為什麼講中文這麼難?

用中文跟Google助理自然聊天 研究員:還得再等等

 

Comments

X

忘記密碼?

加入會員

重設密碼
請輸入您的信箱,新的密碼將以mail的方式寄給您