留言討論


分享本文至 E-mail 信箱

大數據專題(三)/文字也是數據,語意分析掌握電腦背後的情感

2016 年 06 月 16 日

文/李允誠

2013 年時,哈利波特作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,這也讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。

上述案例中,語意分析可謂關鍵角色,但語意分析究竟如何運作?如何快速解構文本類型的「大數據」?本篇專訪中,鑽研中文語意分析的意藍科技董事長楊立偉,從技術原理談到語意分析各種應用和挑戰,深入分析了語意分析背後的眉角。

意藍科技董事長楊立偉,圖片來源:作者自攝。
意藍科技董事長楊立偉,圖片來源:作者自攝。

從單詞到文章,文本分析更深、更廣、更快

過去的資料探勘,大多侷限於結構化資料,像是論文、專利、論文、新聞稿等經過嚴謹撰寫完成的文章。隨著社群網站興起,人們在網路上發表意見變得越來越容易、卻也更零碎、甚至參雜許多錯字讓電腦難以精準判讀。而透過大數據為基礎發展演算法的語意分析,能夠分析非結構化的資訊,像是散文、小說等較無固定格式的文本,加深文本分析的廣度,同時納入圖片、影音各種非結構化資料所能提供的資訊。

假設你現在想查詢一個新聞事件,並分析網友、鄉民的看法,最直覺的方式便是利用 Google 進行關鍵字搜索,但這樣只能做到關鍵字比對,如此一來搜索出的資料將有幾百萬、幾千萬之譜,該如何進行整理、重點摘要?總不可能人工比對吧,這時,語意分析的優點便顯現出來了。楊立偉表示,語意分析透過爬梳大量網路資料,每日能夠搜索 60 億筆中文字詞,快速找出每日重要資訊。

2014 年 5 月時,越南發生排華暴動。楊立偉以當時分析越南地區的中文內容為例,除了字詞分析,也利用了情感分析。原先的文本內容大多為正面字詞,例如「建廠」、「投資」等等,但暴動當天開始出現許多負面字詞,例如「害怕」、「被砸」、「快跑」等等,情感分析的正負評比大為下滑。相對於傳統媒體可能是透過駐越記者或是當地新聞媒體報導才得知相關資訊,語意分析利用網路輿情觀察,足足快了十小時掌握新聞事件。

範例引導進行教學,機器學習增加準確率

楊立偉解釋,演算法為了能做到通篇分析,多採用機器學習的方式,就像教小孩念書,透過範例引導,結合答案輔助,電腦便能找出其中關聯。同時藉由資料庫的「語料」提供範例,輔以人工提供正確答案,電腦便能找出其中邏輯關係。

語意分析和關鍵字比對最大差異在於處理層級的不同。除了比對單詞外,它能以閱讀的概念進行分析,從前後文、段落乃至通篇文章進行分析。

假設現在要分析「全家」便利商店的相關新聞,若以關鍵字比對,可能會抓出「全家一起玩」等無關字詞,但在語意分析下,此類句子會被過濾掉,只會抓出「全家推出新產品」等相關度較高的句子。

回家功課寫錯了要訂正,那語意分析錯了也要訂正嗎?「對於機器學習來說,我們只要告訴機器這樣的結果好不好,透過多次嘗試,機器會將不好與好的結果都學習下來,進而進行更準確的運算。」

語意分析的多種應用

  • 自動摘要

手機滑到一篇有興趣的文章,卻嫌文章太長不想看?透過語意分析,能夠找出一篇文章的重要字詞、摘要,讓人能短時間快速瞭解內文。楊立偉說明,通篇文章中,機器會先挑出具有代表性、特殊意義的字詞,再找出相關字詞的句子、段落,將分析出的摘要列出來,最後以人工的方式給摘要打分,如此一來機器在多次嘗試學習下,高分的摘要會愈來愈多,藉此發展出自動摘要的應用程式。

  • 以文找文

語意分析能透過文章中的重要、關鍵字詞,進而並找出相關文章。例如 Google 新聞把相關性、類似的文章聚集,便是利用語意分析的技術。

  • 廣告信偵測

以 Gmail 為例,語意分析能判斷一封信中是否包含廣告信的常用字詞,協助信箱進行篩選。有時雖然也會誤判,但長時間下來,全世界的使用者亦會幫忙修正,不斷累積下,判斷準確率也愈來愈高。

  • 意見分析與情感分析

分析企業在網路上的口碑、評價。根據提到相關企業或產品的文章進行分析,篩選通篇文裡的正負面字詞,分析網友的觀點與情感。並透過通篇上下文,加強判斷正負面情緒的判讀。這項功能也能運用在企業客服中,偵測消費者的抱怨內容,轉介給適合處理的單位。

  • 寫作輔助

機器與人工能共同創作,協助文本效正。比如說台灣人若要以英文撰寫論文,語意分析便能幫助選詞、文法。

  • 電腦問答

如同 Siri,語意分析也能應用在人工智能對話,協助使用者利用問與答(Q&A)的方式找尋所需的資訊。

語意分析並非萬能,發展瓶頸和隱憂是?

語意分析並非百分百正確,目前仍多以機器學習的方式增加準確度,因此機器獲得的「語料」愈多愈好,也因此需要建立具大的資料庫,而系統的硬體設備也要有一定水準,才能快速進行分析。

除了硬體條件,語意分析現階段也仍需要以人工評量系統,為機器所分析出來的結果給與回饋與改善建議。除了需要語言學家針對不同語系的慣用法進行審核,若遇到專業領域的文本、字詞,也需要請相關領域專家協助評量,這些都是現階段語意分析在人事上無法完全去除的因子。

「水能載舟,亦能覆舟。」語意分析同時也可能會被用於造假、偽造。楊立偉坦言,利用語意分析的演算法,許多人能夠設計出論文製造機等應用,雖然透過機器產生的論文或許可信度較低,但有心人仍能將其投稿到審查制度較寬鬆的學術期刊上,藉此奪得在學術期刊上發表的機會。

在隱私問題方面,楊立偉解釋,語意分析只會搜尋公開的貼文和訊息。以臉書為例,只有公開帳號的文章會被納入分析,包含熱門粉絲頁、意見領袖、公開的個人頁。目前台灣以中文為主的公開帳號約有六百萬個,都是語意分析的守備範圍。

災害通報、事件預防、預測,也是語意分析技術的努力目標,透過網友貼文,能夠在短時間內搜集大量的破碎訊息,組合成一完整資訊匯流,對於提供災害事件資訊、甚至是建立災害預測模型,都將大有助益。

「現在大數據的一大挑戰在於資料都存在不同的地方,因此『匯集』的角色更為重要。」楊立偉強調,許多大數據都是在講單一企業的資料庫分析、應用,但真正重要的是跨企業、領域的資料整合,數據分析才能更兼顧深度與廣度。

封面圖片來源:Wikimedia

關於作者


PanX 泛科技

PanX 泛科技從科技議題著手,企圖把未來更清楚地描繪出來。從能源議題、金融科技、生物科技,到物聯網、大數據、工業4.0、自造者,都是我們專注的內容。本帳號也會發布來自其他單位提供的新聞稿。

留言討論


網站更新隱私權聲明
本網站使用 cookie 及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策