留言討論


分享本文至 E-mail 信箱

跨越語意分析:如何抓出匿名的 J.K. 羅琳 ——《2016泛知識節》

這一系列文章為 2016 泛 · 知識節「翻牆吧!知識」的活動紀實,我們將當下求知求真地感動盡力留下,想與世界某個角落正在努力翻牆的你分享。

知識不只在學校的黑板、不只在安靜的圖書館,當然 更不只在名為「學校」那棟被牆包圍的建築。2016泛 · 知識節「翻牆吧!知識」承襲著泛科學年會的精神與架構,變的是讓更多的知識在這裏碰撞,不變的是那渴求知識的靈魂。如果知識是一道牆,現在就讓我們用求知慾翻牆吧!

關於本場次【 進化!語意分析的創新應用 】的活動介紹,請參考這裡

文/王景新

不可否認,「語意分析」絕對是資訊爆炸帶來的當代顯學,它談的是如何在浩瀚無邊的網海與書海,把資料整理歸納為有用的資訊、輸出,並創造新的商業模式。

2016 泛 · 知識節 —「翻牆吧!知識」於 11/19 邀請到意藍資訊的董事總經理楊立偉,分享自己在此領域中的經驗與心得。意藍資訊成立於 1999 年,志在結合數據分析技術與互聯網之發展,專注於研究開發搜尋、自動語意、網路社群分析等技術,並提供雲端平台服務 ─ 網路社群自動分析平台 OpView,運用搜尋與自動語意分析核心,搭配雲端主機,提供用戶即時的網路口碑分析服務。

而本場分享的參與者塞滿了教室,不少人於座位走道間席地而坐,或在教室後方排排站,充分反映「語意分析」在當下趨勢的熱度。

圖片截自 OpView 網站
圖片截自 OpView 網站

語意分析是什麼?

2013 年,《哈利波特》的作者 J.K. 羅琳化名 Robert Galbraith 創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,讓 J.K. 羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。前陣子,也有人分析《紅樓夢》前 80 回與後 40 回是否為同一作者,不論是哪個案例,語意分析皆可謂關鍵角色。

楊立偉解釋,「語意鑑識分析(forensic linguistics)」技術讓機器能看懂整篇文章,依照層次之分,首先懂字(word)、 詞(phrase)、句子(sentence)、段落(paragraph),再到文章(article)。

「語意分析的一個方式是,把整篇文章按照字、詞、句切碎,看哪個字出現頻率最高(bag of word)。」他以《理性與感性》(Sense and Sensibility)、《傲慢與偏見》(Pride and Prejudice)、《咆哮山莊》(Wuthering Heights)三本英國小說為例,先設定 affection、jealous、gossip、wuthering 四個單字,然後請程式找出這四個單字分別在三本書出現的「頻率」,最後分析出兩本為較近似的作品,正是出自同一位作家之手。

《理性與感性》、《傲慢與偏見》皆為作家珍‧奧斯汀之作品(Photo from wikipedia)
《理性與感性》、《傲慢與偏見》皆為作家珍‧奧斯汀之作品(Photo from wikipedia)

接著,楊立偉提到「詞頻邊際效應遞減」的概念。

他舉例,如果兩篇文章中「蔡英文」三字分別出現 1 次與 0 次,那麼差別就很大;但若兩篇文章中「蔡英文」分別出現 10,000 次和 10,001 次,那麼差別就不大,字詞出現的頻率越大,之中差異的影響越小,這就是邊際效應遞減。同時,語意分析一篇文章時參考的因素還包含單詞長度、句子長度、段落長度、單詞出現頻率,甚至標點出現頻率及單詞使用情況。

然而,中文不像英文字詞間有明顯的斷句;例如「全臺大停電」就可視斷句位置,而有全「臺灣大學」停電與全「臺灣」大停電兩種語意。這時,就必須使用「n-gram」概率語法,依據語句中 n 個語詞同現概率的統計資料,來推斷句子的結構關係。

n-gram 指的是建立在 n-1 階馬可夫模型上的一種。舉例來說,當 n=2 時,稱為二元語法(bigram);當 n=3 時,稱為三元語法(trigram),楊立偉說,通常用到八元語法(8-gram)就能正確分析中文斷句語意。

意藍科技創辦人楊立偉
意藍科技董事總經理楊立偉

將語意分析套用至經典《紅樓夢》

經典文本《紅樓夢》的作者身分一直是「紅學」研究者爭論不休的議題,普遍流傳的說法是前 80 回的作者為曹雪芹,後 40 回為高鶚、或者再加上程偉元所補。深愛《紅樓夢》的張愛玲也曾表示:「紅樓夢看到八十回後,一個個人物都語言無味,面目可憎起來。」認為本作品的後 40 回應為續書人所寫,而非原本的作者。

有趣的是,若撇開歷史脈絡,單純將語意分析套入《紅樓夢》的文本本身,便能發現很多字詞用法前後確實不盡相同。「前 80 回慣用的,後 40 回卻變了,例如前 80 回貫用『麼』,與後 40 回『嗎』、『麼』並用的方式不同(註 1);前 80 回充滿『取笑』,後 40 回未出現『取笑』;甚至以『不兩』這兩個看似無意義的字為檢索標的,也可以發現前 80 回與後 40 回的『不兩』前面連接的字迥異:前 80 回是『豈不兩全』,後 40 回用『可不兩全』。」楊立偉說。

易言之,不論作者是不是曹雪芹、續寫者又是不是高鶚,語意分析科學初步印證了《紅樓夢》前後並非同一人所撰寫的說法。

紅學研究中,對《紅樓夢》作者身分多有討論(Photo from wikipedia)
紅學研究者們對《紅樓夢》作者身分多有討論(Photo from wikipedia

事出必有因,每個字背後都有邏輯

「語意分析」帶大家看見遣詞用字會透露作者,而離我們生活更近的 ─ 網路上每天數不清的輿情中其實也藏著趨勢,美國總統大選、特定品牌促銷活動等「時事預測」,都可以使用如 OpView 這樣的社群媒體觀測平台,協助公關、行銷、產品、客服等人員更有效率地聆聽網友聲音。楊立偉表示這次美國大選開票前,他就先在臉書預告川普會當選。

「100 萬份文件就像是 100 萬顆星星,有各自的方向與向量。」

的確,文字就像一個一個待解碼的符號,透過語意分析,可以找出符號背後的意義,一如楊立偉所言:「這世界上沒有隨機分布,凡事一定有因果。」科學統計告訴我們,字詞不會隨機分布,所以,現在開始慎用每一個字吧!

 

註 1: 引用自杜協昌先生於第四屆數位典藏與數位人文國際研討會所發表的成果

Cover photo via William R. Wilson@flickr, CC License

關於作者


PanX 泛科技

PanX 泛科技新聞網從科技議題著手,企圖把未來更清楚地描繪出來。從能源議題、金融科技、生物科技,到物聯網、大數據、工業4.0、自造者,都是我們專注的內容。若有任何見解歡迎向我們聯絡或投稿:contact [at]panx.asia

留言討論