最近有一篇論文,探討現在中文NLP還需不需要斷詞
《Is Word Segmentation Necessary for Deep Learning of Chinese Representations? 》
發現在深度學習中 以字建立的模型 比 以詞建立的模型 結果要好。但詞模型的表現不好,有原因是因爲沒有解決Out of vocabulary word(OOV,新詞)的問題。加上現在還有應用是基於詞來分析的 - 比如說討論區熱點,詞雲等……
可見,斷詞裏面新詞的問題依然存在。有沒有一個簡單有效的方法找到新詞呢?成爲本文想要探討的問題,提出一個新的方法,有以下改善:
- 資源占用低
- 不需大規模語料就能得到理想效果
- 不需考慮閥值的設置
文末也會有code,希望可以一起改善。