前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn)范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:句子相似度計(jì)算;Word2Vector;編輯距離;Edit Distance
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)05-0146-02
1 背景
句子的相似度計(jì)算在自然語言處理中有著十分廣泛的運(yùn)用。例如,機(jī)器翻譯中相似性文檔的判斷和提取,在問答系統(tǒng)中相似性問題的匹配或者問題與答案之間的匹配判斷等。對(duì)于這個(gè)相似度的刻畫,主要分為幾個(gè)不同的等級(jí),具體為語法層面的相似度,語義層面的相似度,與語用層面的相似度。其計(jì)算難度也是層層遞進(jìn)。在具體的應(yīng)用中,只要能達(dá)到語義層面的判斷基本上就可以達(dá)到基本的需求了。目前對(duì)句子的語義層面的相似度計(jì)算方法主要有基于相同詞匯的方法,使用語義詞典的方法、使用編輯距離的方法,以及基于統(tǒng)計(jì)的方法等。其中,基于相同詞匯的方法比較簡(jiǎn)單,但是其缺點(diǎn)也十分的明顯,就是對(duì)于句子中同義詞的判斷存在不足。相對(duì)于基于相同詞匯的方法,使用語義詞典可以很好的處理句子中同義詞的情形,但是語義詞典也存在著需要不斷地更新和維護(hù)詞典庫的缺點(diǎn),而且如果只是單一的使用語義詞典會(huì)缺乏對(duì)句子本身結(jié)構(gòu)的分析,對(duì)最后的計(jì)算結(jié)果也有較大的影響。編輯距離一般使用在對(duì)句子的快速模糊匹配上,由于其規(guī)定的編輯操作有限,而且對(duì)于同義詞的替換也缺乏判斷,因此最后的準(zhǔn)確率也不是很理想。本文基于編輯距離的方法,利用深度學(xué)習(xí)模型Word2Vector來增強(qiáng)其編輯操作的靈活程度,從而克服了單純使用編輯距離對(duì)句子的語義理解不足的缺點(diǎn)。本文的第一部分主要介紹了相關(guān)的算法和基礎(chǔ)知識(shí)。第二部分主要描述了基于Word2Vector與編輯距離的句子相似度計(jì)算方法,第三部分給出了測(cè)試結(jié)果以及對(duì)該方法的優(yōu)缺點(diǎn)討論,最后第四部分是結(jié)語。
編輯距離方法是指兩個(gè)句子間,由一個(gè)句子轉(zhuǎn)換到另一個(gè)句子所需的最少的編輯操作次數(shù)。這里的編輯操作共有“插入”、“刪除”和“替換”三種。例如:
我是中國人 -> 你是中國人 (把“我”替換為“你”)
我是中國人 -> 我愛中國人 (把“是”替換為“愛”)
我是中國人 -> 是中國人(把”我”刪除)
利用這種方法對(duì)兩個(gè)句子進(jìn)行相似度比較就像引言中分析的,其優(yōu)點(diǎn)是簡(jiǎn)單,速度快。但是缺點(diǎn)也十分明顯,由于編輯操作缺乏一定的靈活性,使得其無法進(jìn)一步的判斷語義層面的含義,比如同義詞,同類、異類詞等,因此,該方法適合于句子間的模糊匹配。
2.2 Word2Vector
Word2Vector是一種將詞匯表示轉(zhuǎn)化為空間向量的技術(shù),主要利用了深度學(xué)習(xí)的思想對(duì)語料進(jìn)行訓(xùn)練,通過將句子進(jìn)行分詞,然后將每個(gè)詞匯映射成N維的向量,這樣可以將兩個(gè)詞匯的相似度比較轉(zhuǎn)化為對(duì)兩個(gè)向量的相似度比較,可以利用cosine 相似度、歐氏距離等數(shù)學(xué)工具對(duì)詞匯進(jìn)行語義分析,其采用了一個(gè)具有三層的神經(jīng)網(wǎng)絡(luò),并且根據(jù)詞頻用Huffman編碼技術(shù)將相似詞頻詞匯的隱藏層激活的內(nèi)容出于大致相同的位置,如果哪個(gè)詞匯出現(xiàn)的頻率很高,那么它激活的隱藏層的數(shù)目就很少,通過這樣處理可以使得計(jì)算的復(fù)雜度大幅度的降低。最后,通過Kmeans聚類方法,將相似的詞向量聚在一起,最后形成了Word2Vector的詞聚類模型。
Word2Vector的輸出結(jié)果可以利用在NLP的很多地方,比如聚類,查找一個(gè)詞的同義詞,或者進(jìn)行詞性的分析等。
3 基于Word2Vector與編輯距離的句子相似度計(jì)算方法
3.1 問題描述
3.3 按照Word2Vector的詞向量距離來定義編輯操作的系數(shù)
由Word2Vector訓(xùn)練好的模型會(huì)將各個(gè)詞匯生成一個(gè)與其相對(duì)應(yīng)的詞向量,計(jì)算兩個(gè)詞匯對(duì)應(yīng)的詞向量便可以知道這兩個(gè)詞匯的相似度。如果值為1,說明這兩個(gè)詞匯完全一致,如果為0,則表示完全沒有關(guān)系。
這里考慮一種情形,當(dāng)利用替換操作進(jìn)行兩個(gè)詞匯的替換時(shí),如果兩個(gè)詞匯意思是相近的,那么它的替換代價(jià)會(huì)相應(yīng)的低一點(diǎn),反之,則會(huì)相應(yīng)的高。舉個(gè)例子:
我愛故宮
我愛天安門
我愛蘋果
這三個(gè)句子我們可以知道1,2兩句更加的接近,因?yàn)樗淼亩际蔷包c(diǎn)。因此待匹配的句子1應(yīng)該會(huì)匹配上句子2。為了將詞語的相似度考慮進(jìn)去,這里引入Word2Vector的詞向量來改進(jìn)替換操作的系數(shù)。
假設(shè)兩個(gè)詞匯的向量距離為k,k∈[0,1]。考慮到k的值的大小與編輯距離的大小是相反的,這里將更新后的替換操作的系數(shù)設(shè)定為1/(1+k)。這樣更新后的替換操作會(huì)根據(jù)不同詞匯之間的距離發(fā)生變化,變化范圍在[0.5,1]之間。而且這個(gè)值的范圍不會(huì)打破編輯操作里面的平衡,即替換=插入+刪除。更新后的編輯距離公式L=a+1/(1+k)*b + c。
4 實(shí)驗(yàn)及結(jié)果分析
為了驗(yàn)證改進(jìn)的編輯距離算法的有效性,本文自行構(gòu)造了實(shí)驗(yàn)所需的句子集合,本文所用的測(cè)試句子一共有400句。其中380句為來自各個(gè)不同領(lǐng)域類型的句子。比如,體育,娛樂,軍事,文化,科技,教育等。另外20句為沒有意義的干擾句。這里從380個(gè)句子中挑選100句作為參考句子,通過人工評(píng)價(jià),比較測(cè)試結(jié)果。這里評(píng)價(jià)按照結(jié)果的質(zhì)量分為3類:1、準(zhǔn)確,2、相關(guān),3、不相關(guān)。其中查準(zhǔn)率P的定義如下所示:
通過實(shí)驗(yàn)可以發(fā)現(xiàn),經(jīng)過改進(jìn)的編輯距離句子相似度匹配算法在準(zhǔn)確度上有了一定的提高和改進(jìn),其中原因便是調(diào)整后的編輯距離算法將同義詞近義詞等通過詞向量給計(jì)算出來。但是在實(shí)驗(yàn)中也發(fā)現(xiàn)了一個(gè)現(xiàn)象,就是相對(duì)來說判斷準(zhǔn)確的句子都是一些短小句,即長(zhǎng)度不是很長(zhǎng)的句子,而判斷不相關(guān)的句子明顯長(zhǎng)度要更長(zhǎng)一些。事實(shí)也是如此,當(dāng)句子的長(zhǎng)度較長(zhǎng)時(shí),通過分詞將一個(gè)句子分為一個(gè)個(gè)短的詞匯來利用詞向量來理解會(huì)破壞句子的整體含義。
5 結(jié)束語
本文通過利用Word2Vector模型將詞向量計(jì)算引入到編輯距離算法的編輯操作中,從而使得改進(jìn)后的編輯算法對(duì)句子具有一定的語義理解能力。通過實(shí)驗(yàn)也比較好的驗(yàn)證了此方法的有效性,尤其是對(duì)近義詞與同義詞的理解上有了很大的提升,而算法本身的時(shí)間復(fù)雜度相較于編輯距離算法則沒有改變多少。
另外,通過實(shí)驗(yàn)也發(fā)現(xiàn),此方法對(duì)短句子的效果非常的明顯,而對(duì)于一些長(zhǎng)句則還是具有較大的誤差。從對(duì)句子本身的分析角度上看,還需要通過對(duì)句子進(jìn)行建模才可以達(dá)到比較好的理解匹配。
參考文獻(xiàn):
[1] 李彬, 劉挺, 秦兵, 等. 基于語義依存的漢語句子相似度計(jì)算[J]. 計(jì)算機(jī)應(yīng)用研究, 2003, 20(12): 15-17.
[2] 孔勝, 王宇. 基于句子相似度的文本主題句提取算法研究[J]. 情報(bào)學(xué)報(bào), 2011, 30(6): 605-609.
[3] 賈明靜, 董日壯, 段良濤. 問句相似度計(jì)算綜述[J]. 電腦知識(shí)與技術(shù): 學(xué)術(shù)交流, 2014 (11): 7434-7437.
[4] 賈熹濱, 李寧, 靳亞. 用于文本情感極性分析的動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)超限學(xué)習(xí)算法[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2017, 43(1): 28-35.
[5] Xu G, Cao Y, Zhang Y, et al. TRM: Computing Reputation Score by Mining Reviews[J]. 2015.
[6] 萬翔, 劉挺, 秦兵, 等. 基于改進(jìn)編輯距離的中文相似句子檢索[J]. 高技術(shù)通訊, 2004, 14(7): 15-19.
[7] 汪衛(wèi)明, 梁東鶯. 基于語義依存關(guān)系匹配的漢語句子相似度計(jì)算[J]. 深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào), 2014 (1): 56-61.
[8] 裴婧, 包宏. 漢語句子相似度計(jì)算在 FAQ 中的應(yīng)用[J]. 計(jì)算機(jī)工程, 2009, 35(17): 46-48.