日志處理方法及裝置和問答信息處理方法及裝置的制造方法_3

文檔序號：9787568閱讀：來源：國知局

28]對于特定的一條待處理日志，通過第一相似度計算以匹配所對應的第一標準問。具體而言，該匹配是以問答數(shù)據(jù)庫為基礎的。如前所述，問答數(shù)據(jù)庫中包括多個問答標準問，另外每個問答標準問關聯(lián)有語義表達式來表示該問答標準問。
[0129]將待處理日志(例如，該待處理日志中所含的用戶問題)與問答數(shù)據(jù)庫中的問答標準問的語義表達式執(zhí)行表達式語義相似度計算，以找到相似度最高的語義表達式，該最高相似度的語義表達式所對應的問答標準問即作為匹配得到的第一標準問。
[0130]如前所述，每一條用戶日志中包含用戶所提出的用戶問題，以及當時問答系統(tǒng)為該用戶問題在問答數(shù)據(jù)庫中所匹配的問答標準問和對應該問答標準問的答案。因此，在另一實例中，直接將該待處理日志中所含的該問答標準問作為第一標準問。
[0131]在步驟108，獲取通過對該待處理日志數(shù)據(jù)進行第二相似度計算得到的第二標準問。
[0132]對于該待處理日志，還通過第二相似度計算以匹配所對應的第二標準問。具體而言，該匹配是以正確日志庫為基礎的。
[0133]具體而言，以正確日志庫(例如，其所含的正確標準問的集合)為基礎對所有的待處理日志進行大數(shù)據(jù)聚類，以使得每一條待處理日志被聚類至某一正確標準問，從而將該正確標準問作為匹配得到的第二標準問。例如，將每一條待處理日志(例如可以是該條用戶日志的用戶問題)與每個正確標準問執(zhí)行一次語義相似度計算，然后，將該條待處理日志聚到具有最高語義相似度的那一個正確標準問。
[0134]在步驟110，當該待處理日志數(shù)據(jù)與第一標準問的相似度大于第一閾值，待處理日志數(shù)據(jù)與第二標準問的相似度大于第二閾值，且第一標準問和第二標準問相同時，則將該待處理日志標注為正確。
[0135]該待處理日志數(shù)據(jù)與第一標準問的相似度大于第一閾值，即表示該待處理日志被匹配至該第一標準問具有較高的可信度，待處理日志數(shù)據(jù)與第二標準問的相似度大于第二閾值，也表示該待處理日志被匹配至該第二標準問具有較高的可信度，而且第一標準問和第二標準問相同，表示待處理日志通過兩周不同的相似度計算都被匹配至相同的標準問，從而可以判斷該用戶日志是正確的。
[0136]另一方面，若該待處理日志數(shù)據(jù)與第一標準問的相似度大于第一閾值，即表示該待處理日志被匹配至該第一標準問具有較高的可信度，待處理日志數(shù)據(jù)與第二標準問的相似度大于第二閾值，也表示該待處理日志被匹配至該第二標準問具有較高的可信度，但是第一標準問和第二標準問不同，說明用戶日志在通過兩種不同的相似度計算被匹配至了不同的標準問，此時應以匹配可信度更高的結果為準。
[0137]具體而言，可以計算待處理日志數(shù)據(jù)與第一標準問的相似度與第一閾值的差值比(即，相似度減去第一閾值的差值再除以該第一閾值)，以及計算待處理日志數(shù)據(jù)與第二標準問的相似度與第二閾值的差值比(相似度減去第二閾值的差值再除以該第二閾值)。
[0138]若待處理日志數(shù)據(jù)與第一標準問的相似度與第一閾值的差值比大于待處理日志數(shù)據(jù)與第二標準問的相似度與第二閾值的差值比，則說明該待處理日志數(shù)據(jù)與第一標準問(即問答數(shù)據(jù)庫中的問答標準問)的匹配可靠性更高，即問答數(shù)據(jù)庫給出的答案是正確的，換言之，由問答數(shù)據(jù)庫產(chǎn)生的該待處理日志是正確的，因此將該待處理日志標注為正確。
[0139]再一方面，若該待處理日志數(shù)據(jù)與第一標準問的相似度小于第一閾值，且待處理日志數(shù)據(jù)與第二標準問的相似度也小于第二閾值，則表示該待處理日志數(shù)據(jù)的可信度較低，有待人工確認。然而，每一條地確認人工工作量是非常大的。
[0140]為此，可以對所有與第一標準問的相似度小于第一閾值且與第二標準問的相似度小于第二閾值的用戶日志數(shù)據(jù)進行聚類分析，把它們聚類為多個用戶日志群集以供人工確認。這樣，每個群集中的用戶日志群集具有較高的相似度，便于人工確認。
[0141]在一實例中，考慮到語義相似度計算的不同，第一閾值可以小于第二閾值。
[0142]以此方式，可以自動地對用戶日志進行標注，大量地節(jié)省了人工工作量。
[0143]圖2是示出了根據(jù)本發(fā)明的一方面的問答信息處理方法200的流程圖。該問答信息處理方法，可以由問答系統(tǒng)來運行以根據(jù)用戶給出的問題，提供相應的答案。
[0144]在步驟202，接收用戶問題。
[0145]可以經(jīng)由答系統(tǒng)的交互界面接收用戶問題。
[0146]在步驟204，對該用戶問題進行第一相似度計算得到第一標準問。
[0147]對于特定的一條用戶問題，通過第一相似度計算以匹配所對應的第一標準問。具體而言，該匹配是以問答數(shù)據(jù)庫為基礎的。如前所述，問答數(shù)據(jù)庫中包括多個問答標準問，另外每個問答標準問關聯(lián)有語義表達式來表示該問答標準問。
[0148]將該用戶問題與問答數(shù)據(jù)庫中的問答標準問的語義表達式執(zhí)行表達式語義相似度計算，以找到相似度最高的語義表達式，該最高相似度的語義表達式所對應的問答標準問即作為匹配得到的第一標準問。
[0149]在步驟206，對該用戶問題進行第二相似度計算得到第二標準問。
[0150]對于該用戶問題，還通過第二相似度計算以匹配所對應的第二標準問。具體而言，該匹配是以正確日志庫為基礎的。
[0151]具體而言，以正確日志庫(例如，其所含的正確標準問的集合)為基礎對該用戶問題進行大數(shù)據(jù)聚類，以使得該用戶問題被聚類至某一正確標準問，從而將該正確標準問作為匹配得到的第二標準問。例如，將該用戶問題與每個正確標準問執(zhí)行一次語義相似度計算，然后，將該條用戶問題聚類到具有最高語義相似度的那一個正確標準問。
[0152]在步驟208，當該用戶問題與第一標準問的相似度大于第一閾值，該用戶問題與第二標準問的相似度大于第二閾值，且第一標準問和第二標準問相同時，則向用戶反饋該第一標準問或所述第二標準問對應的答案信息。
[0153]該用戶問題與第一標準問的相似度大于第一閾值，即表示該用戶問題被匹配至該第一標準問具有較高的可信度，該用戶問題與第二標準問的相似度大于第二閾值，也表示該用戶問題被匹配至該第二標準問具有較高的可信度，而且第一標準問和第二標準問相同，表示該用戶問題通過兩周不同的相似度計算都被匹配至相同的標準問，從而可以判斷該匹配是準確度的，因此，向用戶反饋該第一標準問或所述第二標準問對應的答案信息，此時提供的答案具有非常高的可信度。
[0154]另一方面，若用戶問題與第一標準問的相似度大于第一閾值，即表示該用戶問題被匹配至該第一標準問具有較高的可信度，該用戶問題與第二標準問的相似度大于第二閾值，也表示該用戶問題被匹配至該第二標準問具有較高的可信度，但是第一標準問和第二標準問不同，說明用戶問題在通過兩種不同的相似度計算被匹配至了不同的標準問，此時應以匹配可信度更高的結果為準。
[0155]具體而言，可以計算用戶問題與第一標準問的相似度與第一閾值的差值比(S卩，相似度減去第一閾值的差值再除以該第一閾值)，以及計算用戶問題與第二標準問的相似度與第二閾值的差值比(相似度減去第二閾值的差值再除以該第二閾值)。
[0156]若用戶問題與第一標準問的相似度與第一閾值的差值比大于用戶問題與第二標準問的相似度與第二閾值的差值比，則說明該用戶問題與第一標準問(即問答數(shù)據(jù)庫中的問答標準問)的匹配可靠性更高，此時，將該第一標準問所對應的答案信息提供給用戶。反之，將第二標準問所對應的答案提供給用戶。
[0157]以此方式，提高了問答系統(tǒng)的問答正確率。
[0158]盡管為使解釋簡單化將上述方法圖示并描述為一系列動作，但是應理解并領會，這些方法不受動作的次序所限，因為根據(jù)一個或多個實施例，一些動作可按不同次序發(fā)生和/或與來自本文中圖示和描述或本文中未圖示和描述但本領域技術人員可以理解的其他動作并發(fā)地發(fā)生。
[0159]圖3是示出了根據(jù)本發(fā)明的一方面的問答系統(tǒng)的日志處理裝置300的框圖。該日志處理裝置300可用于對海量的用戶日志進行自動化梳理，以減輕人工工作量。該日志處理裝置300可包括獲取模塊302、過濾模塊304、第一相似度計算模塊306、第二相似度計算模塊308、判斷模塊310以及標注模塊312。
[0160]獲取模塊302首先獲取用戶日志數(shù)據(jù)。
[0161]該獲取可以是在問答系統(tǒng)產(chǎn)生每一條用戶日志時逐條收集的，也可以是定期地從問答系統(tǒng)中批量收集的。
[0162]過濾模塊304可對獲取的用戶日志數(shù)據(jù)進行過濾處理，以得到待處理日志數(shù)據(jù)。
[0163]在一實例中，如果一用戶日志落在正確日志庫中或無意義日志庫中，則該用戶日志明顯是無需梳理確認的。無意義日志庫是集合了一些無意義的日志的數(shù)據(jù)庫，例如用戶隨意提出的一些無厘頭問題，這些日志被收集起來作為無意義日志庫。
[0164]過濾模塊304可通過比較判斷將用戶日志數(shù)據(jù)中既不屬于正確日志庫也不屬于無意義日志庫的日志數(shù)據(jù)作為待處理日志數(shù)據(jù)，而落在正確日志庫中或無意義日志庫中的日志數(shù)據(jù)被濾除，無需進一步處理。
[0165]第一相似度計算模塊306可獲取通過對待處理日志數(shù)據(jù)進行第一相似度計算得到的第一標準問。
[0166]對于特定的一條待處理日志，通過第一相似度計算以匹配所對應的第一標準問。具體而言，該匹配是以問答數(shù)據(jù)庫為基礎的。如前所述，問答數(shù)據(jù)庫中包括多個問答標準問，另外每個問答標準問關聯(lián)有語義表達式來表示該問答標準問。
[0167]第一相似度計算模塊306可

完整全部詳細技術資料下載

當前第3頁1 2 3 4 5

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

日志處理方法及裝置和問答信息處理方法及裝置的制造方法_3