午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號:39726641發(fā)布日期:2024-10-22 13:26閱讀:2來源:國知局
文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本技術(shù)涉及人工智能,尤其涉及文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。


背景技術(shù):

1、文本分類是自然語言處理應(yīng)用領(lǐng)域中最常見且最重要的任務(wù)類型?,F(xiàn)有的一種用于多層級標(biāo)簽多分類的文本分類模型在訓(xùn)練時,需要窮盡所有標(biāo)簽組合以涵蓋不同層級組合的所有情況,從而獲得一個能夠概括出所有標(biāo)簽的最大標(biāo)簽集合,并對該最大標(biāo)簽集合中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫。但是由于最大標(biāo)簽集合內(nèi)的標(biāo)簽數(shù)量過大,使得在獨(dú)熱編碼改寫后的分類預(yù)測向量的向量長度較長,進(jìn)而增加了文本分類模型的在訓(xùn)練時的計(jì)算復(fù)雜度,降低了文本分類模型的訓(xùn)練效率。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有的文本分類模型的訓(xùn)練效率低的技術(shù)問題。

2、第一方面,本技術(shù)提供一種文本分類模型的訓(xùn)練方法,包括:

3、獲取歷史文本數(shù)據(jù)以及歷史多層級標(biāo)簽集,所述歷史多層級標(biāo)簽集包括n個層級標(biāo)簽組,所述層級標(biāo)簽組中包括至少一個類別的標(biāo)簽,且相鄰所述層級標(biāo)簽組中的標(biāo)簽之間具有層級關(guān)聯(lián)關(guān)系,其中n為大于1的整數(shù);

4、獲取各個所述層級標(biāo)簽組中同類別標(biāo)簽的標(biāo)簽數(shù)量,并基于所述同類別標(biāo)簽的標(biāo)簽數(shù)量確定出各個所述層級標(biāo)簽組的最大標(biāo)簽數(shù)量;

5、計(jì)算n個所述層級標(biāo)簽組中的最大標(biāo)簽數(shù)量的總和,并將所述最大標(biāo)簽數(shù)量的總和確定為分類預(yù)測向量的向量長度;

6、基于確定出的所述分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫;

7、基于所述歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集生成訓(xùn)練樣本;

8、采用所述訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型。

9、在一種可能的設(shè)計(jì)中,所述基于確定出的所述分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫,包括:

10、將所述分類預(yù)測向量按照所述分類預(yù)測向量的向量長度分割為n個編碼區(qū)域,其中,n個所述編碼區(qū)域的向量長度與n個所述層級標(biāo)簽組中的最大標(biāo)簽數(shù)量相匹配;

11、根據(jù)n個所述層級標(biāo)簽組中的標(biāo)簽之間層級關(guān)聯(lián)關(guān)系對n個所述編碼區(qū)域依次進(jìn)行獨(dú)熱編碼改寫。

12、在一種可能的設(shè)計(jì)中,所述根據(jù)n個所述層級標(biāo)簽組中的標(biāo)簽之間層級關(guān)聯(lián)關(guān)系對n個所述編碼區(qū)域依次進(jìn)行獨(dú)熱編碼改寫,包括:

13、根據(jù)n個所述層級標(biāo)簽組中的標(biāo)簽之間的層級關(guān)系,確定所述n個所述層級標(biāo)簽組中的母標(biāo)簽及各級子標(biāo)簽;

14、確定出所述母標(biāo)簽在第一個所述編碼區(qū)域的對應(yīng)編碼位置,并將第一個所述編碼區(qū)域的對應(yīng)編碼位置的數(shù)值改寫為第一數(shù)值,第一個所述編碼區(qū)域的其余編碼位置的數(shù)值均改寫為第二數(shù)值;

15、依次確定出所述各級子標(biāo)簽在其余所述編碼區(qū)域的對應(yīng)編碼位置,并將其余所述編碼區(qū)域的對應(yīng)編碼位置的數(shù)值改寫為第一數(shù)值,其余所述編碼區(qū)域的其余編碼位置的數(shù)值均改寫為第二數(shù)值。

16、在一種可能的設(shè)計(jì)中,所述采用所述訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型,包括:

17、對n個所述編碼區(qū)域分別利用損失函數(shù)進(jìn)行損失值計(jì)算,以得出n個所述編碼區(qū)域的損失值;

18、將n個所述編碼區(qū)域的損失值進(jìn)行加權(quán)處理,以確定出目標(biāo)損失值;

19、響應(yīng)于確定所述目標(biāo)損失值小于預(yù)設(shè)損失閾值,則確定已將所述初始文本分類模型訓(xùn)練至收斂。

20、在一種可能的設(shè)計(jì)中,所述將n個所述編碼區(qū)域的損失值進(jìn)行加權(quán)處理,包括:

21、獲取n個所述編碼區(qū)域的向量長度與所述分類預(yù)測向量的向量長度的比值;

22、將n個所述比值對應(yīng)確定為n個所述編碼區(qū)域的加權(quán)系數(shù),并采用所述加權(quán)系數(shù)對n個所述編碼區(qū)域的損失值進(jìn)行加權(quán)處理。

23、在一種可能的設(shè)計(jì)中,所述對n個所述編碼區(qū)域分別利用損失函數(shù)進(jìn)行損失值計(jì)算,以得出n個所述編碼區(qū)域的損失值,包括:

24、獲取第一編碼區(qū)域的預(yù)測概率最大值所對應(yīng)的目標(biāo)標(biāo)簽;

25、根據(jù)所述目標(biāo)標(biāo)簽以及相鄰所述層級標(biāo)簽組中的標(biāo)簽之間的層級關(guān)聯(lián)關(guān)系,確定出第二編碼區(qū)域中與所述目標(biāo)標(biāo)簽具有層級關(guān)聯(lián)關(guān)系的子目標(biāo)標(biāo)簽組,且所述子目標(biāo)標(biāo)簽組中的標(biāo)簽為所述目標(biāo)標(biāo)簽的子標(biāo)簽;

26、根據(jù)所述子目標(biāo)標(biāo)簽組中的標(biāo)簽數(shù)量確定出所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍;

27、獲取第二編碼區(qū)域中的預(yù)測概率最大值所處的向量位置,并判斷所述預(yù)測概率最大值所處的向量位置是否位于所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍內(nèi);

28、響應(yīng)于確定所述預(yù)測概率最大值所處的向量位置位于所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍內(nèi),則以所述預(yù)測概率最大值作為預(yù)測結(jié)果進(jìn)行損失值計(jì)算,以得出第二編碼區(qū)域的損失值。

29、在一種可能的設(shè)計(jì)中,還包括:

30、響應(yīng)于確定所述預(yù)測概率最大值所處的向量位置位于所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍之外,則以所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍內(nèi)的最大預(yù)測概率值作為預(yù)測結(jié)果進(jìn)行損失值計(jì)算,以得出第二編碼區(qū)域的損失值。

31、在一種可能的設(shè)計(jì)中,基于所述歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集生成訓(xùn)練樣本,包括:

32、對所述歷史文本數(shù)據(jù)進(jìn)行語句分割并采用向量化轉(zhuǎn)換技術(shù)將所述歷史文本數(shù)據(jù)轉(zhuǎn)為向量化樣本;

33、將所述向量化樣本與獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行對應(yīng)標(biāo)注;

34、基于所述標(biāo)注結(jié)果生成訓(xùn)練樣本。

35、第二方面,本技術(shù)提供一種文本分類模型的訓(xùn)練裝置,包括:

36、獲取模塊,用于獲取歷史文本數(shù)據(jù)以及歷史多層級標(biāo)簽集,所述歷史多層級標(biāo)簽集包括n個層級標(biāo)簽組,所述層級標(biāo)簽組中包括至少一個類別的標(biāo)簽,且相鄰所述層級標(biāo)簽組中的標(biāo)簽之間具有層級關(guān)聯(lián)關(guān)系,其中n為大于1的整數(shù);

37、獲取模塊,還用于獲取各個所述層級標(biāo)簽組中同類別標(biāo)簽的標(biāo)簽數(shù)量,并基于所述同類別標(biāo)簽的標(biāo)簽數(shù)量確定出各個所述層級標(biāo)簽組的最大標(biāo)簽數(shù)量;

38、計(jì)算模塊,用于計(jì)算n個所述層級標(biāo)簽組中的最大標(biāo)簽數(shù)量的總和,并將所述最大標(biāo)簽數(shù)量的總和確定為分類預(yù)測向量的向量長度;

39、確定模塊,用于基于確定出的所述分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫;

40、生成模塊,用于基于所述歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集生成訓(xùn)練樣本;

41、訓(xùn)練模塊,用于采用所述訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型。

42、第三方面,本技術(shù)提供一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲器;

43、所述存儲器存儲計(jì)算機(jī)執(zhí)行指令;

44、所述處理器執(zhí)行所述存儲器存儲的計(jì)算機(jī)執(zhí)行指令,以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的方法。

45、第四方面,本技術(shù)提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實(shí)現(xiàn)如第一方面任一項(xiàng)所述的方法。

46、第五方面,本技術(shù)提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)第一方面任一項(xiàng)所述的方法。

47、本技術(shù)提供的文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,通過獲取歷史文本數(shù)據(jù)以及歷史多層級標(biāo)簽集,歷史多層級標(biāo)簽集包括n個層級標(biāo)簽組,層級標(biāo)簽組中包括至少一個類別的標(biāo)簽,且相鄰層級標(biāo)簽組中的標(biāo)簽之間具有層級關(guān)聯(lián)關(guān)系,其中n為大于1的整數(shù);獲取各個層級標(biāo)簽組中同類別標(biāo)簽的標(biāo)簽數(shù)量,并基于同類別標(biāo)簽的標(biāo)簽數(shù)量確定出各個層級標(biāo)簽組的最大標(biāo)簽數(shù)量;計(jì)算n個層級標(biāo)簽組中的最大標(biāo)簽數(shù)量的總和,并將最大標(biāo)簽數(shù)量的總和確定為分類預(yù)測向量的向量長度;基于確定出的分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫;基于歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的歷史多層級標(biāo)簽集生成訓(xùn)練樣本;采用訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型??芍?,利用本技術(shù)的方法確定的分類預(yù)測向量的向量長度小于現(xiàn)有的窮盡法得出的分類預(yù)測向量的長度,從而,能夠有效降低訓(xùn)練初始文本分類模型時的計(jì)算復(fù)雜度,有效提高初始文本分類模型的訓(xùn)練效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1