午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法及系統(tǒng)

文檔序號(hào):39719733發(fā)布日期:2024-10-22 13:08閱讀:2來源:國(guó)知局
一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法及系統(tǒng)

本發(fā)明涉及強(qiáng)化學(xué)習(xí)和序列推薦,尤其是涉及一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法及系統(tǒng)。


背景技術(shù):

1、隨著spotify、netflix和amazon?prime等流媒體服務(wù)的廣泛使用,序列推薦系統(tǒng)近年來受到了廣泛關(guān)注,與傳統(tǒng)推薦系統(tǒng)將推薦視為預(yù)測(cè)任務(wù)不同,sr將推薦任務(wù)設(shè)定為一個(gè)序列決策過程。在這個(gè)過程中,系統(tǒng)基于用戶的歷史交互數(shù)據(jù)生成推薦,每一個(gè)推薦決策都考慮了用戶之前的行為和偏好,目標(biāo)是在探索用戶興趣變化的同時(shí),利用學(xué)習(xí)到的偏好模式,提供個(gè)性化且高效的推薦,從而優(yōu)化整個(gè)推薦序列的效果。

2、實(shí)現(xiàn)序列推薦的一種經(jīng)典方法是基于隱語義模型,如矩陣分解這些基于mf的模型假設(shè)用戶的偏好是靜態(tài)的,即它們沒有對(duì)用戶偏好的時(shí)間依賴性進(jìn)行建模。而現(xiàn)代序列推薦系統(tǒng)的關(guān)鍵優(yōu)勢(shì)在于能夠捕捉用戶偏好的動(dòng)態(tài)變化,并通過分析用戶的行為序列來優(yōu)化推薦結(jié)果,由于強(qiáng)化學(xué)習(xí)在動(dòng)態(tài)環(huán)境下的決策和長(zhǎng)期規(guī)劃方面的巨大潛力,最近一些技術(shù)將強(qiáng)化學(xué)習(xí)模型引入到序列推薦系統(tǒng)中。

3、應(yīng)用強(qiáng)化學(xué)習(xí)的序列推薦系統(tǒng)也面臨諸多問題,首先,由于離線訓(xùn)練數(shù)據(jù)的局限性,模型只能接觸到有限的用戶行為模式,導(dǎo)致其狀態(tài)空間稀疏,而且,這種數(shù)據(jù)固化的問題限制了模型的泛化能力,使其在面對(duì)未見過的情況時(shí)表現(xiàn)出適應(yīng)性不足。其次,用戶與項(xiàng)目之間的交互數(shù)據(jù)往往稀疏且有限,導(dǎo)致模型在捕捉用戶偏好時(shí)面臨信息不足的問題。這種數(shù)據(jù)稀疏性不僅使得模型在理解和預(yù)測(cè)用戶需求時(shí)面臨挑戰(zhàn),還限制了強(qiáng)化學(xué)習(xí)算法在訓(xùn)練過程中進(jìn)行探索和優(yōu)化推薦策略的能力。這兩個(gè)問題綜合起來,不僅降低了用戶體驗(yàn),還削弱了系統(tǒng)的整體效率,現(xiàn)階段需要一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法及系統(tǒng)。


技術(shù)實(shí)現(xiàn)思路

1、為了解決強(qiáng)化學(xué)習(xí)的序列推薦系統(tǒng)中存在的狀態(tài)空間稀疏、數(shù)據(jù)稀疏以及泛化能力不足的問題,本發(fā)明提供一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法及系統(tǒng)。

2、第一方面,本發(fā)明提供的一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法,采用如下的技術(shù)方案:

3、一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法,包括:

4、獲取項(xiàng)目的知識(shí)圖譜數(shù)據(jù)并按照時(shí)間戳對(duì)知識(shí)圖譜數(shù)據(jù)進(jìn)行排序,得到交互序列;

5、根據(jù)交互序列和項(xiàng)目分布構(gòu)建序列增強(qiáng)模型,包括構(gòu)建序列增強(qiáng)層、構(gòu)建知識(shí)感知增強(qiáng)層和構(gòu)建獎(jiǎng)勵(lì)層;

6、利用構(gòu)建完成的序列增強(qiáng)模型結(jié)合雙重狀態(tài)增強(qiáng)機(jī)制,包括結(jié)合序列增強(qiáng)層、知識(shí)感知增強(qiáng)層和獎(jiǎng)勵(lì)層的輸出向量;

7、將序列增強(qiáng)模型的輸出輸入至馬爾可夫決策框架,通過狀態(tài)轉(zhuǎn)移概率來更新模型狀態(tài);

8、對(duì)序列增強(qiáng)模型進(jìn)行模型訓(xùn)練,包括利用adam優(yōu)化器進(jìn)行模型優(yōu)化;

9、根據(jù)訓(xùn)練完成的序列增強(qiáng)模型,對(duì)用戶進(jìn)行實(shí)時(shí)推薦。

10、進(jìn)一步地,所述獲取項(xiàng)目的知識(shí)圖譜數(shù)據(jù)并按照時(shí)間戳對(duì)知識(shí)圖譜數(shù)據(jù)進(jìn)行排序,包括從具有不同域和稀疏級(jí)別的三個(gè)電子商務(wù)推薦數(shù)據(jù)集中獲取數(shù)據(jù),即項(xiàng)目的知識(shí)圖譜信息,根據(jù)時(shí)間戳對(duì)每個(gè)用戶的記錄進(jìn)行排序,形成交互序列,將每個(gè)序列的最后一項(xiàng)作為下一推薦任務(wù)的測(cè)試數(shù)據(jù),將剩余的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。

11、進(jìn)一步地,所述構(gòu)建序列增強(qiáng)層,包括基于獲取的交互序列進(jìn)行增添、刪除和截?cái)嗖僮?,其中,截?cái)嗖僮靼ńo定序列長(zhǎng)度和剪切率,對(duì)于原始序列,選定一個(gè)截?cái)辔恢蒙尚碌男蛄?,?jì)算所有子序列的時(shí)間間隔的標(biāo)準(zhǔn)差,從中選出標(biāo)準(zhǔn)差最小的子序列完成序列增強(qiáng)操作。

12、進(jìn)一步地,所述構(gòu)建序列增強(qiáng)層,還包括將增強(qiáng)后的序列輸入到transformer編碼器中進(jìn)行特征提取,利用項(xiàng)目嵌入矩陣將高維項(xiàng)目表示投影至低維密集向量,通過可學(xué)習(xí)的位置嵌入捕獲序列的位置特征,將項(xiàng)目嵌入和位置嵌入相加得到輸入,利用自注意力機(jī)制和多頭自注意力機(jī)制捕捉序列中項(xiàng)目之間的復(fù)雜依賴關(guān)系,通過位置嵌入和項(xiàng)目嵌入的結(jié)合以及gelu激活函數(shù)的平滑處理,提升特征的質(zhì)量和表達(dá)能力,最后,采用帶有門控循環(huán)單元的循環(huán)神經(jīng)網(wǎng)絡(luò)聚合,得到增強(qiáng)序列的狀態(tài)表示向量,以捕捉用戶基于增強(qiáng)序列的偏好特征。

13、進(jìn)一步地,所述構(gòu)建知識(shí)感知增強(qiáng)層,包括利用知識(shí)圖譜推測(cè)當(dāng)前用戶的偏好,通過transe的方法得到項(xiàng)目的嵌入向量,并使用平均池化方法聚合用戶歷史交互中項(xiàng)目的嵌入向量,得到反映用戶在交互歷史中的知識(shí)特征的向量,同時(shí),利用知識(shí)圖譜的多跳行為,以當(dāng)前偏好與歷史知識(shí)圖譜作為輸入,通過多層感知器預(yù)測(cè)未來步的用戶偏好,進(jìn)一步豐富用戶的狀態(tài)表示。

14、進(jìn)一步地,所述構(gòu)建獎(jiǎng)勵(lì)層,包括采用雙獎(jiǎng)勵(lì)策略,將獎(jiǎng)勵(lì)分為序列獎(jiǎng)勵(lì)和知識(shí)感知獎(jiǎng)勵(lì),序列獎(jiǎng)勵(lì)利用blue度量進(jìn)行序列獎(jiǎng)勵(lì)推薦,關(guān)注預(yù)測(cè)序列和用戶實(shí)際交互序列之間的匹配程度,知識(shí)圖譜獎(jiǎng)勵(lì)通過transe的方法進(jìn)行項(xiàng)目聚合,獲得子序列的特征向量表示,采用余弦相似度計(jì)算實(shí)際子序列和預(yù)測(cè)子序列之間的相似程度,關(guān)注推薦結(jié)果與用戶偏好物品的知識(shí)特征之間的匹配程度。

15、進(jìn)一步地,所述通過狀態(tài)轉(zhuǎn)移概率來更新模型狀態(tài),包括根據(jù)增強(qiáng)序列和歷史交互項(xiàng)目的知識(shí)圖譜獲取當(dāng)前狀態(tài),利用智能體根據(jù)當(dāng)前狀態(tài)從項(xiàng)目候選集中選擇項(xiàng)目進(jìn)行推薦,并將推薦的項(xiàng)目標(biāo)記為動(dòng)作,利用softmax函數(shù)計(jì)算選擇每個(gè)項(xiàng)目的概率,根據(jù)當(dāng)前狀態(tài)和動(dòng)作,通過狀態(tài)轉(zhuǎn)移概率函數(shù)計(jì)算轉(zhuǎn)移到下一個(gè)狀態(tài)的概率,其中,計(jì)算選擇每個(gè)項(xiàng)目的概率公式為:

16、,

17、其中,表示為在時(shí)間步t時(shí)智能體采取的動(dòng)作,在時(shí)間步t時(shí)的狀態(tài),表示為第j項(xiàng)的嵌入向量,表示為雙線性矩陣的參數(shù),表示為狀態(tài)的嵌入向量。

18、第二方面,一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦系統(tǒng),包括:

19、數(shù)據(jù)獲取模塊,被配置為:獲取項(xiàng)目的知識(shí)圖譜數(shù)據(jù)并按照時(shí)間戳對(duì)知識(shí)圖譜數(shù)據(jù)進(jìn)行排序,得到交互序列;

20、預(yù)處理模塊,被配置為:根據(jù)交互序列和項(xiàng)目分布構(gòu)建序列增強(qiáng)模型,包括構(gòu)建序列增強(qiáng)層、構(gòu)建知識(shí)感知增強(qiáng)層和構(gòu)建獎(jiǎng)勵(lì)層;

21、轉(zhuǎn)換模塊,被配置為:利用構(gòu)建完成的序列增強(qiáng)模型結(jié)合雙重狀態(tài)增強(qiáng)機(jī)制,包括結(jié)合序列增強(qiáng)層、知識(shí)感知增強(qiáng)層和獎(jiǎng)勵(lì)層的輸出向量;

22、模型模塊,被配置為:將序列增強(qiáng)模型的輸出輸入至馬爾可夫決策框架,通過狀態(tài)轉(zhuǎn)移概率來更新模型狀態(tài);

23、特征提取模塊,被配置為:對(duì)序列增強(qiáng)模型進(jìn)行模型訓(xùn)練,包括利用adam優(yōu)化器進(jìn)行模型優(yōu)化;

24、變換模塊,被配置為:根據(jù)訓(xùn)練完成的序列增強(qiáng)模型,對(duì)用戶進(jìn)行實(shí)時(shí)推薦。

25、第三方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有多條指令,所述指令適于由終端設(shè)備的處理器加載并執(zhí)行所述的一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法。

26、第四方面,本發(fā)明提供一種終端設(shè)備,包括處理器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),處理器用于實(shí)現(xiàn)各指令;計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)多條指令,所述指令適于由處理器加載并執(zhí)行所述的一種基于雙重狀態(tài)增強(qiáng)的強(qiáng)化學(xué)習(xí)序列推薦方法。

27、綜上所述,本發(fā)明具有如下的有益技術(shù)效果:

28、1、本發(fā)明通過構(gòu)建序列增強(qiáng)層,對(duì)獲取的交互序列進(jìn)行增添、刪除和截?cái)嗖僮?,避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)序列推薦中依賴離線數(shù)據(jù)集導(dǎo)致的狀態(tài)固化問題,將增強(qiáng)后的序列輸入到?transformer?編碼器中進(jìn)行特征提取,利用自注意力機(jī)制和多頭自注意力機(jī)制捕捉序列中項(xiàng)目之間的復(fù)雜依賴關(guān)系,再通過帶有門控循環(huán)單元的循環(huán)神經(jīng)網(wǎng)絡(luò)聚合,得到增強(qiáng)序列的狀態(tài)表示向量,能夠更好地捕捉序列中的全局和局部上下文信息,豐富狀態(tài)表示,緩解狀態(tài)空間稀疏問題。

29、2、本發(fā)明構(gòu)建知識(shí)感知增強(qiáng)層,利用知識(shí)圖譜推測(cè)當(dāng)前用戶的偏好。每個(gè)項(xiàng)目關(guān)聯(lián)著知識(shí)圖譜中的一個(gè)實(shí)體,通過transe的方法得到嵌入向量,使用平均池化方法聚合用戶歷史交互中項(xiàng)目的嵌入向量,得到當(dāng)前偏好的知識(shí)特征,知識(shí)圖譜中的實(shí)體和關(guān)系信息補(bǔ)充了用戶的背景知識(shí),豐富了數(shù)據(jù)來源,緩解了數(shù)據(jù)稀疏問題。

30、3、本發(fā)明利用構(gòu)建完成的序列增強(qiáng)模型結(jié)合雙重狀態(tài)增強(qiáng)機(jī)制,包括結(jié)合序列增強(qiáng)層、知識(shí)感知增強(qiáng)層和獎(jiǎng)勵(lì)層的輸出向量,這種多信息的融合使得狀態(tài)表示更加豐富和多樣化,不僅能夠捕捉到增強(qiáng)序列中的全局和局部上下文信息,還能整合來自知識(shí)圖譜的外部知識(shí)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1