一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法及系統(tǒng)與流程

文檔序號：39706596發(fā)布日期：2024-10-22 12:51閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)處理，尤其是一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法及系統(tǒng)。

背景技術(shù)：

1、隨著信息技術(shù)的迅猛發(fā)展，數(shù)據(jù)量呈爆炸式增長，特別是人口數(shù)據(jù)的采集和處理日益成為研究和決策的重要基礎(chǔ)。通過對人口大數(shù)據(jù)的深入挖掘和分析，可以揭示人口結(jié)構(gòu)、遷移模式、健康狀況、消費行為等方面的規(guī)律和趨勢，從而可以為制定科學(xué)合理的人口措施、優(yōu)化公共資源配置、提升治理能力提供有力支撐。此外，人口大數(shù)據(jù)應(yīng)用的廣泛普及也為學(xué)術(shù)研究提供了豐富的素材，有助于推動社會科學(xué)、經(jīng)濟學(xué)、公共衛(wèi)生等領(lǐng)域的研究進(jìn)展。構(gòu)建一個系統(tǒng)化、智能化的知識系統(tǒng)，能夠有效整合和分析海量人口數(shù)據(jù)，不僅提高了數(shù)據(jù)利用效率，還促進(jìn)了數(shù)據(jù)資源的共享與協(xié)同，提升了決策的科學(xué)性和精準(zhǔn)度。同時，還可以為企業(yè)市場分析、產(chǎn)品定位及服務(wù)創(chuàng)新提供重要參考。

2、然而，現(xiàn)有的人口大數(shù)據(jù)挖掘方法僅僅通過獲取的人口數(shù)據(jù)本身特征進(jìn)行分析，該方式具有一定的局限性，分析所得數(shù)據(jù)屬性無法突破數(shù)據(jù)本身特征的約束范圍，例如通過經(jīng)濟數(shù)據(jù)對一個地區(qū)某個季度的消費特征進(jìn)行分析，現(xiàn)有方法只能挖掘出在經(jīng)濟數(shù)據(jù)本身涵蓋范圍內(nèi)的結(jié)果（如消費水平高低、各類商品購買占比、支出占收入占比等），無法獲取其他維度的分析結(jié)果（比如對于某種類型商品購買的原因等）。

技術(shù)實現(xiàn)思路

1、為解決上述現(xiàn)有技術(shù)問題，本發(fā)明提供一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法及系統(tǒng)。

2、第一方面，本技術(shù)實施例提供一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法，包括：獲取數(shù)據(jù)集；其中，所述數(shù)據(jù)集中的數(shù)據(jù)與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián)；構(gòu)建與所述數(shù)據(jù)集中的每個數(shù)據(jù)對應(yīng)的知識圖；針對所述數(shù)據(jù)集中的任一數(shù)據(jù)，包括：對該數(shù)據(jù)中的內(nèi)容進(jìn)行實體識別，確定每個實體的實體類型；調(diào)用與每個實體類型對應(yīng)的多個挖掘問題；基于每個實體、每個實體類型對應(yīng)的多個挖掘問題以及大語言模型的回答結(jié)果，生成與每個實體對應(yīng)的實體挖掘數(shù)據(jù)；采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼，生成編碼結(jié)果；對存在實體重合的編碼結(jié)果進(jìn)行句法依存分析，基于句法依存分析結(jié)果將重合的實體進(jìn)行連接，以得到該數(shù)據(jù)對應(yīng)的知識圖；其中，該數(shù)據(jù)對應(yīng)的知識圖中的節(jié)點為實體，節(jié)點的值為該實體的實體挖掘數(shù)據(jù)對應(yīng)的編碼結(jié)果；存在實體重合的節(jié)點相互連接；將每個數(shù)據(jù)對應(yīng)的知識圖進(jìn)行存儲，構(gòu)建形成知識庫；其中，所述知識庫被調(diào)用后，用于輸出與人口數(shù)據(jù)挖掘任務(wù)對應(yīng)的數(shù)據(jù)分析結(jié)果。

3、可選地，所述采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼，生成編碼結(jié)果，包括：采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼，保留編碼過程中的預(yù)設(shè)實體對應(yīng)的編碼數(shù)據(jù)，得到編碼結(jié)果；其中，所述預(yù)設(shè)實體為實體的類型為人名和/或組織的實體，且所述預(yù)設(shè)實體為位置處于前預(yù)設(shè)范圍的實體。

4、可選地，所述前預(yù)設(shè)范圍為前1/2中的任一范圍。

5、可選地，所述對存在實體重合的編碼結(jié)果進(jìn)行句法依存分析，包括：將重合實體i的上下文向量和自身的嵌入值進(jìn)行連接，獲取第一標(biāo)記數(shù)據(jù)；將所述第一標(biāo)記數(shù)據(jù)傳入雙向長短期記憶網(wǎng)絡(luò)模型，獲得模型中間層的輸出結(jié)果；將該輸出結(jié)果輸入至多層感知機，獲取重合實體i對應(yīng)的依存關(guān)系集合；將重合實體j的上下文向量和自身的嵌入值進(jìn)行連接，獲取第二標(biāo)記數(shù)據(jù)；將所述第二標(biāo)記數(shù)據(jù)傳入所述雙向長短期記憶網(wǎng)絡(luò)模型，獲得模型中間層的輸出結(jié)果；將該輸出結(jié)果輸入至所述多層感知機，獲取重合實體j對應(yīng)的依存關(guān)系集合；基于所述重合實體i對應(yīng)的依存關(guān)系集合和所述重合實體j對應(yīng)的依存關(guān)系集合，確定所述重合實體i和所述重合實體j的句法依存分析結(jié)果。

6、可選地，所述基于所述重合實體i對應(yīng)的依存關(guān)系集合和所述重合實體j對應(yīng)的依存關(guān)系集合，確定所述重合實體i和所述重合實體j的句法依存分析結(jié)果，包括：基于所述重合實體i和所述重合實體j的依存關(guān)系集合，確定所述重合實體i和所述重合實體j的先驗依存得分；基于所述重合實體i和所述重合實體j的依存關(guān)系集合，確定所述重合實體i和所述重合實體j的后驗依存得分；將所述重合實體i和所述重合實體j的先驗依次得分及所述重合實體i和所述重合實體j的后驗依存得分中最高的一個作為所述重合實體i和所述重合實體j的句法依存分析結(jié)果。

7、可選地，所述獲取數(shù)據(jù)集，包括：采用網(wǎng)絡(luò)爬蟲、公開的數(shù)據(jù)接口和/或線上問卷的方式，獲取第一數(shù)據(jù)；其中，所述第一數(shù)據(jù)的類型包括：新聞數(shù)據(jù)、報告數(shù)據(jù)、問卷數(shù)據(jù)、交易數(shù)據(jù)、郵件數(shù)據(jù)、社交數(shù)據(jù)中的至少一種；對所述第一數(shù)據(jù)進(jìn)行預(yù)處理，構(gòu)建所述數(shù)據(jù)集；其中，所述預(yù)處理包括數(shù)據(jù)清洗、標(biāo)準(zhǔn)化以及數(shù)據(jù)去重中的至少一種。

8、可選地，所述第一數(shù)據(jù)采用json格式進(jìn)行分類存儲；其中，json格式包括：標(biāo)題和數(shù)據(jù)內(nèi)容；所述標(biāo)題用于區(qū)分所述數(shù)據(jù)集中的不同數(shù)據(jù)；采用所述第一數(shù)據(jù)的類型進(jìn)行分類存儲；所述將每個數(shù)據(jù)對應(yīng)的知識圖進(jìn)行存儲，構(gòu)建形成知識庫，包括：基于所述第一數(shù)據(jù)的類型，將該第一數(shù)據(jù)對應(yīng)的知識圖進(jìn)行分類存儲。

9、可選地，在所述構(gòu)建形成知識庫之后，所述方法還包括：采用網(wǎng)絡(luò)爬蟲、公開的數(shù)據(jù)接口和/或線上問卷的方式，獲取第二數(shù)據(jù)；其中，所述第二數(shù)據(jù)的類型包括：新聞數(shù)據(jù)、報告數(shù)據(jù)、問卷數(shù)據(jù)、交易數(shù)據(jù)、郵件數(shù)據(jù)、社交數(shù)據(jù)中的至少一種；所述第二數(shù)據(jù)的產(chǎn)生時間節(jié)點在所述第一數(shù)據(jù)的產(chǎn)生時間節(jié)點之后；對所述第二數(shù)據(jù)進(jìn)行預(yù)處理，并將所述第二數(shù)據(jù)更新至所述數(shù)據(jù)集；獲取所述第二數(shù)據(jù)對應(yīng)的知識圖，將所述第二數(shù)據(jù)對應(yīng)的知識圖，更新至所述知識庫。

10、可選地，所述實體類型包括：物品、地點、組織、人名；所述基于每個實體、每個實體類型對應(yīng)的多個挖掘問題以及大語言模型的回答結(jié)果，生成與每個實體對應(yīng)的實體挖掘數(shù)據(jù)，包括：s1：將實體以及該實體的實體類型對應(yīng)的一個挖掘問題輸入至所述大語言模型中，得到該實體在當(dāng)前挖掘問題下的回答結(jié)果；重復(fù)步驟s1，直至獲取每個實體對應(yīng)的多個挖掘問題的回答結(jié)果后，輸出每個實體對應(yīng)的實體挖掘數(shù)據(jù)。

11、第二方面，本技術(shù)提供一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建系統(tǒng)，包括：獲取模塊，用于獲取數(shù)據(jù)集；其中，所述數(shù)據(jù)集中的數(shù)據(jù)與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián)；知識圖構(gòu)建模塊，用于構(gòu)建與所述數(shù)據(jù)集中的每個數(shù)據(jù)對應(yīng)的知識圖；針對所述數(shù)據(jù)集中的任一數(shù)據(jù)，包括：對該數(shù)據(jù)中的內(nèi)容進(jìn)行實體識別，確定每個實體的實體類型；調(diào)用與每個實體類型對應(yīng)的多個挖掘問題；基于每個實體、每個實體類型對應(yīng)的多個挖掘問題以及大語言模型的回答結(jié)果，生成與每個實體對應(yīng)的實體挖掘數(shù)據(jù)；采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼，生成編碼結(jié)果；對存在實體重合的編碼結(jié)果進(jìn)行句法依存分析，基于句法依存分析結(jié)果將重合的實體進(jìn)行連接，以得到該數(shù)據(jù)對應(yīng)的知識圖；其中，該數(shù)據(jù)對應(yīng)的知識圖中的節(jié)點為實體，節(jié)點的值為該實體的實體挖掘數(shù)據(jù)對應(yīng)的編碼結(jié)果；存在實體重合的節(jié)點相互連接；知識庫構(gòu)建模塊，用于將每個數(shù)據(jù)對應(yīng)的知識圖進(jìn)行存儲，構(gòu)建形成知識庫；其中，所述知識庫被調(diào)用后，用于輸出與人口數(shù)據(jù)挖掘任務(wù)對應(yīng)的數(shù)據(jù)分析結(jié)果。

12、本發(fā)明的有益效果包括：

13、本技術(shù)提供的用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法在知識庫的構(gòu)建過程中，首先，獲取與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián)的數(shù)據(jù)來構(gòu)建數(shù)據(jù)集，然后，針對該數(shù)據(jù)集中的任一任務(wù)進(jìn)行挖掘分析。該挖掘分析的過程涉及實體的識別，通過設(shè)定的與每個實體類型對應(yīng)的挖掘問題，并結(jié)合大語言模型獲取與該實體相關(guān)聯(lián)的挖掘數(shù)據(jù)，通過句法依存分析，將重合的實體進(jìn)行連接，以得到該數(shù)據(jù)對應(yīng)的知識圖。該知識圖中則包含與該數(shù)據(jù)中的實體所對應(yīng)的更細(xì)致全面的信息，并不局限于數(shù)據(jù)本身或數(shù)據(jù)表面。也即，對于一個相同的數(shù)據(jù)，采用本技術(shù)的方式，能夠挖掘出該數(shù)據(jù)中與實體所對應(yīng)的更細(xì)致全面的信息，進(jìn)而能夠輔助人口數(shù)據(jù)挖掘任務(wù)，得到更高維度的分析結(jié)果。此外，本技術(shù)中，通過句法依存分析，將重合的實體進(jìn)行連接可以降低知識圖的復(fù)雜度，減少歧義。通過合并重合的實體，能夠構(gòu)建更為緊湊和清晰的依存關(guān)系樹，對于后續(xù)的輔助人口數(shù)據(jù)挖掘任務(wù)，提供更為準(zhǔn)確全面的分析。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：代幻成,康巖龍,王穎,葉健
技術(shù)所有人：四川三合力通科技發(fā)展集團(tuán)有限公司
我是此專利的發(fā)明人

上一篇：一種連續(xù)沖壓鋼片模裝置的制作方法
上一篇：一種液壓閥主閥導(dǎo)套的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法及系統(tǒng)與流程