本發(fā)明涉及數(shù)據(jù)處理,尤其是一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)量呈爆炸式增長,特別是人口數(shù)據(jù)的采集和處理日益成為研究和決策的重要基礎(chǔ)。通過對人口大數(shù)據(jù)的深入挖掘和分析,可以揭示人口結(jié)構(gòu)、遷移模式、健康狀況、消費行為等方面的規(guī)律和趨勢,從而可以為制定科學(xué)合理的人口措施、優(yōu)化公共資源配置、提升治理能力提供有力支撐。此外,人口大數(shù)據(jù)應(yīng)用的廣泛普及也為學(xué)術(shù)研究提供了豐富的素材,有助于推動社會科學(xué)、經(jīng)濟學(xué)、公共衛(wèi)生等領(lǐng)域的研究進(jìn)展。構(gòu)建一個系統(tǒng)化、智能化的知識系統(tǒng),能夠有效整合和分析海量人口數(shù)據(jù),不僅提高了數(shù)據(jù)利用效率,還促進(jìn)了數(shù)據(jù)資源的共享與協(xié)同,提升了決策的科學(xué)性和精準(zhǔn)度。同時,還可以為企業(yè)市場分析、產(chǎn)品定位及服務(wù)創(chuàng)新提供重要參考。
2、然而,現(xiàn)有的人口大數(shù)據(jù)挖掘方法僅僅通過獲取的人口數(shù)據(jù)本身特征進(jìn)行分析,該方式具有一定的局限性,分析所得數(shù)據(jù)屬性無法突破數(shù)據(jù)本身特征的約束范圍,例如通過經(jīng)濟數(shù)據(jù)對一個地區(qū)某個季度的消費特征進(jìn)行分析,現(xiàn)有方法只能挖掘出在經(jīng)濟數(shù)據(jù)本身涵蓋范圍內(nèi)的結(jié)果(如消費水平高低、各類商品購買占比、支出占收入占比等),無法獲取其他維度的分析結(jié)果(比如對于某種類型商品購買的原因等)。
技術(shù)實現(xiàn)思路
1、為解決上述現(xiàn)有技術(shù)問題,本發(fā)明提供一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法及系統(tǒng)。
2、第一方面,本技術(shù)實施例提供一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法,包括:獲取數(shù)據(jù)集;其中,所述數(shù)據(jù)集中的數(shù)據(jù)與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián);構(gòu)建與所述數(shù)據(jù)集中的每個數(shù)據(jù)對應(yīng)的知識圖;針對所述數(shù)據(jù)集中的任一數(shù)據(jù),包括:對該數(shù)據(jù)中的內(nèi)容進(jìn)行實體識別,確定每個實體的實體類型;調(diào)用與每個實體類型對應(yīng)的多個挖掘問題;基于每個實體、每個實體類型對應(yīng)的多個挖掘問題以及大語言模型的回答結(jié)果,生成與每個實體對應(yīng)的實體挖掘數(shù)據(jù);采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼,生成編碼結(jié)果;對存在實體重合的編碼結(jié)果進(jìn)行句法依存分析,基于句法依存分析結(jié)果將重合的實體進(jìn)行連接,以得到該數(shù)據(jù)對應(yīng)的知識圖;其中,該數(shù)據(jù)對應(yīng)的知識圖中的節(jié)點為實體,節(jié)點的值為該實體的實體挖掘數(shù)據(jù)對應(yīng)的編碼結(jié)果;存在實體重合的節(jié)點相互連接;將每個數(shù)據(jù)對應(yīng)的知識圖進(jìn)行存儲,構(gòu)建形成知識庫;其中,所述知識庫被調(diào)用后,用于輸出與人口數(shù)據(jù)挖掘任務(wù)對應(yīng)的數(shù)據(jù)分析結(jié)果。
3、可選地,所述采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼,生成編碼結(jié)果,包括:采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼,保留編碼過程中的預(yù)設(shè)實體對應(yīng)的編碼數(shù)據(jù),得到編碼結(jié)果;其中,所述預(yù)設(shè)實體為實體的類型為人名和/或組織的實體,且所述預(yù)設(shè)實體為位置處于前預(yù)設(shè)范圍的實體。
4、可選地,所述前預(yù)設(shè)范圍為前1/2中的任一范圍。
5、可選地,所述對存在實體重合的編碼結(jié)果進(jìn)行句法依存分析,包括:將重合實體i的上下文向量和自身的嵌入值進(jìn)行連接,獲取第一標(biāo)記數(shù)據(jù);將所述第一標(biāo)記數(shù)據(jù)傳入雙向長短期記憶網(wǎng)絡(luò)模型,獲得模型中間層的輸出結(jié)果;將該輸出結(jié)果輸入至多層感知機,獲取重合實體i對應(yīng)的依存關(guān)系集合;將重合實體j的上下文向量和自身的嵌入值進(jìn)行連接,獲取第二標(biāo)記數(shù)據(jù);將所述第二標(biāo)記數(shù)據(jù)傳入所述雙向長短期記憶網(wǎng)絡(luò)模型,獲得模型中間層的輸出結(jié)果;將該輸出結(jié)果輸入至所述多層感知機,獲取重合實體j對應(yīng)的依存關(guān)系集合;基于所述重合實體i對應(yīng)的依存關(guān)系集合和所述重合實體j對應(yīng)的依存關(guān)系集合,確定所述重合實體i和所述重合實體j的句法依存分析結(jié)果。
6、可選地,所述基于所述重合實體i對應(yīng)的依存關(guān)系集合和所述重合實體j對應(yīng)的依存關(guān)系集合,確定所述重合實體i和所述重合實體j的句法依存分析結(jié)果,包括:基于所述重合實體i和所述重合實體j的依存關(guān)系集合,確定所述重合實體i和所述重合實體j的先驗依存得分;基于所述重合實體i和所述重合實體j的依存關(guān)系集合,確定所述重合實體i和所述重合實體j的后驗依存得分;將所述重合實體i和所述重合實體j的先驗依次得分及所述重合實體i和所述重合實體j的后驗依存得分中最高的一個作為所述重合實體i和所述重合實體j的句法依存分析結(jié)果。
7、可選地,所述獲取數(shù)據(jù)集,包括:采用網(wǎng)絡(luò)爬蟲、公開的數(shù)據(jù)接口和/或線上問卷的方式,獲取第一數(shù)據(jù);其中,所述第一數(shù)據(jù)的類型包括:新聞數(shù)據(jù)、報告數(shù)據(jù)、問卷數(shù)據(jù)、交易數(shù)據(jù)、郵件數(shù)據(jù)、社交數(shù)據(jù)中的至少一種;對所述第一數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建所述數(shù)據(jù)集;其中,所述預(yù)處理包括數(shù)據(jù)清洗、標(biāo)準(zhǔn)化以及數(shù)據(jù)去重中的至少一種。
8、可選地,所述第一數(shù)據(jù)采用json格式進(jìn)行分類存儲;其中,json格式包括:標(biāo)題和數(shù)據(jù)內(nèi)容;所述標(biāo)題用于區(qū)分所述數(shù)據(jù)集中的不同數(shù)據(jù);采用所述第一數(shù)據(jù)的類型進(jìn)行分類存儲;所述將每個數(shù)據(jù)對應(yīng)的知識圖進(jìn)行存儲,構(gòu)建形成知識庫,包括:基于所述第一數(shù)據(jù)的類型,將該第一數(shù)據(jù)對應(yīng)的知識圖進(jìn)行分類存儲。
9、可選地,在所述構(gòu)建形成知識庫之后,所述方法還包括:采用網(wǎng)絡(luò)爬蟲、公開的數(shù)據(jù)接口和/或線上問卷的方式,獲取第二數(shù)據(jù);其中,所述第二數(shù)據(jù)的類型包括:新聞數(shù)據(jù)、報告數(shù)據(jù)、問卷數(shù)據(jù)、交易數(shù)據(jù)、郵件數(shù)據(jù)、社交數(shù)據(jù)中的至少一種;所述第二數(shù)據(jù)的產(chǎn)生時間節(jié)點在所述第一數(shù)據(jù)的產(chǎn)生時間節(jié)點之后;對所述第二數(shù)據(jù)進(jìn)行預(yù)處理,并將所述第二數(shù)據(jù)更新至所述數(shù)據(jù)集;獲取所述第二數(shù)據(jù)對應(yīng)的知識圖,將所述第二數(shù)據(jù)對應(yīng)的知識圖,更新至所述知識庫。
10、可選地,所述實體類型包括:物品、地點、組織、人名;所述基于每個實體、每個實體類型對應(yīng)的多個挖掘問題以及大語言模型的回答結(jié)果,生成與每個實體對應(yīng)的實體挖掘數(shù)據(jù),包括:s1:將實體以及該實體的實體類型對應(yīng)的一個挖掘問題輸入至所述大語言模型中,得到該實體在當(dāng)前挖掘問題下的回答結(jié)果;重復(fù)步驟s1,直至獲取每個實體對應(yīng)的多個挖掘問題的回答結(jié)果后,輸出每個實體對應(yīng)的實體挖掘數(shù)據(jù)。
11、第二方面,本技術(shù)提供一種用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建系統(tǒng),包括:獲取模塊,用于獲取數(shù)據(jù)集;其中,所述數(shù)據(jù)集中的數(shù)據(jù)與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián);知識圖構(gòu)建模塊,用于構(gòu)建與所述數(shù)據(jù)集中的每個數(shù)據(jù)對應(yīng)的知識圖;針對所述數(shù)據(jù)集中的任一數(shù)據(jù),包括:對該數(shù)據(jù)中的內(nèi)容進(jìn)行實體識別,確定每個實體的實體類型;調(diào)用與每個實體類型對應(yīng)的多個挖掘問題;基于每個實體、每個實體類型對應(yīng)的多個挖掘問題以及大語言模型的回答結(jié)果,生成與每個實體對應(yīng)的實體挖掘數(shù)據(jù);采用transformer模型對所述實體挖掘數(shù)據(jù)進(jìn)行編碼,生成編碼結(jié)果;對存在實體重合的編碼結(jié)果進(jìn)行句法依存分析,基于句法依存分析結(jié)果將重合的實體進(jìn)行連接,以得到該數(shù)據(jù)對應(yīng)的知識圖;其中,該數(shù)據(jù)對應(yīng)的知識圖中的節(jié)點為實體,節(jié)點的值為該實體的實體挖掘數(shù)據(jù)對應(yīng)的編碼結(jié)果;存在實體重合的節(jié)點相互連接;知識庫構(gòu)建模塊,用于將每個數(shù)據(jù)對應(yīng)的知識圖進(jìn)行存儲,構(gòu)建形成知識庫;其中,所述知識庫被調(diào)用后,用于輸出與人口數(shù)據(jù)挖掘任務(wù)對應(yīng)的數(shù)據(jù)分析結(jié)果。
12、本發(fā)明的有益效果包括:
13、本技術(shù)提供的用于人口數(shù)據(jù)挖掘的知識庫構(gòu)建方法在知識庫的構(gòu)建過程中,首先,獲取與人口數(shù)據(jù)挖掘任務(wù)相關(guān)聯(lián)的數(shù)據(jù)來構(gòu)建數(shù)據(jù)集,然后,針對該數(shù)據(jù)集中的任一任務(wù)進(jìn)行挖掘分析。該挖掘分析的過程涉及實體的識別,通過設(shè)定的與每個實體類型對應(yīng)的挖掘問題,并結(jié)合大語言模型獲取與該實體相關(guān)聯(lián)的挖掘數(shù)據(jù),通過句法依存分析,將重合的實體進(jìn)行連接,以得到該數(shù)據(jù)對應(yīng)的知識圖。該知識圖中則包含與該數(shù)據(jù)中的實體所對應(yīng)的更細(xì)致全面的信息,并不局限于數(shù)據(jù)本身或數(shù)據(jù)表面。也即,對于一個相同的數(shù)據(jù),采用本技術(shù)的方式,能夠挖掘出該數(shù)據(jù)中與實體所對應(yīng)的更細(xì)致全面的信息,進(jìn)而能夠輔助人口數(shù)據(jù)挖掘任務(wù),得到更高維度的分析結(jié)果。此外,本技術(shù)中,通過句法依存分析,將重合的實體進(jìn)行連接可以降低知識圖的復(fù)雜度,減少歧義。通過合并重合的實體,能夠構(gòu)建更為緊湊和清晰的依存關(guān)系樹,對于后續(xù)的輔助人口數(shù)據(jù)挖掘任務(wù),提供更為準(zhǔn)確全面的分析。