午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

數(shù)據(jù)存儲方法和裝置與流程

文檔序號:11155638閱讀:464來源:國知局
數(shù)據(jù)存儲方法和裝置與制造工藝

本申請涉及計算機技術領域,具體涉及互聯(lián)網(wǎng)技術領域,尤其涉及數(shù)據(jù)存儲方法和裝置。



背景技術:

數(shù)據(jù)存儲是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸。在現(xiàn)有的數(shù)據(jù)存儲中,尤其是在財務、稅務領域的數(shù)據(jù)存儲過程中,通常根據(jù)業(yè)務的需要,首先人工定義好數(shù)據(jù)特征以及與數(shù)據(jù)特征相對應的數(shù)據(jù)類型而進行存儲,以便于后續(xù)的財務核算。

然而,現(xiàn)有的應用于財務、稅務領域的數(shù)據(jù)存儲系統(tǒng)首先缺乏對非結構化數(shù)據(jù)進行分析處理能力,其次,由于不同的財務核算系統(tǒng)之間存在較大的差異,根據(jù)不同的核算系統(tǒng),需要多次定義數(shù)據(jù)特征以及匹配規(guī)則來進行存儲,增加數(shù)據(jù)存儲的繁瑣度的同時,占用了大量的存儲空間,降低了數(shù)據(jù)的利用效率。



技術實現(xiàn)要素:

本申請的目的在于提出一種改進的數(shù)據(jù)存儲方法和裝置,來解決以上背景技術部分提到的技術問題。

第一方面,本申請?zhí)峁┝艘环N數(shù)據(jù)存儲方法,上述方法包括:獲取待存儲的數(shù)據(jù)的特征信息,上述特征信息包括以下至少一項:上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、指示上述數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征信息、關鍵詞;將上述特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量,上述數(shù)據(jù)分類模型基于預先利用訓練樣本以有監(jiān)督方式進行訓練而生成,上述訓練樣本包括:已存儲數(shù)據(jù)的上述特征信息、經(jīng)標注的上述已存儲數(shù)據(jù)的類型;將上述數(shù)據(jù)存儲在上述類型對應的存儲區(qū)域。

在一些實施例中,上述數(shù)據(jù)分類模型為決策樹模型。

在本實施例的一些可選的實現(xiàn)方式中,上述數(shù)據(jù)為數(shù)據(jù)表中的數(shù)據(jù),上述特征信息包括:上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、統(tǒng)計特征信息;以及將上述特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量包括:生成特征信息對應的數(shù)據(jù)表特征向量,上述數(shù)據(jù)表特征向量包括:表示上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱的分量、表示統(tǒng)計特征信息的分量;生成依次包含上述數(shù)據(jù)表特征向量和零向量的數(shù)據(jù)分類模型的第一輸入向量;將上述第一輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量。

在一些實施例中,上述統(tǒng)計特征信息包括:指示上述數(shù)據(jù)表項之間的關聯(lián)關系的關聯(lián)信息、上述數(shù)據(jù)的長度的平均值、上述數(shù)據(jù)的長度的最大值、上述數(shù)據(jù)的長度的最小值、上述數(shù)據(jù)中的字符的類型。

在本實施例的一些可選的實現(xiàn)方式中,上述數(shù)據(jù)為文本數(shù)據(jù),上述特征信息為關鍵詞;以及將上述特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量包括:生成特征信息對應的關鍵詞特征向量,其中,關鍵詞特征向量中每一個關鍵詞對應一個分量;生成依次包含零向量和上述關鍵詞特征向量的數(shù)據(jù)分類模型的第二輸入向量;

在一些實施例中,將上述第二輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量。

第二方面,本申請?zhí)峁┝艘环N數(shù)據(jù)存儲裝置,上述裝置包括:獲取單元,配置用于獲取待存儲的數(shù)據(jù)的特征信息,上述特征信息包括以下至少一項:上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、指示上述數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征信息、關鍵詞;輸入單元,配置用于將上述特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量,上述數(shù)據(jù)分類模型基于預先利用訓練樣本以有監(jiān)督方式進行訓練而生成,上述訓練樣本包括:已存儲數(shù)據(jù)的上述特征信息、經(jīng)標注的上述已存儲數(shù)據(jù)的類型;存儲單元,配置用于將上述數(shù)據(jù)存儲在上述類型對應的存儲區(qū)域。

在一些實施例中,上述數(shù)據(jù)分類模型為決策樹模型。

在一些實施例中,上述數(shù)據(jù)為數(shù)據(jù)表中的數(shù)據(jù),上述特征信息包括:上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、統(tǒng)計特征信息,以及上述輸入單元包括:數(shù)據(jù)表特征向量生成子單元,配置用于生成特征信息對應的數(shù)據(jù)表特征向量,上述數(shù)據(jù)表特征向量包括:表示上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱的分量、表示統(tǒng)計特征信息的分量;第一輸入向量生成子單元,配置用于生成依次包含上述數(shù)據(jù)表特征向量和零向量的數(shù)據(jù)分類模型的第一輸入向量;輸出向量生成子單元,配置用于將上述第一輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量。

在一些實施例中,上述統(tǒng)計特征信息包括:指示上述數(shù)據(jù)表項之間的關聯(lián)關系的關聯(lián)信息、上述數(shù)據(jù)的長度的平均值、上述數(shù)據(jù)的長度的最大值、上述數(shù)據(jù)的長度的最小值、上述數(shù)據(jù)中的字符的類型。

在一些實施例中,上述數(shù)據(jù)為文本數(shù)據(jù),上述特征信息為關鍵詞,以及上述輸入單元包括:關鍵詞特征向量生成子單元,配置用于生成特征信息對應的關鍵詞特征向量,其中,關鍵詞特征向量中每一個關鍵詞對應一個分量;第二輸入向量生成子單元,配置用于生成依次包含零向量和上述關鍵詞特征向量的數(shù)據(jù)分類模型的第二輸入向量;輸出向量生成子單元,配置用于將上述第二輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量。

本申請?zhí)峁┑臄?shù)據(jù)存儲方法和裝置,通過獲取待存儲的數(shù)據(jù)的特征信息,接著將特征信息轉換成輸入向量輸入到有監(jiān)督訓練的數(shù)據(jù)分類模型中,并將從數(shù)據(jù)分類模型中輸出的數(shù)據(jù)向量存儲在與數(shù)據(jù)類型對應的存儲區(qū)域,從而根據(jù)數(shù)據(jù)類型對數(shù)據(jù)進行有效的分類,節(jié)省了數(shù)據(jù)存儲區(qū)域的存儲空間。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:

圖1是本申請可以應用于其中的示例性系統(tǒng)架構圖;

圖2是根據(jù)本申請的數(shù)據(jù)存儲方法的一個實施例的流程圖;

圖3是根據(jù)本申請的數(shù)據(jù)存儲方法的又一個實施例的流程圖;

圖4是根據(jù)本申請的數(shù)據(jù)存儲裝置的一個實施例的結構示意圖;

圖5是適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)的結構示意圖。

具體實施方式

下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關發(fā)明相關的部分。

需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。

圖1示出了可以應用本申請的數(shù)據(jù)存儲方法或數(shù)據(jù)存儲裝置的實施例的示例性系統(tǒng)架構100。

如圖1所示,系統(tǒng)架構100可以包括終端設備101、102、103,網(wǎng)絡104和服務器105。網(wǎng)絡104用以在終端設備101、102、103和服務器105之間提供通信鏈路的介質。網(wǎng)絡104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。

用戶可以使用終端設備101、102、103通過網(wǎng)絡104與服務器105交互,以接收或發(fā)送消息等。終端設備101、102、103上可以安裝有各種客戶端應用,例如網(wǎng)頁瀏覽器應用、數(shù)據(jù)核算類應用、財務報表類應用、搜索類應用、即時通信工具、郵箱客戶端、社交平臺軟件等。

終端設備101、102、103可以是具有顯示屏的各種電子設備,包括但不限于智能手機、平板電腦、電子書閱讀器、MP3播放器(Moving Picture Experts Group Audio Layer III,動態(tài)影像專家壓縮標準音頻層面3)、MP4(Moving Picture Experts Group Audio Layer IV,動態(tài)影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。

服務器105可以是提供各種服務的服務器,例如對終端設備101、102、103上運行的應用提供數(shù)據(jù)支持的后臺數(shù)據(jù)處理服務器,還可以是從各個數(shù)據(jù)源中采集數(shù)據(jù)的服務器。后臺數(shù)據(jù)處理服務器可以對從數(shù)據(jù)源中獲取到的數(shù)據(jù)進行分析處理,并將處理結果進行存儲并反饋給終端設備。

需要說明的是,本申請實施例所提供的數(shù)據(jù)存儲方法一般由服務器105執(zhí)行,相應地,數(shù)據(jù)存儲裝置一般設置于服務器105中。

應該理解,圖1中的終端設備、網(wǎng)絡和服務器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設備、網(wǎng)絡和服務器。

繼續(xù)參考圖2,示出了根據(jù)本申請的數(shù)據(jù)存儲方法的一個實施例的流程圖200。所述的數(shù)據(jù)存儲方法,包括以下步驟:

步驟201,獲取待存儲的數(shù)據(jù)的特征信息。

在本實施例中,數(shù)據(jù)存儲方法運行于其上的電子設備(例如圖1所示的服務器)可以通過有線連接方式或者無線連接方式獲取待存儲數(shù)據(jù)的數(shù)據(jù)源信息,并根據(jù)數(shù)據(jù)源信息獲取待存儲的數(shù)據(jù)。這里,數(shù)據(jù)源是指提供所需數(shù)據(jù)的原始媒體或由存儲器件所支持的數(shù)據(jù)庫。數(shù)據(jù)源信息是指建立數(shù)據(jù)庫連接所需的信息。在根據(jù)數(shù)據(jù)源信息獲取待存儲數(shù)據(jù)時,可以從網(wǎng)絡、數(shù)據(jù)庫或者與財務系統(tǒng)有關的應用中獲取待存儲的數(shù)據(jù)。

在從數(shù)據(jù)庫中獲取待存儲的數(shù)據(jù)時,上述電子設備可以通過向支持數(shù)據(jù)庫的服務器提供正確的數(shù)據(jù)源名稱,找到相應的數(shù)據(jù)庫連接關系,進而從相應的數(shù)據(jù)源獲取到待存儲的數(shù)據(jù)。

在從企業(yè)的財務系統(tǒng)中獲取待存儲的數(shù)據(jù)時,數(shù)據(jù)源信息可以包括財務內部信息以及外部信息,其中內部信息可以包括各種業(yè)務處理數(shù)據(jù)和各類文檔數(shù)據(jù),外部信息可以包括各類法律法規(guī)、市場信息等。

在本實施例中,當服務器從數(shù)據(jù)源中獲取到待存儲的數(shù)據(jù)后,可以進一步獲取待存儲的數(shù)據(jù)的特征信息,其中,待存儲的數(shù)據(jù)的特征信息包括以下至少一項:上述待存儲的數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、指示數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征信息以及關鍵詞。在這里,上述數(shù)據(jù)表可以設置于上述數(shù)據(jù)庫中,用于存放上述待存儲的數(shù)據(jù)。其中,一個數(shù)據(jù)表可以設置一個名稱,該名稱例如可以為部門名稱、經(jīng)費、員工等。上述統(tǒng)計特征可以為數(shù)據(jù)的數(shù)量、數(shù)據(jù)的長度等。當上述待存儲的數(shù)據(jù)為文本數(shù)據(jù)時,上述特征信息可以為用以指示該文本內容的關鍵詞。例如,當上述文本數(shù)據(jù)為“A部門的科研經(jīng)費”時,上述關鍵詞可以為“A部門”、“科研經(jīng)費”。

在本實施例的一些可選的實現(xiàn)方式中,上述統(tǒng)計特征信息包括指示上述數(shù)據(jù)表項之間的關聯(lián)關系的關聯(lián)信息、數(shù)據(jù)的長度的平均值、數(shù)據(jù)的長度的最大值、數(shù)據(jù)的長度的最小值、數(shù)據(jù)中的字符的類型。

作為示例,服務器首先從多個數(shù)據(jù)源中獲取到待存儲的數(shù)據(jù)。接著,服務器可進一步獲取到待存儲的數(shù)據(jù)在數(shù)據(jù)庫中所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱,例如,其中一個待存儲的數(shù)據(jù)在數(shù)據(jù)庫中所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱為“部門工資”,另一個待存儲的數(shù)據(jù)在數(shù)據(jù)庫中所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱為“績效工資”。服務器還可以獲取上述待存儲的數(shù)據(jù)的統(tǒng)計特征信息,例如,服務器可以獲取“部門工資”這一數(shù)據(jù)的數(shù)據(jù)長度的平均值,也可以獲取“績效工資”這一數(shù)據(jù)的數(shù)據(jù)長度的最小值和最大值。

步驟202,將特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型,得到指示數(shù)據(jù)的類型的輸出向量。

在本實施例中,根據(jù)步驟201中獲取到的待存儲的數(shù)據(jù)的特征信息,服務器可以根據(jù)特征信息構建用于表示待存儲的數(shù)據(jù)的多個特征的多維向量作為數(shù)據(jù)分類模型的輸入向量。該輸入向量包括表示數(shù)據(jù)表項的名稱的分量、表示數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征分量、表示關鍵詞的特征分量。接著將輸入向量輸入到數(shù)據(jù)分類模型中,從而得到指示待存儲的數(shù)據(jù)的類型的輸出向量。輸出向量可以包括各個預設數(shù)據(jù)的類型分量、待存儲的數(shù)據(jù)與數(shù)據(jù)的類型之間的匹配度分量。相互對應的待存儲的數(shù)據(jù)與數(shù)據(jù)的類型之間可以使用匹配度表示其對應關系的強弱。通常,匹配度越高,待存儲的數(shù)據(jù)則屬于該數(shù)據(jù)的類型的概率越大。

數(shù)據(jù)的類型可以包括用于表示各類事物的名稱例如部門名稱、文檔名稱的字符串數(shù)據(jù)類型,還可以包括用于表示數(shù)字例如整數(shù)、浮點、正數(shù)、負數(shù)的數(shù)據(jù)類型,還可以包括用于表示日期和時間的數(shù)據(jù)類型,還可以包括用于表示貨幣的數(shù)據(jù)類型等。

數(shù)據(jù)分類模型可以用于描述待存儲的數(shù)據(jù)(例如數(shù)據(jù)表中的數(shù)據(jù))和數(shù)據(jù)的類型(例如表示數(shù)字的數(shù)據(jù)類型)的對應關系。數(shù)據(jù)分類模型是將已存儲數(shù)據(jù)的特征信息、與已存儲數(shù)據(jù)的特征信息匹配的經(jīng)標注的已存儲數(shù)據(jù)的類型以及已存儲數(shù)據(jù)的特征信息與已存儲數(shù)據(jù)的類型之間的匹配度作為訓練樣本以有監(jiān)督學習方式通過機器學習的方法進行訓練而成。

其中,有監(jiān)督學習方式可以通過如下步驟進行:

首先,將已存儲數(shù)據(jù)作為訓練樣本,服務器獲取已存儲的數(shù)據(jù)的特征信息。例如,當已存儲的數(shù)據(jù)為數(shù)據(jù)庫中的數(shù)據(jù)時,由于數(shù)據(jù)庫中存在多個數(shù)據(jù)表,服務器可以獲取已存儲數(shù)據(jù)的數(shù)據(jù)表項的名稱、可以獲取已存儲數(shù)據(jù)的字符的類型等;當已存儲的數(shù)據(jù)為文本數(shù)據(jù)時,服務器可以獲取已存儲數(shù)據(jù)的關鍵詞作為特征信息。

接著,為已存儲數(shù)據(jù)設置數(shù)據(jù)的類型標簽,例如該標簽可以為表示數(shù)字的數(shù)據(jù)類型、表示日期的數(shù)據(jù)類型、表示文本的數(shù)據(jù)類型等。

再次,基于已存儲數(shù)據(jù)的數(shù)據(jù)類型標簽與已存儲數(shù)據(jù)的特征信息,建立已存儲數(shù)據(jù)的數(shù)據(jù)的類型與已存儲數(shù)據(jù)的特征信息之間的匹配度。由于一個已存儲數(shù)據(jù)樣本具有至少一個特征信息,而每一個已存儲數(shù)據(jù)樣本均對應一個數(shù)據(jù)的類型標簽,服務器可以根據(jù)設定的算法計算出已存儲數(shù)據(jù)的數(shù)據(jù)的類型與已存儲數(shù)據(jù)的特征信息之間的匹配度。

最后,利用機器學習方法,基于已存儲數(shù)據(jù)的特征信息、與已存儲數(shù)據(jù)的特征信息匹配的經(jīng)標注的已存儲數(shù)據(jù)的類型以及已存儲數(shù)據(jù)的特征信息與已存儲數(shù)據(jù)的類型之間的匹配度進行數(shù)據(jù)分類模型訓練。

上述機器學習的方法可以包括神經(jīng)網(wǎng)絡、遺傳算法等方法。

以“部門名稱”這一待存儲的數(shù)據(jù)為例,對本步驟進行闡述?!安块T名稱”這個詞在不同的應用場景中的名字均不相同,在有的系統(tǒng)中可以叫“部門”,在另一系統(tǒng)中可能會叫“department”,而在又一個系統(tǒng)中會起名為“depart”,但他們的類別均為“部門名稱”。因此,在一個系統(tǒng)中,當待存儲的數(shù)據(jù)為以上任意一種時,可以將步驟201中獲取到的與以上名稱有關的特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型中進行匹配,得到指示上述待存儲的數(shù)據(jù)的類型的輸出向量,服務器可以根據(jù)該輸出向量確定上述待存儲的數(shù)據(jù)類型為“部門名稱”。

步驟203,將數(shù)據(jù)存儲在輸出向量所指示的數(shù)據(jù)的類型對應的存儲區(qū)域。

在本實施例中,根據(jù)步驟202中得到的數(shù)據(jù)分類模型的輸出向量,可以確定數(shù)據(jù)所屬的類型,從而將數(shù)據(jù)存儲在上述類型對應的存儲區(qū)域中。在服務器或客戶端中為了便于對數(shù)據(jù)進行統(tǒng)一有效的管理,通常根據(jù)不同的數(shù)據(jù)類型來設置存儲區(qū)域,服務器根據(jù)輸出向量確定待存儲的數(shù)據(jù)類型后,可以首先查找預設的存儲區(qū)域中是否設置有該數(shù)據(jù)類型,若有,可以將待存儲數(shù)據(jù)直接存儲在該類型對應的存儲區(qū)域中,若無,則服務器可以重新建立一新的存儲區(qū)域來進行存儲。

本申請實施例提供的數(shù)據(jù)存儲方法,通過獲取帶存儲的數(shù)據(jù)的特征信息,接著將特征信息轉換為預先訓練而成的數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型中,得到指示數(shù)據(jù)的類型的輸出向量,最后將數(shù)據(jù)存儲在數(shù)據(jù)分類模型所指示的數(shù)據(jù)類型對應的存儲區(qū)域,從而郵箱的對待存儲的數(shù)據(jù)進行分類,在提高數(shù)據(jù)的存儲效率的同時節(jié)約了數(shù)據(jù)的存儲空間。

進一步參考圖3,其示出了數(shù)據(jù)存儲方法的又一個實施例的流程300。該數(shù)據(jù)存儲方法的流程300,包括以下步驟:

步驟301,獲取待存儲的數(shù)據(jù)的特征信息。

現(xiàn)有的數(shù)據(jù)可以分很多種類型,按照數(shù)據(jù)是否可用二維表結構來邏輯表達實現(xiàn),可以將數(shù)據(jù)劃分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。結構化數(shù)據(jù)也即行數(shù)據(jù),可以用統(tǒng)一的結構加以表示,例如數(shù)字、符號以及傳統(tǒng)數(shù)據(jù)模型;非結構化數(shù)據(jù)是指數(shù)據(jù)的字段長度可變,并且每個字段的記錄又可以由可重復或不可重復的子字段構成的數(shù)據(jù),非結構化數(shù)據(jù)包括視頻、音頻、文檔、文本圖片、各類報表、圖像、辦公文檔等。在財務系統(tǒng)中存在大量數(shù)據(jù)表中的數(shù)據(jù),即結構化數(shù)據(jù),其特征信息可通過數(shù)據(jù)長度值、數(shù)據(jù)中的字符串的類型等等來表示;還存在著大量的文本數(shù)據(jù),其特征信息可以通過關鍵詞來表示。

在本實施例中,數(shù)據(jù)存儲方法運行于其上的電子設備(例如圖1所示的服務器)可以通過有線連接方式或者無線連接方式獲取待存儲的數(shù)據(jù)的特征信息。當上述待存儲的數(shù)據(jù)為數(shù)據(jù)表中的數(shù)據(jù)時,其特征信息包括以下至少一項:數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱,指示數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征信息,指示數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征信息還包括指示數(shù)據(jù)表項之間的關聯(lián)關系的關聯(lián)信息、數(shù)據(jù)的長度的平均值、數(shù)據(jù)的長度的最大值、數(shù)據(jù)的長度的最小值、數(shù)據(jù)中的字符的類型。當上述待存儲的數(shù)據(jù)為文本數(shù)據(jù)時,其特征信息包括關鍵詞。

在本實施例中,當待存儲的數(shù)據(jù)為文本數(shù)據(jù)時,可以利用自然語言處理方法或者循環(huán)神經(jīng)網(wǎng)路模型對文本數(shù)據(jù)進行切詞、分詞,從而確定文本數(shù)據(jù)中的關鍵詞。

步驟302,生成特征信息對應的數(shù)據(jù)表特征向量。

根據(jù)步驟301中獲取到的數(shù)據(jù)表中的待存儲的數(shù)據(jù)的特征信息,在本實施例中,服務器可以將待存儲的數(shù)據(jù)的特征信息生成數(shù)據(jù)表特征向量,其中,數(shù)據(jù)表特征向量包括表示數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱的分量、表示統(tǒng)計特征信息的分量。作為示例,在一個系統(tǒng)中,待存儲的數(shù)據(jù)“B”為“員工信息”,“員工的信息”如“性別”、“年齡”等可以在“員工的基本信息”這個數(shù)據(jù)表中存儲,也可以利用主外鍵關系建立與“部門信息”這個數(shù)據(jù)表的關系來進行存儲。與待存儲的數(shù)據(jù)“B”相對應的特征向量為指示“員工信息”這一數(shù)據(jù)所屬的數(shù)據(jù)表的表項的名稱的分量、指示與“部門信息”之間的關聯(lián)關系的分量、指示員工信息的數(shù)據(jù)的平均長度值的分量。

步驟303,生成依次包含數(shù)據(jù)表特征向量和零向量的數(shù)據(jù)分類模型的第一輸入向量。

數(shù)據(jù)分類模型的輸入向量可以包括結構化數(shù)據(jù)的特征向量和非結構化數(shù)據(jù)的特征向量兩個部分,歸結到一般的財務系統(tǒng)中,數(shù)據(jù)分類模型的輸入向量主要包括數(shù)據(jù)表特征向量和關鍵詞特征向量兩部分,當待存儲的數(shù)據(jù)為數(shù)據(jù)表數(shù)據(jù),即結構化數(shù)據(jù)時,可以將關鍵詞特征向量表示成零向量的形式,當待存儲的數(shù)據(jù)為文本數(shù)據(jù),即非結構化數(shù)據(jù)時,可以將數(shù)據(jù)表特征向量表示成零向量的形式。

在本實施例中,服務器根據(jù)步驟301中確定的待存儲的數(shù)據(jù)為數(shù)據(jù)表中的數(shù)據(jù),并根據(jù)步驟302中確定的數(shù)據(jù)表中的數(shù)據(jù)的特征向量,服務器可以進一步生成數(shù)據(jù)分類模型的第一輸入向量,該第一輸入向量中依次包括步驟302中確定的數(shù)據(jù)表特征向量和零向量。

步驟304,生成特征信息對應的關鍵詞特征向量。在本實施例中,當待存儲的數(shù)據(jù)為文本數(shù)據(jù)時,由于文本數(shù)據(jù)的特征信息為關鍵詞,在本步驟中,可以將與文本數(shù)據(jù)對應的關鍵詞信息生成關鍵詞特征向量,其中,關鍵詞特征向量中每一個關鍵詞對應一個分量。在本實施例中,可以利用向量空間模型來生成關鍵詞特征向量,向量空間模型為現(xiàn)有的公知技術,在此不再贅述。作為示例,在某一個系統(tǒng)中,存在有大量的文檔、合同等非結構化的文本數(shù)據(jù)。當待存儲的數(shù)據(jù)為“C公司合同”時,服務器根據(jù)獲取到的“C公司合同”的特征信息“C公司”、“合同”等關鍵詞分別生成與關鍵詞“C公司”對應的關鍵詞分量和與“合同”對應的關鍵詞分量。

步驟305,生成依次包含零向量和關鍵詞特征向量的數(shù)據(jù)分類模型的第二輸入向量。

在本實施例中,服務器根據(jù)步驟301中確定的待存儲的數(shù)據(jù)為文本數(shù)據(jù),并根據(jù)步驟305中確定的文本數(shù)據(jù)的關鍵詞向量,服務器可以進一步生成數(shù)據(jù)分類模型的第二輸入向量,該輸入向量中依次包括步驟305中確定的零向量和關鍵詞向量

步驟306,將輸入向量輸入到數(shù)據(jù)分類模型,得到指示數(shù)據(jù)的類型的的輸出向量。

在本實施例中,根據(jù)步驟303和步驟305中確定的數(shù)據(jù)分類模型的第一輸入向量和第二輸入向量,服務器可以將上述第一輸入向量和第二輸入向量分別輸入到數(shù)據(jù)分類模型中,得到指示數(shù)據(jù)的類型的輸出向量。輸出向量可以包括各個預設數(shù)據(jù)的類型分量、待存儲的數(shù)據(jù)與數(shù)據(jù)的類型之間的匹配度分量。在這里,數(shù)據(jù)分類模型可以首先根據(jù)輸入向量首先確定待存儲的數(shù)據(jù)為數(shù)據(jù)表中的數(shù)據(jù)還是文本數(shù)據(jù),接著數(shù)據(jù)分類模型可以對上述兩種數(shù)據(jù)進行分開來處理,從而分別根據(jù)第一輸入向量和第二輸入向量生成輸出向量。例如,當服務器將待存儲的數(shù)據(jù)“X”生成的輸入向量輸入到數(shù)據(jù)分類模型中時,數(shù)據(jù)分類模型可以基于該輸入向量的數(shù)據(jù)表特征分量以及零向量確定待存儲的數(shù)據(jù)“X”為數(shù)據(jù)表中的數(shù)據(jù),同時確定該數(shù)據(jù)的數(shù)據(jù)類型為“與數(shù)字有關的數(shù)據(jù)類型”,因此數(shù)據(jù)分類模型輸出“與數(shù)字有關的數(shù)據(jù)類型”相對應的輸出向量。再例如,當服務器將待存儲的數(shù)據(jù)“Y”生成的輸入向量輸入到數(shù)據(jù)分類模型中時,數(shù)據(jù)分類模型可以基于該輸入向量的零向量和關鍵詞特征分量確定待存儲的數(shù)據(jù)“Y”為文本數(shù)據(jù),同時確定該數(shù)據(jù)的數(shù)據(jù)類型為“字符型”,因此數(shù)據(jù)分類模型輸出與“字符型”相對應的輸出分量。

在本實施例中,上述數(shù)據(jù)分類模型基于預先利用訓練樣本以有監(jiān)督方式進行訓練而成,可選地,上述數(shù)據(jù)分類模型為決策樹模型,在這里需要說明的是,決策樹模型的機器學習方法是目前廣泛研究和應用的公知技術,在此不再贅述。

步驟307,將數(shù)據(jù)存儲在輸出向量所指示的數(shù)據(jù)的類型對應的存儲區(qū)域。

在本實施例中,根據(jù)步驟306中得到的數(shù)據(jù)分類模型的輸出向量,可以確定數(shù)據(jù)所屬的類型,從而將數(shù)據(jù)存儲在上述類型對應的存儲區(qū)域中。

從圖3中可以看出,與圖2對應的實施例相比,本實施例中的數(shù)據(jù)存儲方法的流程300將待存儲的數(shù)據(jù)劃分為結構化數(shù)據(jù)和非結構化數(shù)據(jù),即數(shù)據(jù)表中的數(shù)據(jù)和文本數(shù)據(jù),同時將該兩種數(shù)據(jù)分布輸入到數(shù)據(jù)分類模型中進行匹配,數(shù)據(jù)分類模型將上述兩種數(shù)據(jù)進行分開來處理,分別得到指示數(shù)據(jù)表中的數(shù)據(jù)的類型的輸出向量和指示文本數(shù)據(jù)的類型的輸出向量,從而更加快速有效的將數(shù)據(jù)快速有效的分類,并加快數(shù)據(jù)存儲的速度,減小存儲數(shù)據(jù)的空間。

進一步參考圖4,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N數(shù)據(jù)存儲裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用于各種電子設備中。

如圖4所示,本實施例上述的數(shù)據(jù)存儲裝置400包括:獲取單元401、輸入單元402、以及存儲單元403。其中,獲取單元401配置用于獲取待存儲的數(shù)據(jù)的特征信息,上述特征信息包括以下至少一項:上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、指示上述數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征信息、關鍵詞;輸入單元402配置用于將上述特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量,上述數(shù)據(jù)分類模型基于預先利用訓練樣本以有監(jiān)督方式進行訓練而生成,上述訓練樣本包括:已存儲數(shù)據(jù)的上述特征信息、經(jīng)標注的上述已存儲數(shù)據(jù)的類型;存儲單元403配置用于將上述數(shù)據(jù)存儲在上述類型對應的存儲區(qū)域。

在本實施例中,數(shù)據(jù)存儲裝置400的獲取單元401、輸入單元402、以及存儲單元403的具體處理及其所帶來的技術效果可分別參考圖2對應實施例中步驟201、步驟202和步驟203的相關說明,在此不再贅述。

在本實施例的一些可選的實現(xiàn)方式中,上述數(shù)據(jù)為數(shù)據(jù)表中的數(shù)據(jù),上述特征信息包括上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、統(tǒng)計特征信息,以及上述輸入單元402包括:數(shù)據(jù)表特征向量生成子單元4021配置用于生成特征信息對應的數(shù)據(jù)表特征向量,上述數(shù)據(jù)表特征向量包括:表示上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱的分量、表示統(tǒng)計特征信息的分量;第一輸入向量生成子單元4022配置用于生成依次包含上述數(shù)據(jù)表特征向量和零向量的數(shù)據(jù)分類模型的輸入向量;輸出向量生成子單元4025配置用于將上述輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量。

在本實施例的一些可選的實現(xiàn)方式中,上述統(tǒng)計特征信息包括:指示上述數(shù)據(jù)表項之間的關聯(lián)關系的關聯(lián)信息、上述數(shù)據(jù)的長度的平均值、上述數(shù)據(jù)的長度的最大值、上述數(shù)據(jù)的長度的最小值、上述數(shù)據(jù)中的字符的類型。

在本實施例的一些可選的實現(xiàn)方式中,上述數(shù)據(jù)為文本數(shù)據(jù),上述特征信息為關鍵詞,以及上述輸入單元402包括:關鍵詞特征向量生成子單元4023配置用于生成特征信息對應的關鍵詞特征向量,其中,關鍵詞特征向量中每一個關鍵詞對應一個分量;第二輸入向量生成子單元4024配置用于生成依次包含零向量和上述關鍵詞特征向量的數(shù)據(jù)分類模型的第二輸入向量;輸出向量確定子單元4025配置用于將上述第二輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量。

下面參考圖5,其示出了適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)500的結構示意圖。

如圖5所示,計算機系統(tǒng)500包括中央處理單元(CPU)501,其可以根據(jù)存儲在只讀存儲器(ROM)502中的程序或者從存儲部分508加載到隨機訪問存儲器(RAM)503中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在RAM 503中,還存儲有系統(tǒng)500操作所需的各種程序和數(shù)據(jù)。CPU 501、ROM 502以及RAM 503通過總線504彼此相連。輸入/輸出(I/O)接口505也連接至總線504。

以下部件連接至I/O接口505:包括鍵盤、鼠標等的輸入部分506;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分507;包括硬盤等的存儲部分508;以及包括諸如LAN卡、調制解調器等的網(wǎng)絡接口卡的通信部分509。通信部分509經(jīng)由諸如因特網(wǎng)的網(wǎng)絡執(zhí)行通信處理。驅動器510也根據(jù)需要連接至I/O接口505??刹鹦督橘|511,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅動器510上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分508。

特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質上的計算機程序,所述計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分509從網(wǎng)絡上被下載和安裝,和/或從可拆卸介質511被安裝。在該計算機程序被中央處理單元(CPU)501執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。

附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框實際上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。

描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括獲取單元、輸入單元和存儲單元。其中,這些單元的名稱在某種情況下并不構成對該單元本身的限定,例如,獲取單元還可以被描述為“獲取待存儲的數(shù)據(jù)的特征信息的單元”。

作為另一方面,本申請還提供了一種非易失性計算機存儲介質,該非易失性計算機存儲介質可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質;也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質。上述非易失性計算機存儲介質存儲有一個或者多個程序,當所述一個或者多個程序被一個設備執(zhí)行時,使得所述設備:獲取待存儲的數(shù)據(jù)的特征信息,上述特征信息包括以下至少一項:上述數(shù)據(jù)所屬的數(shù)據(jù)表中的數(shù)據(jù)表項的名稱、指示上述數(shù)據(jù)的統(tǒng)計特征的統(tǒng)計特征信息、關鍵詞;將上述特征信息轉換為數(shù)據(jù)分類模型的輸入向量輸入到數(shù)據(jù)分類模型,得到指示上述數(shù)據(jù)的類型的輸出向量,上述數(shù)據(jù)分類模型基于預先利用訓練樣本以有監(jiān)督方式進行訓練而生成,上述訓練樣本包括:已存儲數(shù)據(jù)的上述特征信息、經(jīng)標注的上述已存儲數(shù)據(jù)的類型;將上述數(shù)據(jù)存儲在上述類型對應的存儲區(qū)域。

以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術特征的特定組合而成的技術方案,同時也應涵蓋在不脫離所述發(fā)明構思的情況下,由上述技術特征或其等同特征進行任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術特征進行互相替換而形成的技術方案。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1