本公開涉及文本識別領(lǐng)域,尤其涉及一種圖像文本識別的方法、裝置、設(shè)備、計算機存儲介質(zhì)及計算機程序產(chǎn)品。
背景技術(shù):
1、隨著科技的不斷發(fā)展,人們利用科技在不同的領(lǐng)域進行探索研究。文本識別領(lǐng)域作為當下熱門的領(lǐng)域,主要研究如何利用計算機對圖像中的字符進行識別。
2、相關(guān)技術(shù)中,利用光學字符識別(optical?character?recognition,ocr)等技術(shù),能夠識別單個文本區(qū)域,且文本排列規(guī)整的文本圖像。但是,相關(guān)技術(shù)中,采用ocr等方法在識別圖像文本時,僅能對每個文本區(qū)域進行分別掃描,從而導致每個文本區(qū)域識別出的文本在最終組合時難以準確的完成語義再現(xiàn)。
技術(shù)實現(xiàn)思路
1、本公開實施例提供一種圖像文本識別的方法、裝置、設(shè)備及計算機存儲介質(zhì),能夠提高圖像文本識別出的語義的準確性。
2、第一方面,本公開實施例提供一種圖像文本識別的方法,方法包括:
3、獲取多個子文本區(qū)域;其中,多個子文本區(qū)域的組合面積與第一文本區(qū)域的面積相等;
4、分別獲取多個子文本區(qū)域的多個組合方式對應(yīng)的適應(yīng)度;選取適應(yīng)度小于預設(shè)適應(yīng)度閾值的目標適應(yīng)度對應(yīng)的目標組合方式;
5、對利用目標組合方式組合多個子文本區(qū)域得到的目標文本區(qū)域進行文本識別,得到目標文本信息。
6、在一個可以實現(xiàn)的實施方式中,獲取多個子文本區(qū)域,包括:
7、獲取待識別的圖像,圖像包括多元素文本的區(qū)域;
8、對圖像進行文本區(qū)域識別,識別得到圖像中包括文本的第一文本區(qū)域;
9、利用預設(shè)選取框,通過覆蓋第一文本區(qū)域的方式,將第一文本區(qū)域劃分為多個子文本區(qū)域。
10、在一個可以實現(xiàn)的實施方式中,對圖像進行文本區(qū)域識別,識別出圖像中包括文本的第一文本區(qū)域之前,該方法還包括:
11、對圖像進行灰度處理,得到灰度處理后的第一目標圖像。
12、在一個可以實現(xiàn)的實施方式中,對圖像進行文本區(qū)域識別,識別出圖像中包括文本的第一文本區(qū)域,包括:
13、獲取第一目標圖像中灰度值滿足灰度閾值的第一目標覆蓋區(qū)域,第一目標覆蓋區(qū)域包括文本信息;
14、利用選取框,通過不重復覆蓋且相鄰的選取框之間相交或相切的方式,將選取框覆蓋至第一目標覆蓋區(qū)域,并獲取包括文本信息的文本框覆蓋的區(qū)域,以得到預組合區(qū)域;
15、在預組合區(qū)域的任意邊界點的連線在預覆蓋區(qū)域內(nèi)的情況下,組合預組合區(qū)域,得到第一文本區(qū)域。
16、在一個可以實現(xiàn)的實施方式中,在預組合區(qū)域的任意邊界點的連線在預覆蓋區(qū)域內(nèi)的情況下,組合預組合區(qū)域,得到第一文本區(qū)域,包括:
17、在預組合區(qū)域的任意邊界點的連線在預覆蓋區(qū)域內(nèi)的情況下,利用選取框覆蓋預組合區(qū)域中,確定預組合區(qū)域被覆蓋中的灰度面積和被覆蓋區(qū)域的面積;
18、計算灰度面積與被覆蓋面積的比值;
19、在比值小于或等于密集度閾值的情況下,組合預組合區(qū)域得到第一文本區(qū)域。
20、在一個可以實現(xiàn)的實施方式中,在分別獲取多個子文本區(qū)域的多個組合方式對應(yīng)的適應(yīng)度之前,該方法還包括:
21、通過目標編碼方式對多個子文本區(qū)域編碼,得到編碼后的多個子文本區(qū)域;
22、通過判斷子文本區(qū)域與目標區(qū)域邊界是否有交界的方式,對編碼后的多個子文本區(qū)域二次編碼,得到二次編碼后的多個子文本區(qū)域;
23、分別獲取多個子文本區(qū)域的多個組合方式對應(yīng)的適應(yīng)度,包括:
24、分別獲取二次編碼后的多個子文本區(qū)域的多個組合方式對應(yīng)的適應(yīng)度。
25、在一個可以實現(xiàn)的實施方式中,選取適應(yīng)度小于預設(shè)適應(yīng)度閾值的目標適應(yīng)度對應(yīng)的目標組合方式,包括:
26、選取多個組合方式對應(yīng)的適應(yīng)度中的最小適應(yīng)度;
27、比較最小適應(yīng)度和適應(yīng)度閾值,得到比較結(jié)果;
28、在比較結(jié)果包括最小適應(yīng)度小于適應(yīng)度閾值的情況下,獲取最小適應(yīng)度對應(yīng)的目標組合方式。
29、在一個可以實現(xiàn)的實施方式中,比較最小適應(yīng)度和適應(yīng)度閾值,得到比較結(jié)果之后,該方法還包括:
30、在比較結(jié)果包括最小適應(yīng)度大于或等于適應(yīng)度閾值的情況下,根據(jù)最小適應(yīng)度更新歷史最小適應(yīng)度和多個組合方式對應(yīng)的適應(yīng)度,得到更新后的歷史最小適應(yīng)度和多個組合方式對應(yīng)的適應(yīng)度。
31、第二方面,本公開實施例提供了一種圖像文本識別的裝置,裝置包括:
32、獲取模塊,用于獲取多個子文本區(qū)域;其中,多個子文本區(qū)域的組合面積與第一文本區(qū)域的面積相等;
33、獲取模塊,還用于分別獲取多個子文本區(qū)域的多個組合方式對應(yīng)的適應(yīng)度;
34、選取模塊,用于選取適應(yīng)度小于預設(shè)適應(yīng)度閾值的目標適應(yīng)度對應(yīng)的目標組合方式;
35、識別模塊,用于對利用目標組合方式組合多個子文本區(qū)域得到的目標文本區(qū)域進行文本識別,得到目標文本信息。
36、第三方面,本公開實施例提供了一種圖像文本識別的設(shè)備,設(shè)備包括處理器,以及存儲有計算機程序指令的存儲器;處理器讀取并執(zhí)行計算機程序指令,以實現(xiàn)如第一方面的任意一項的圖像文本識別的方法。
37、第四方面,本公開實施例提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)上存儲有計算機程序指令,計算機程序指令被處理器執(zhí)行時實現(xiàn)如第一方面的任意一項的圖像文本識別的方法。
38、第五方面,本公開實施例提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序被處理其執(zhí)行時實現(xiàn)如第一方面的任意一項的圖像文本識別的方法。
39、本公開實施例提供的圖像文本識別的方法、裝置、設(shè)備、計算機存儲介質(zhì)及計算機程序產(chǎn)品,獲取多個子文本區(qū)域,再分別獲取多個子文本區(qū)域的多個組合方式對應(yīng)的適應(yīng)度。根據(jù)目標組合方式對多個子文本區(qū)域進行組合得到目標文本區(qū)域,對目標文本區(qū)域進行文本識別得到目標文本信息,通過對第一文本區(qū)域進行劃分,得到多個子文本區(qū)域,從多個子文本區(qū)域的所有組合方式的適應(yīng)度中選擇適應(yīng)度小于預設(shè)適應(yīng)度的目標組合方式,其中,適應(yīng)度小于預設(shè)適應(yīng)度對應(yīng)的目標組合方式是最優(yōu)的組合方式,基于目標組合方式對多個子文本區(qū)域進行組合能夠得到包含更準確的文本信息的目標文本區(qū)域,再對目標文本區(qū)域進行識別能夠有效提高圖像文本識別出的語義的準確性。
1.一種圖像文本識別的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取多個子文本區(qū)域,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述圖像進行文本區(qū)域識別,識別得到所述圖像中包括文本的第一文本區(qū)域之前,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對所述圖像進行文本區(qū)域識別,識別得到所述圖像中包括文本的第一文本區(qū)域,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述預組合區(qū)域的任意邊界點的連線在預覆蓋區(qū)域內(nèi)的情況下,組合所述預組合區(qū)域,得到所述第一文本區(qū)域,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述分別獲取所述多個子文本區(qū)域的多個組合方式對應(yīng)的適應(yīng)度之前,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述選取所述適應(yīng)度小于預設(shè)適應(yīng)度閾值的目標適應(yīng)度對應(yīng)的目標組合方式,包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述比較所述最小適應(yīng)度和所述適應(yīng)度閾值,得到比較結(jié)果之后,所述方法還包括:
9.一種圖像文本識別的裝置,其特征在于,所述裝置包括:
10.一種圖像文本識別的設(shè)備,其特征在于,所述設(shè)備包括處理器,以及存儲有計算機程序指令的存儲器;所述處理器讀取并執(zhí)行所述計算機程序指令,以實現(xiàn)如權(quán)利要求1-8任意一項所述的圖像文本識別的方法。
11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-8任意一項所述的圖像文本識別的方法。
12.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,所述計算機程序被處理其執(zhí)行時實現(xiàn)權(quán)利要求1-8任意一項所述的圖像文本識別的方法。