午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

文件目錄的生成方法、裝置、服務(wù)器及計算機存儲介質(zhì)與流程

文檔序號:11729448閱讀:330來源:國知局
文件目錄的生成方法、裝置、服務(wù)器及計算機存儲介質(zhì)與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種文件目錄的生成方法、裝置、服務(wù)器及計算機存儲介質(zhì)。



背景技術(shù):

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以通過不同的設(shè)備、不同的途徑獲得各種各樣的電子文件,這些電子文件極大地豐富了人們的工作和生活內(nèi)容。

很多時候,需要對電子文件進行重新排版,對于包含目錄頁的文件,由于目錄初始設(shè)計并不規(guī)范,導(dǎo)致現(xiàn)有技術(shù)中不能準確地獲取到目錄項文本,從而導(dǎo)致根據(jù)目錄項文本重新排版所生成的目錄頁并不準確,致使目錄失去正確引導(dǎo)用戶閱讀、以及準確定位文本的作用。



技術(shù)實現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的文件目錄的生成方法、裝置、服務(wù)器和計算機存儲介質(zhì)。

根據(jù)本發(fā)明的一個方面,提供了一種文件目錄的生成方法,包括:

對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合;

對文件的目錄頁進行分析,得到目錄項文本;

對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合;

將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

根據(jù)本發(fā)明的另一方面,提供了一種文件目錄的生成裝置,包括:

聚類處理模塊,適于對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合;

分析模塊,適于對文件的目錄頁進行分析,得到目錄項文本;

匹配模塊,適于對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合;

生成模塊,適于將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

根據(jù)本發(fā)明的又一方面,提供了一種服務(wù)器,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;

所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行上述文件目錄的生成方法對應(yīng)的操作。

根據(jù)本發(fā)明的再一方面,提供了一種計算機存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如上述文件目錄的生成方法對應(yīng)的操作。

根據(jù)本發(fā)明提供的方案,對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合,對文件的目錄頁進行分析,得到目錄項文本,對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準確性,保證生成的目錄頁更為準確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對象,給予用戶正確地引導(dǎo)。

上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。

附圖說明

通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1示出了根據(jù)本發(fā)明一個實施例的文件目錄的生成方法的流程示意圖;

圖2示出了根據(jù)本發(fā)明另一個實施例的文件目錄的生成方法的流程示意圖;

圖3示出了根據(jù)本發(fā)明一個實施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖;

圖4示出了根據(jù)本發(fā)明另一個實施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖;

圖5示出了根據(jù)本發(fā)明一個實施例的服務(wù)器的結(jié)構(gòu)示意圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。

圖1示出了根據(jù)本發(fā)明一個實施例的文件目錄的生成方法的流程示意圖。如圖1所示,該方法包括以下步驟:

步驟s100,對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合。

目錄具有引導(dǎo)用戶閱讀的作用,用戶可以通過目錄快速定位到文章中相應(yīng)的章節(jié)內(nèi)容,因此,目錄的準確性直接影響用戶對文件的閱讀。本發(fā)明實施例適用于包含目錄頁的文件,這里將文件分為目錄頁和除目錄頁以外的其他頁面,首先,需要對文件進行初步識別,得到文件包含的文本對象,然后對文件中除目錄頁以外的其他頁面中的文本對象進行解析得到文本對象的文字樣式,在得到文字樣式之后,對文本對象進行文字樣式聚類處理,將具有相同文字樣式的文本對象聚類在一起,得到多個具有不同文字樣式的文本對象集合,其中,每個文本對象集合包含同一種文字樣式的文本對象。

步驟s101,對文件的目錄頁進行分析,得到目錄項文本。

文件的目錄頁一般都包括目錄項文本,本實施例中對文件的目錄頁進行分析,主要是為了從目錄頁中獲取到目錄項文本,以便于后續(xù)根據(jù)目錄項文本確定上述文本對象集合中哪些屬于目錄項的文本對象集合。

步驟s102,對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合。

在得到目錄項文本之后,對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,舉例說明,屬于某文字樣式的文本對象集合中包含3個文本對象,例如文本對象1、2、3,目錄項文本有10項,這里需要將三個文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,具體地,將文本對象1分別與目錄項文本進行文字內(nèi)容模糊匹配,若存在與文本對象1文字內(nèi)容模糊匹配的目錄項文本,則模糊匹配結(jié)束,若未查找到與文本對象1文字內(nèi)容模糊匹配的目錄項文本,則需要繼續(xù)將文本對象1與目錄項文本進行文字內(nèi)容模糊匹配直至文本對象1與10項目錄項文本都進行了文字內(nèi)容模糊匹配才結(jié)束,對于文本對象2、3類似,這里不再贅述。在將文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之后,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合。

步驟s103,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

文本偏移位置指文本對象在文件中位置,例如,文本對象在文件中的段落信息,在確定了文本對象屬于目錄項的文本對象集合之后,將文本對象與該文本對象在文件中的文本偏移位置相關(guān)聯(lián),然后生成目錄頁,這里的相關(guān)聯(lián)指當(dāng)用戶點擊所生成的目錄頁中的某文本對象時,可以根據(jù)文本偏移位置自動且準確地跳轉(zhuǎn)到該文本對象在文件中的位置,舉例說明,目錄頁中某文本對象在文件中的段落信息為第5段,則用戶點擊目錄頁中該文本對象時,可以跳轉(zhuǎn)至第5段對應(yīng)的文本對象。由于是根據(jù)文件中除目錄頁以外的其他頁面中的文本對象生成目錄頁,相對于直接對文件中的目錄頁進行識別的結(jié)果來說,所生成的目錄更為準確,能夠更為準確地引導(dǎo)用戶閱讀。

根據(jù)本發(fā)明上述實施例提供的方法,對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合,對文件的目錄頁進行分析,得到目錄項文本,對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準確性,保證生成的目錄頁更為準確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對象,給予用戶正確地引導(dǎo)。

圖2示出了根據(jù)本發(fā)明另一個實施例的文件目錄的生成方法的流程示意圖。如圖2所示,該方法包括以下步驟:

步驟s200,對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合。

首先,對文件進行初步識別,得到文件包含的文本對象,然后,對文件中除目錄頁以外的其他頁面中的文本對象進行解析得到文本對象的文字樣式,在得到文字樣式之后,對文本對象進行文字樣式聚類處理,將具有相同文字樣式的文本對象聚類在一起,舉例說明,對于文本對象1,根據(jù)文本對象1的文字樣式創(chuàng)建文字樣式1的文本對象集合,并將文本對象1劃分到文字樣式1的文本對象集合中,然后將文本對象2的文字樣式與文本對象1的文字樣式進行比較,確定文本對象2的文字樣式不同于文字對象1的文字樣式,則根據(jù)文本對象2的文字樣式創(chuàng)建文字樣式2的文本對象集合,并將文本對象2劃分到文字樣式2的文本對象集合中,對于其他的文本對象類似,這里不再贅述,最后得到多個具有不同文字樣式的文本對象集合。

步驟s201,對文件的目錄頁進行分析,得到目錄項文本。

文件的目錄頁一般都包括目錄項文本,本實施例中對文件的目錄頁進行分析,主要是為了從目錄頁中獲取到目錄項文本,以便于后續(xù)根據(jù)目錄項文本確定屬于目錄項的文本對象集合。

步驟s200中得到的文本對象集合可能會包含部分非目錄項的文本對象集合,例如,圖注對應(yīng)的文本對象集合、注釋對應(yīng)的文本對象集合等,這樣就需要對文本對象進行初篩,具體地,可以采用步驟s202-步驟s204中的方法進行篩選:

步驟s202,對于每個文本對象集合,將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較,篩選得到文本對象的總項數(shù)小于或等于預(yù)設(shè)項數(shù)閾值的文本對象集合進行后續(xù)處理。

通常情況下,文件中除目錄頁以外的其他頁面中,具有相同文字樣式且屬于目錄項的文本對象一般為各大小章節(jié)的標題,其總項數(shù)相較于非目錄項的文本對象的總項數(shù)少,因此,對于每個文本對象集合,可以將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較來確定文本對象集合是否可能為目錄項的文本對象集合,若文本對象的總項數(shù)大于預(yù)設(shè)項數(shù)閾值,則文本對象集合不可能是目錄項的文本對象集合,若文本對象的總項數(shù)小于或等于預(yù)設(shè)項數(shù)閾值,則文本對象集合可能是目錄項的文本對象集合,其中,預(yù)設(shè)項數(shù)閾值可以根據(jù)實際經(jīng)驗進行設(shè)定,例如,設(shè)定為15,這里僅是舉例說明,不具有任何限定作用,對篩選得到文本對象的總項數(shù)小于或等于預(yù)設(shè)項數(shù)閾值的文本對象集合可以進行后續(xù)處理。

當(dāng)然,對于每個文本對象集合,本發(fā)明可以僅通過將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較的方法來對文本對象集合進行篩選,但是為了進一步提升準確性,還可以在將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較之后,再將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較從而進一步篩選文本對象集合。

步驟s203,對于每個文本對象集合,將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較,篩選得到文本對象的平均字數(shù)小于或等于預(yù)設(shè)字數(shù)閾值的文本對象集合進行后續(xù)處理。

通常情況下,文件中除目錄頁以外的其他頁面中,具有相同文字樣式且屬于目錄項的文本對象一般為各大小章節(jié)的標題,其平均字數(shù)相較于非目錄項的文本對象的平均字數(shù)少,因此,對于每個文本對象集合,可以將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較,來確定文本對象集合是否可能為目錄項的文本對象集合,若文本對象的平均字數(shù)大于預(yù)設(shè)字數(shù)閾值,則文本對象集合不可能是目錄項的文本對象集合,若文本對象的平均字數(shù)小于或等于預(yù)設(shè)字數(shù)閾值,則文本對象集合可能是目錄項的文本對象集合,其中,預(yù)設(shè)字數(shù)閾值可以根據(jù)實際經(jīng)驗進行設(shè)定,例如,設(shè)定為20,這里僅是舉例說明,不具有任何限定作用,對篩選得到文本對象的平均字數(shù)小于或等于預(yù)設(shè)字數(shù)閾值的文本對象集合可以進行后續(xù)處理。

當(dāng)然,對于每個文本對象集合,本發(fā)明可以僅通過將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較的方法來對文本對象集合進行篩選,但是為了進一步提升準確性,還可以在將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較之后,再將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較從而進一步篩選文本對象集合。

步驟s204,對于每個文本對象集合,將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較,篩選得到文本對象的文字字號大于或等于預(yù)設(shè)字號閾值的文本對象集合進行后續(xù)處理。

通常情況下,文件中除目錄頁以外的其他頁面中,具有相同文字樣式且屬于目錄項的文本對象一般為各大小章節(jié)的標題,其文字字號相較于非目錄項的文本對象的文字字號大,因此,對于每個文本對象集合,可以將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較,來確定文本對象集合是否可能為目錄項的文本對象集合,若文本對象的文字字號小于預(yù)設(shè)字號閾值,則文本對象集合不可能是目錄項的文本對象集合,若文本對象的文字字號大于或等于預(yù)設(shè)字號閾值,則文本對象集合可能是目錄項的文本對象集合,其中,預(yù)設(shè)字數(shù)閾值可以根據(jù)實際經(jīng)驗進行設(shè)定,例如,設(shè)定為14,這里僅是舉例說明,不具有任何限定作用,對篩選得到文本對象的文字字號大于或等于預(yù)設(shè)字號閾值的文本對象集合可以進行后續(xù)處理。

當(dāng)然,對于每個文本對象集合,本發(fā)明可以僅將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較的方法來對文本對象集合進行篩選,但是為了進一步提升準確性,還可以在將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較之后,再將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較從而進一步篩選文本對象集合。

另外,本發(fā)明可以僅利用步驟s202-步驟s204中的方法對文本對象集合進行篩選,但是為了進一步提升目錄頁生成效率,減少匹配次數(shù),還可以在對文本對象集合進行初篩后,對篩選后的文本對象集合進行排序。

步驟s205,對于每個文本對象集合,依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序。

不同文本對象集合中文本對象的文字字號并不相同,為了能夠優(yōu)先將可能屬于目錄項的文本對象集合與目錄項文本進行文字內(nèi)容模糊匹配,減少后續(xù)匹配次數(shù),本實施例可以依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序,從而可以依據(jù)排序結(jié)果進行后續(xù)匹配。

步驟s206,依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合。

在多個文本對象集合排序結(jié)果之后,依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,舉例說明,多個文本對象集合的排序分別為:文本對象集合1、文本對象集合3、文本對象集合2,則需要依據(jù)該排序結(jié)果,分別將文本對象集合1文本對象集合3、文本對象集合2中的文本對象與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合。

具體地,可以采用如下方法確定文本對象是否屬于目錄項的文本對象集合:判斷文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對象屬于目錄項的文本對象集合。

在本發(fā)明實施例中,若文本對象集合屬于目錄項的文本對象集合,則該文本對象集合中大部分的文本對象的文字內(nèi)容是與目錄項文本的文字內(nèi)容匹配的,可能會存在很少一部分文本對象的文字內(nèi)容不匹配的情況,因此,可以通過判斷文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值來確定文本對象是否屬于目錄項的文本對象集合,若文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率大于或等于預(yù)設(shè)比率閾值,則可以確定文本對象屬于目錄項的文本對象集合;若文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率小于預(yù)設(shè)比率閾值,則可以確定文本對象不屬于目錄項的文本對象集合,其中,預(yù)設(shè)比率閾值可以根據(jù)實際經(jīng)驗進行設(shè)定,例如,設(shè)定預(yù)設(shè)比率閾值為95%,這里僅是舉例說明,不具有任何限定作用。

當(dāng)然,本發(fā)明還可以不對文本對象集合進行初篩,僅依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序,然后進行文字內(nèi)容模糊匹配。

步驟s207,依據(jù)文字字號確定屬于目錄項的文本對象集合中文本對象的目錄級別。

其中,文字樣式包括:文字字號和文字字體,一般情況下,一級目錄的文字字號大于二級目錄的文字字號,二級目錄的文字字號大于三級目錄的文字字號……,因此,可以依據(jù)文字字號確定屬于目錄項的文本對象集合中文本對象的目錄級別。

本發(fā)明不僅可以根據(jù)文字字號確定目錄級別,當(dāng)然還可以采用以下方法確定目錄級別:依據(jù)屬于目錄項的文本對象集合中文本對象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項的文本對象集合中文本對象的目錄級別。

其中,初始偏移位置指屬于同一文字樣式的文本對象在文件中其他頁面首次出現(xiàn)的位置,一般情況下,一級目錄在文件中出現(xiàn)的初始偏移位置較二級目錄在文件中出現(xiàn)的初始偏移位置靠前,二級目錄在文件中出現(xiàn)的初始偏移位置較三級目錄在文件中出現(xiàn)的初始偏移位置靠前……,因此,可以依據(jù)屬于目錄項的文本對象集合中文本對象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項的文本對象集合中文本對象的目錄級別。

步驟s208,依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

在確定了屬于目錄項的文本對象集合中文本對象的目錄級別之后,可以依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置相關(guān)聯(lián),然后生成目錄頁。文本偏移位置指文本對象在文件中位置,例如,文本對象在文件中的段落信息,在確定了文本對象屬于目錄項的文本對象集合之后,將文本對象與該文本對象在文件中的文本偏移位置相關(guān)聯(lián),然后生成目錄頁,這里的相關(guān)聯(lián)指當(dāng)用戶點擊所生成的目錄頁中的某文本對象時,可以根據(jù)文本偏移位置自動且準確地跳轉(zhuǎn)到該文本對象在文件中的位置,舉例說明,目錄頁中某文本對象在文件中的段落信息為第5段,則用戶點擊目錄頁中該文本對象時,可以跳轉(zhuǎn)至第5段對應(yīng)的文本對象。由于是根據(jù)文件中除目錄頁以外的其他頁面中的文本對象生成目錄頁,相對于直接對文件中的目錄頁進行識別的結(jié)果來說,所生成的目錄更為準確,能夠更為準確地引導(dǎo)用戶閱讀。

這里以pdf文件為例,很多時候會對pdf文件中的目錄進行版式設(shè)計,由于沒有統(tǒng)一的設(shè)計標準,如果直接對pdf文件的目錄項文本進行識別,根據(jù)識別結(jié)果得到的目錄頁并不準確,然而當(dāng)需要將pdf文件轉(zhuǎn)換為epub文件時,通過識別pdf文件中的目錄項文本生成epub文件的目錄頁,就很容易出錯,因此,可以步驟s200-步驟s208中的方法來生成epub文件的目錄頁,從而保證了epub文件的目錄頁的準確性。

根據(jù)本發(fā)明上述實施例提供的方法,在得到多個具有不同文字樣式的文本對象集合后,對文本對象集合進行多次篩選,提升了篩選后的文本對象集合是目錄項文本對象集合的概率,從而進一步提高了生成目錄的準確性;依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序,依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,可以減少匹配次數(shù),提高了生成目錄頁的速率。此外,利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準確性,保證生成的目錄頁更為準確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對象,給予用戶正確地引導(dǎo)。

圖3示出了根據(jù)本發(fā)明一個實施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖。如圖3所示,該裝置包括:聚類處理模塊300、分析模塊310、匹配模塊320和生成模塊330。

聚類處理模塊300,適于對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合。

分析模塊310,適于對文件的目錄頁進行分析,得到目錄項文本。

匹配模塊320,適于對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合。

生成模塊330,適于將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

根據(jù)本發(fā)明上述實施例提供的裝置,對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合,對文件的目錄頁進行分析,得到目錄項文本,對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準確性,保證生成的目錄頁更為準確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對象,給予用戶正確地引導(dǎo)。

圖4示出了根據(jù)本發(fā)明另一個實施例的文件目錄的生成裝置的結(jié)構(gòu)示意圖。如圖4所示,該裝置包括:聚類處理模塊400、分析模塊410、篩選模塊420、排序模塊430、匹配模塊440和生成模塊450。

聚類處理模塊400,適于對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合。

分析模塊410,適于對文件的目錄頁進行分析,得到目錄項文本。

篩選模塊420,適于對于每個文本對象集合,將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較,篩選得到文本對象的總項數(shù)小于或等于預(yù)設(shè)項數(shù)閾值的文本對象集合進行后續(xù)處理。

此外,篩選模塊420進一步適于:對于每個文本對象集合,將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較,篩選得到文本對象的平均字數(shù)小于或等于預(yù)設(shè)字數(shù)閾值的文本對象集合進行后續(xù)處理。

此外,篩選模塊420進一步適于:對于每個文本對象集合,將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較,篩選得到文本對象的文字字號大于或等于預(yù)設(shè)字號閾值的文本對象集合進行后續(xù)處理。

排序模塊430,適于依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序。

匹配模塊440,適于依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合。

此外,匹配模塊440進一步適于:判斷文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對象屬于目錄項的文本對象集合。

在本發(fā)明實施例中,文字樣式包括:文字字號和文字字體;

生成模塊450進一步包括:確定單元451,適于依據(jù)文字字號確定屬于目錄項的文本對象集合中文本對象的目錄級別;

生成單元452,適于依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

本發(fā)明不僅可以根據(jù)文字字號確定目錄級別,還可以依據(jù)屬于目錄項的文本對象集合中文本對象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項的文本對象集合中文本對象的目錄級別,具體地,生成模塊進一步包括:確定單元,適于依據(jù)屬于目錄項的文本對象集合中文本對象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項的文本對象集合中文本對象的目錄級別;

生成單元452,適于依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

根據(jù)本發(fā)明上述實施例提供的裝置,在得到多個具有不同文字樣式的文本對象集合后,對文本對象集合進行多次篩選,提升了篩選后的文本對象集合是目錄項文本對象集合的概率,從而進一步提高了生成目錄的準確性;依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序,依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,可以減少匹配次數(shù),提高了生成目錄頁的速率。此外,利用本發(fā)明提供的技術(shù)方案,能夠提升目錄的規(guī)范性和準確性,保證生成的目錄頁更為準確,從而使用戶能夠充分地利用目錄定位到相應(yīng)的文本對象,給予用戶正確地引導(dǎo)。

本申請實施例提供了一種非易失性計算機存儲介質(zhì),計算機存儲介質(zhì)存儲有至少一可執(zhí)行指令,該計算機可執(zhí)行指令可執(zhí)行上述任意方法實施例中的文件目錄的生成方法。

圖5示出了根據(jù)本發(fā)明實施例的一種服務(wù)器的結(jié)構(gòu)示意圖,本發(fā)明具體實施例并不對服務(wù)器的具體實現(xiàn)做限定。

如圖5所示,該服務(wù)器可以包括:處理器(processor)502、通信接口(communicationsinterface)504、存儲器(memory)506、以及通信總線508。

其中:

處理器502、通信接口504、以及存儲器506通過通信總線508完成相互間的通信。

通信接口504,用于與其它設(shè)備比如客戶端或其它服務(wù)器等的網(wǎng)元通信。

處理器502,用于執(zhí)行程序510,具體可以執(zhí)行上述文件目錄的生成方法實施例中的相關(guān)步驟。

具體地,程序510可以包括程序代碼,該程序代碼包括計算機操作指令。

處理器502可能是中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路。服務(wù)器包括的一個或多個處理器,可以是同一類型的處理器,如一個或多個cpu;也可以是不同類型的處理器,如一個或多個cpu以及一個或多個asic。

存儲器506,用于存放第一數(shù)據(jù)集合、第二數(shù)據(jù)集合以及程序510。存儲器506可能包含高速ram存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器。

程序510具體可以用于使得處理器502執(zhí)行以下操作:對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合;對文件的目錄頁進行分析,得到目錄項文本;對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合;將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

在一種可選的實施方式中,文字樣式包括:文字字號和文字字體;

程序510還用于使得處理器502在將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁時:依據(jù)文字字號確定屬于目錄項的文本對象集合中文本對象的目錄級別;依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

在一種可選的實施方式中,程序510還用于使得處理器502在將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁時:依據(jù)屬于目錄項的文本對象集合中文本對象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項的文本對象集合中文本對象的目錄級別;依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

在一種可選的實施方式中,程序510還用于使得處理器502在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合時:判斷文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對象屬于目錄項的文本對象集合。

在一種可選的實施方式中,程序510還用于使得處理器502在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,對于每個文本對象集合,將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較,篩選得到文本對象的總項數(shù)小于或等于預(yù)設(shè)項數(shù)閾值的文本對象集合進行后續(xù)處理。

在一種可選的實施方式中,程序510還用于使得處理器502在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,對于每個文本對象集合,將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較,篩選得到文本對象的平均字數(shù)小于或等于預(yù)設(shè)字數(shù)閾值的文本對象集合進行后續(xù)處理。

在一種可選的實施方式中,程序510還用于使得處理器502在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,對于每個文本對象集合,將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較,篩選得到文本對象的文字字號大于或等于預(yù)設(shè)字號閾值的文本對象集合進行后續(xù)處理。

在一種可選的實施方式中,程序510還用于使得處理器502在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序;

程序510還用于使得處理器502在對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配時:依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配。

在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。

在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。

類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。

本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。

本發(fā)明公開了:a1.一種文件目錄的生成方法,包括:

對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合;

對文件的目錄頁進行分析,得到目錄項文本;

對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合;

將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

a2.根據(jù)a1所述的方法,其中,所述文字樣式包括:文字字號和文字字體;

所述將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁進一步包括:

依據(jù)文字字號確定屬于目錄項的文本對象集合中文本對象的目錄級別;

依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

a3.根據(jù)a1所述的方法,其中,所述將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁進一步包括:

依據(jù)屬于目錄項的文本對象集合中文本對象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項的文本對象集合中文本對象的目錄級別;

依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

a4根據(jù)a1-a3任一項所述的方法,其中,所述將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合進一步包括:

判斷文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;

若是,則確定文本對象屬于目錄項的文本對象集合。

a5.根據(jù)a1-a4任一項所述的方法,其中,在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,所述方法還包括:

對于每個文本對象集合,將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較,篩選得到文本對象的總項數(shù)小于或等于預(yù)設(shè)項數(shù)閾值的文本對象集合進行后續(xù)處理。

a6.根據(jù)a1-a4任一項所述的方法,其中,在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,所述方法還包括:

對于每個文本對象集合,將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較,篩選得到文本對象的平均字數(shù)小于或等于預(yù)設(shè)字數(shù)閾值的文本對象集合進行后續(xù)處理。

a7.根據(jù)a1-a4任一項所述的方法,其中,在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,所述方法還包括:

對于每個文本對象集合,將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較,篩選得到文本對象的文字字號大于或等于預(yù)設(shè)字號閾值的文本對象集合進行后續(xù)處理。

a8.根據(jù)a1-a7任一項所述的方法,其中,在將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配之前,所述方法還包括:

依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序;

所述對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配進一步包括:

依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配。

本發(fā)明還公開了:b9.一種文件目錄的生成裝置,包括:

聚類處理模塊,適于對文件中除目錄頁以外的其他頁面中的文本對象進行文字樣式聚類處理,得到多個具有不同文字樣式的文本對象集合;

分析模塊,適于對文件的目錄頁進行分析,得到目錄項文本;

匹配模塊,適于對于每個文本對象集合,將該文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配,根據(jù)模糊匹配結(jié)果,確定文本對象屬于目錄項的文本對象集合;

生成模塊,適于將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

b10.根據(jù)b9所述的裝置,其中,所述文字樣式包括:文字字號和文字字體;

所述生成模塊進一步包括:確定單元,適于依據(jù)文字字號確定屬于目錄項的文本對象集合中文本對象的目錄級別;

生成單元,適于依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

b11.根據(jù)b9所述的裝置,其中,所述生成模塊進一步包括:確定單元,適于依據(jù)屬于目錄項的文本對象集合中文本對象在文件中出現(xiàn)的初始偏移位置,確定屬于目錄項的文本對象集合中文本對象的目錄級別;

生成單元,適于依據(jù)目錄級別,將文本對象與該文本對象在文件中的文本偏移位置關(guān)聯(lián)生成目錄頁。

b12.根據(jù)b9-b11任一項所述的裝置,其中,所述匹配模塊進一步適于:判斷文本對象集合中與目錄項文本的文字內(nèi)容匹配的文本對象的項數(shù)與文本對象集合中文本對象的總項數(shù)的比率是否大于或等于預(yù)設(shè)比率閾值;若是,則確定文本對象屬于目錄項的文本對象集合。

b13.根據(jù)b9-b12任一項所述的裝置,其中,所述裝置還包括:篩選模塊,適于對于每個文本對象集合,將文本對象的總項數(shù)與預(yù)設(shè)項數(shù)閾值進行比較,篩選得到文本對象的總項數(shù)小于或等于預(yù)設(shè)項數(shù)閾值的文本對象集合進行后續(xù)處理。

b14.根據(jù)b9-b12任一項所述的裝置,其中,所述裝置還包括:篩選模塊,適于對于每個文本對象集合,將文本對象的平均字數(shù)與預(yù)設(shè)字數(shù)閾值進行比較,篩選得到文本對象的平均字數(shù)小于或等于預(yù)設(shè)字數(shù)閾值的文本對象集合進行后續(xù)處理。

b15.根據(jù)b9-b12任一項所述的裝置,其中,所述裝置還包括:篩選模塊,適于對于每個文本對象集合,將文本對象的文字字號與預(yù)設(shè)字號閾值進行比較,篩選得到文本對象的文字字號大于或等于預(yù)設(shè)字號閾值的文本對象集合進行后續(xù)處理。

b16.根據(jù)b9-b15任一項所述的裝置,其中,所述裝置還包括:

排序模塊,適于依據(jù)文字字號從大到小的順序?qū)Χ鄠€文本對象集合進行排序;

所述匹配模塊進一步適于:依據(jù)排序結(jié)果,依次將每個文本對象集合中文本對象分別與目錄項文本進行文字內(nèi)容模糊匹配。

本發(fā)明還公開了:c17.一種服務(wù)器,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;

所述存儲器用于存放至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如a1-a8中任一項所述的文件目錄的生成方法對應(yīng)的操作。

本發(fā)明還公開了:d18.一種計算機存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行如a1-a8中任一項所述的文件目錄的生成方法對應(yīng)的操作。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1