午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語(yǔ)音增強(qiáng)設(shè)備和語(yǔ)音記錄設(shè)備及方法、計(jì)算機(jī)可讀記錄介質(zhì)的制作方法

文檔序號(hào):2837369閱讀:440來(lái)源:國(guó)知局
專利名稱:語(yǔ)音增強(qiáng)設(shè)備和語(yǔ)音記錄設(shè)備及方法、計(jì)算機(jī)可讀記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚部分進(jìn)行校正并輸出的語(yǔ)音 增強(qiáng)設(shè)備、語(yǔ)音記錄設(shè)備、語(yǔ)音增強(qiáng)程序、語(yǔ)音記錄程序、語(yǔ)音增強(qiáng)方 法和語(yǔ)音記錄方法,更具體地涉及這樣的語(yǔ)音增強(qiáng)設(shè)備、語(yǔ)音記錄設(shè)備、 語(yǔ)音增強(qiáng)程序、語(yǔ)音記錄程序、語(yǔ)音增強(qiáng)方法和語(yǔ)音記錄方法,它們可 自動(dòng)地檢測(cè)并自動(dòng)地校正與爆破音(例如是否存在爆破音部分,在爆破 音部分之后持續(xù)的送氣音部分的音素長(zhǎng)度)有關(guān)的缺陷部分,或者與摩 擦音的幅度變化有關(guān)的缺陷部分。
背景技術(shù)
可以容易地復(fù)制包括含有人聲的記錄語(yǔ)音的語(yǔ)音數(shù)據(jù)。為此,語(yǔ)音 數(shù)據(jù)通??啥啻沃匦率褂?。尤其是,因?yàn)槔缭诨ヂ?lián)網(wǎng)上播客(podcasting)期間可以容易地重新分發(fā)包括數(shù)字記錄語(yǔ)音的語(yǔ)音數(shù)據(jù), 所以語(yǔ)音數(shù)據(jù)可以被頻繁地重新使用。但是,人聲并不總是清楚地發(fā)出。例如,在人聲中,爆破音或摩擦 音的音量比所包括的其它音節(jié)或唇音更高,因而極其難以聽(tīng)到人聲。另 外,因?yàn)榭扇菀椎貜?fù)制并重新分發(fā)語(yǔ)音數(shù)據(jù),所以由于向下釆樣以及重 復(fù)地進(jìn)行編碼和解碼而使得輔音部分變得不清楚。由于輔音部分變得不 清楚,而使得非常難以聽(tīng)到再現(xiàn)的語(yǔ)音數(shù)據(jù)。但是,即使語(yǔ)音數(shù)據(jù)中的輔音部分不清楚或者語(yǔ)音數(shù)據(jù)包括唇音, 由于重新記錄需要進(jìn)一步的人工,所以語(yǔ)音數(shù)據(jù)還是以記錄語(yǔ)音原樣分 發(fā)。另外,即使由于向下采樣或者重復(fù)地編碼和解碼而使得輔音部分變 得不清楚,用戶也必須容忍例如由于復(fù)制導(dǎo)致的聲音質(zhì)量變差的缺陷。為了再現(xiàn)易于聽(tīng)到的語(yǔ)音數(shù)據(jù),提出了各種技術(shù)來(lái)自動(dòng)地檢測(cè)并自 動(dòng)地校正所記錄的語(yǔ)音數(shù)據(jù)的缺陷部分。例如,在用于增強(qiáng)語(yǔ)音中的輔 音部分的清晰度的技術(shù)中,使用低通濾波器去除語(yǔ)音中包含的噪音頻率 分量,因而使得語(yǔ)音頻帶易于聽(tīng)到。在日本專利申請(qǐng)?zhí)亻_(kāi)平8-275087號(hào)公報(bào)中公開(kāi)的、作為增強(qiáng)輔音部 分的方法的輔音增強(qiáng)方法中,通過(guò)對(duì)倒譜中的控制函數(shù)求巻積以縮短倒 譜基音從而增強(qiáng)由倒譜基音檢測(cè)出的輔音部分?;谝粑粩?shù)據(jù),在日本專利申請(qǐng)?zhí)亻_(kāi)2004-4952號(hào)公報(bào)中公開(kāi)的語(yǔ) 音合成器對(duì)輔音部分進(jìn)行頻帶增強(qiáng),或者對(duì)輔音或輔音及后續(xù)元音的延 留音進(jìn)行幅度增強(qiáng)處理。另外,在日本專利申請(qǐng)?zhí)亻_(kāi)2003-345373號(hào)公報(bào) 中公開(kāi)的語(yǔ)音合成器包括濾波器,該濾波器使用表示清輔音特性的頻譜 特性作為傳遞函數(shù)。該語(yǔ)音合成器對(duì)音素的頻譜分布進(jìn)行濾波處理以增 強(qiáng)頻譜分布的特性。但是,由于與爆破音有關(guān)的缺陷(例如,是否存在爆破音部分,在 爆破音部分之后持續(xù)的送氣音部分的音素長(zhǎng)度)或者與摩擦音的幅度變 化有關(guān)的缺陷,輔音或清元音可能包括語(yǔ)音清晰度較低的聲音或不悅耳 的聲音。為此,盡管以專利文獻(xiàn)1至3為代表的傳統(tǒng)技術(shù)可用于檢測(cè)并 校正輔音或清元音,但是該傳統(tǒng)技術(shù)不能用于進(jìn)一步劃分音素以檢測(cè)并 校正與爆破音有關(guān)的缺陷部分或者與摩擦音的幅度變化有關(guān)的缺陷部 分。另外,如果原始語(yǔ)音自身包括缺陷,那么僅增強(qiáng)原始語(yǔ)音的輔音部 分也會(huì)增強(qiáng)所述缺陷部分,從而更難以聽(tīng)到語(yǔ)音。本發(fā)明的目的是更容易地解決上述缺陷,并提供這樣的語(yǔ)音增強(qiáng)設(shè) 備、語(yǔ)音記錄設(shè)備、語(yǔ)音增強(qiáng)程序、語(yǔ)音記錄程序、語(yǔ)音增強(qiáng)方法和語(yǔ) 音記錄方法,它們可自動(dòng)地檢測(cè)并自動(dòng)地校正再現(xiàn)語(yǔ)音中的與爆破音(例 如是否存在爆破音部分,在爆破音部分之后持續(xù)的送氣音部分的音素長(zhǎng) 度)有關(guān)的缺陷部分,或者與摩擦音的幅度變化有關(guān)的缺陷部分。發(fā)明內(nèi)容本發(fā)明的目的是至少部分解決傳統(tǒng)技術(shù)中的問(wèn)題。 根據(jù)本發(fā)明的一個(gè)方面,對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚部分進(jìn)行校正
并輸出的語(yǔ)音增強(qiáng)設(shè)備包括波形特征量計(jì)算單元,該波形特征量計(jì)算 單元對(duì)于各音素計(jì)算語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同將該語(yǔ) 音數(shù)據(jù)劃分為音素的音素邊界數(shù)據(jù)一起被輸入;校正確定單元,該校正 確定單元基于由所述波形特征量計(jì)算單元計(jì)算的波形特征量,對(duì)于各音 素確定語(yǔ)音數(shù)據(jù)校正的必要性;以及波形校正單元,該波形校正單元通過(guò)使用預(yù)先存儲(chǔ)在音素式波形數(shù)據(jù)(phonemewise-waveform-data)存儲(chǔ) 單元中的波形數(shù)據(jù),對(duì)于各音素對(duì)由所述校正確定單元確定有校正必要 的語(yǔ)音數(shù)據(jù)進(jìn)行校正。
根據(jù)本發(fā)明的另一方面,用于將輸入的語(yǔ)音數(shù)據(jù)記錄在音素式波形 數(shù)據(jù)存儲(chǔ)單元中的語(yǔ)音記錄設(shè)備包括音素識(shí)別數(shù)據(jù)輸出單元,該音素 識(shí)別數(shù)據(jù)輸出單元基于輸入的語(yǔ)音數(shù)據(jù)以及通過(guò)對(duì)語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù) 進(jìn)行語(yǔ)言處理輸出的音素串而向語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述 音素識(shí)別數(shù)據(jù)的邊界,并輸出所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音 素邊界數(shù)據(jù);波形特征量計(jì)算單元,該波形特征量計(jì)算單元對(duì)于各音素 計(jì)算語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同由所述音素識(shí)別數(shù)據(jù)輸 出單元輸出的音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)一起被輸入;條件充分性確定單元,該條件充分性確定單元基于由所述波形特征量計(jì)算單元計(jì)算的波形 特征量而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)是否滿足預(yù)定條件;以及音素波 形數(shù)據(jù)記錄單元,該音素波形數(shù)據(jù)記錄單元基于所述條件充分性確定單 元的確定而將被確定為滿足所述預(yù)定條件的各音素的語(yǔ)音數(shù)據(jù)記錄在所 述音素式波形數(shù)據(jù)存儲(chǔ)單元中。根據(jù)本發(fā)明的又一方面,計(jì)算機(jī)可讀記錄介質(zhì)中存儲(chǔ)有使得計(jì)算機(jī) 對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚部分進(jìn)行校正并輸出的語(yǔ)音增強(qiáng)程序,該語(yǔ) 音增強(qiáng)程序使得所述計(jì)算機(jī)執(zhí)行下列步驟對(duì)于各音素計(jì)算語(yǔ)音數(shù)據(jù)的 波形特征量,所述語(yǔ)音數(shù)據(jù)連同將該語(yǔ)音數(shù)據(jù)劃分為音素的音素邊界數(shù) 據(jù)一起被輸入;基于在波形特征量的計(jì)算步驟中計(jì)算的波形特征量,對(duì) 于各音素確定語(yǔ)音數(shù)據(jù)校正的必要性;以及通過(guò)使用預(yù)先存儲(chǔ)在音素式 波形數(shù)據(jù)存儲(chǔ)單元中的波形數(shù)據(jù),對(duì)于各音素對(duì)在所述確定步驟中確定 有校正必要的語(yǔ)音數(shù)據(jù)進(jìn)行校正。根據(jù)本發(fā)明的再一方面,計(jì)算機(jī)可讀記錄介質(zhì)中存儲(chǔ)有使得計(jì)算機(jī) 將輸入的語(yǔ)音數(shù)據(jù)記錄在音素式波形數(shù)據(jù)存儲(chǔ)單元中的語(yǔ)音記錄程序, 該語(yǔ)音記錄程序使得所述計(jì)算機(jī)執(zhí)行下列步驟基于輸入的語(yǔ)音數(shù)據(jù)以 及通過(guò)對(duì)所述語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù)進(jìn)行語(yǔ)言處理輸出的音素串而向所述 語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述音素識(shí)別數(shù)據(jù)的邊界,并輸出所 述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音素邊界數(shù)據(jù);對(duì)于各音素計(jì)算所 述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同在所述輸出步驟中輸出的 音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)一起被輸入;基于在所述計(jì)算步驟中計(jì)算的波 形特征量而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)是否滿足預(yù)定條件;以及基于 所述確定步驟中的確定而將被確定為滿足所述預(yù)定條件的各音素的語(yǔ)音 數(shù)據(jù)記錄在所述音素式波形數(shù)據(jù)存儲(chǔ)單元中。根據(jù)本發(fā)明的又一方面,根據(jù)本發(fā)明的對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚 部分進(jìn)行校正并輸出的語(yǔ)音增強(qiáng)方法包括下列步驟對(duì)于各音素計(jì)算語(yǔ) 音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同將該語(yǔ)音數(shù)據(jù)劃分為音素的音 素邊界數(shù)據(jù)一起被輸入;基于在所述計(jì)算步驟中計(jì)算的波形特征量,對(duì) 于各音素確定所述語(yǔ)音數(shù)據(jù)校正的必要性;以及通過(guò)使用預(yù)先存儲(chǔ)在音 素式波形數(shù)據(jù)存儲(chǔ)單元中的波形數(shù)據(jù),對(duì)于各音素對(duì)在所述確定步驟中 確定有校正必要的語(yǔ)音數(shù)據(jù)進(jìn)行校正。根據(jù)本發(fā)明的再一方面,根據(jù)本發(fā)明的對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚 部分進(jìn)行校正并輸出的語(yǔ)音記錄方法包括下列步驟基于輸入的語(yǔ)音數(shù) 據(jù)以及通過(guò)對(duì)所述語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù)進(jìn)行語(yǔ)言處理輸出的音素串而向 所述語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述音素識(shí)別數(shù)據(jù)的邊界,并輸 出所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音素邊界數(shù)據(jù);對(duì)于各音素計(jì) 算所述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同在所述輸出步驟中輸 出的所述音素識(shí)別數(shù)據(jù)的所述邊界數(shù)據(jù)一起被輸入;基于在所述計(jì)算步 驟中計(jì)算的波形特征量而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)是否滿足預(yù)定條 件;以及基于所述確定步驟中的確定結(jié)果而將被確定為滿足所述預(yù)定條 件的各音素的語(yǔ)音數(shù)據(jù)記錄在所述音素式波形數(shù)據(jù)存儲(chǔ)單元中。通過(guò)結(jié)合附圖閱讀對(duì)下面本發(fā)明當(dāng)前優(yōu)選實(shí)施方式的詳細(xì)描述,將
更好地理解本發(fā)明的上述和其它目的、特征、優(yōu)點(diǎn)以及技術(shù)和工業(yè)重要 性。


圖1是用于說(shuō)明本發(fā)明的顯著特征的說(shuō)明圖;圖2是根據(jù)本發(fā)明第一實(shí)施方式的語(yǔ)音增強(qiáng)設(shè)備的功能性框圖;圖3是根據(jù)第一實(shí)施方式的語(yǔ)音增強(qiáng)處理的流程圖;圖4是根據(jù)本發(fā)明第二實(shí)施方式的語(yǔ)音增強(qiáng)設(shè)備的功能性框圖;圖5是根據(jù)第二實(shí)施方式的語(yǔ)音增強(qiáng)處理的流程圖;圖6是其中用具有爆破音部分的音素"d"替代沒(méi)有爆破音部分的音素"d"的校正實(shí)施例的示意圖;圖7是其中用具有爆破音部分的音素"d"增補(bǔ)沒(méi)有爆破音部分的音素"d"的校正實(shí)施例的示意圖;圖8是其中替代包括唇音的"SH"和"s"的校正實(shí)施例的示意圖; 圖9是根據(jù)本發(fā)明第三實(shí)施方式的語(yǔ)音記錄設(shè)備的功能性框圖;以及圖IO是根據(jù)第三實(shí)施方式的語(yǔ)音記錄處理的流程圖。
具體實(shí)施方式
下面將參照

根據(jù)本發(fā)明的語(yǔ)音增強(qiáng)設(shè)備、語(yǔ)音記錄設(shè)備、 語(yǔ)音增強(qiáng)程序、語(yǔ)音記錄程序、語(yǔ)音增強(qiáng)方法和語(yǔ)音記錄方法的示例性 實(shí)施方式。在下面描述的第一和第二實(shí)施方式中,本發(fā)明應(yīng)用于安裝在 計(jì)算機(jī)上的語(yǔ)音增強(qiáng)設(shè)備,該計(jì)算機(jī)與輸出單元(例如,揚(yáng)聲器)相連 并且再現(xiàn)語(yǔ)音數(shù)據(jù)并通過(guò)輸出單元輸出再現(xiàn)的語(yǔ)音數(shù)據(jù)。但是,本發(fā)明 并不這樣受到限制,而可以廣泛應(yīng)用于從輸出單元再現(xiàn)語(yǔ)音的語(yǔ)音再現(xiàn) 設(shè)備。另外,在下面描述的第三實(shí)施方式中,本發(fā)明應(yīng)用于安裝在計(jì)算 機(jī)上的語(yǔ)音記錄設(shè)備,該計(jì)算機(jī)與輸入單元(例如,麥克風(fēng))和其中存 儲(chǔ)有釆樣輸入語(yǔ)音的存儲(chǔ)單元相連。在說(shuō)明本發(fā)明的第一至第三實(shí)施方式之前來(lái)說(shuō)明本發(fā)明的顯著特
征。圖1是用于說(shuō)明本發(fā)明的顯著特征的說(shuō)明圖。如圖1所示,包括不清楚或不悅耳的輔音或清元音的語(yǔ)音被輸入根據(jù)本發(fā)明的語(yǔ)音增強(qiáng)設(shè)備。該語(yǔ)音增強(qiáng)設(shè)備將語(yǔ)音劃分為音素,并將各音素分類為清爆破音、濁爆破音、清摩擦音、濁摩擦音、塞擦音或清元音中的任一個(gè)。根據(jù)校正各音素的必要性的確定對(duì)各音素進(jìn)行校正,從而可以獲得包括清楚的輔音和清元音且悅耳的清楚語(yǔ)音輸出。但是,在難以聽(tīng)到并包括語(yǔ)音清晰度較低的聲音或不悅耳的聲音的語(yǔ)音中,輔音和清元音經(jīng)常不清楚。尤其是,如果在輔音和清元音中包括有語(yǔ)音清晰度較低的聲音或不悅耳的聲音,則缺陷經(jīng)常包括由于爆破音(例如,是否存在爆破音部分,在爆破音部分之后持續(xù)的送氣音部分的音素長(zhǎng)度)導(dǎo)致的缺陷或者由于摩擦音的幅度變化導(dǎo)致的缺陷。因?yàn)樵趥鹘y(tǒng)技術(shù)中僅僅增強(qiáng)了輔音部分,所以如果原始語(yǔ)音本身包括缺陷,則缺陷部分也會(huì)被增強(qiáng)從而語(yǔ)音變得更難以聽(tīng)到。另外,不能檢測(cè)并校 正與爆破音有關(guān)的缺陷部分或者與摩擦音的幅度變化有關(guān)的缺陷部分。為了克服前述缺陷而作出本發(fā)明。在本發(fā)明中,為了使傾聽(tīng)者更容 易聽(tīng)到語(yǔ)音,基于語(yǔ)音中各音素的特征量以及音素之前和之后的音素?cái)?shù) 據(jù),計(jì)算出根據(jù)音素類型的特征量,以檢測(cè)由于爆破音(例如,是否存 在爆破音部分,在爆破音部分之后持續(xù)的送氣音部分的音素長(zhǎng)度)導(dǎo)致 的缺陷部分或者由于摩擦音的幅度變化導(dǎo)致的缺陷部分。諸如音素替代 和音素增補(bǔ)的自動(dòng)校正是可行的。[實(shí)施例1]下面將參照?qǐng)D2和圖3說(shuō)明本發(fā)明的第一實(shí)施方式。圖2是根據(jù)第 一實(shí)施方式的語(yǔ)音增強(qiáng)設(shè)備的功能性框圖。如圖2所示,語(yǔ)音增強(qiáng)設(shè)備IOO包括波形特征量計(jì)算單元IOI、校正確定單元102、濁音/清音確定單 元103、波形校正單元104、音素式波形數(shù)據(jù)存儲(chǔ)單元105以及波形產(chǎn)生 單元106。波形特征量計(jì)算單元101將輸入的語(yǔ)音劃分為音素并輸出音素式特 征量。波形特征量計(jì)算單元101包括音素劃分單元101a、幅度變化測(cè)量 單元101b、爆破音部分/送氣音部分檢測(cè)單元101c、音素分類單元101d、
音素式特征量計(jì)算單元101e和音素環(huán)境檢測(cè)單元101f。音素劃分單元101a基于音素邊界數(shù)據(jù)來(lái)劃分輸入的語(yǔ)音。如果劃分 的音素?cái)?shù)據(jù)包括周期分量,則音素劃分單元101a使用低通濾波器預(yù)先除 去低頻分量。幅度變化測(cè)量單元101b將通過(guò)音素劃分單元101a劃分的語(yǔ)音數(shù)據(jù) 劃分為n (n》2)個(gè)幀,計(jì)算各幀的幅度值,對(duì)幅度值的最大值求平均, 并使用平均數(shù)的變化率來(lái)檢測(cè)幅度變化率?;谟煞茸兓瘻y(cè)量單元101b計(jì)算的幅度值和幅度變化率,爆破音 部分/送氣音部分檢測(cè)單元101c檢測(cè)由音素劃分單元101a劃分的語(yǔ)音數(shù) 據(jù)是否包括爆破音部分。在爆破音部分檢測(cè)方法的實(shí)施例中,在將語(yǔ)音 數(shù)據(jù)劃分為發(fā)音部分和不發(fā)音部分之后,使用零交叉分布(語(yǔ)音數(shù)據(jù)的 波形的零分布)和發(fā)音部分的幅度變化率來(lái)檢測(cè)爆破音部分。如果劃分 的語(yǔ)音數(shù)據(jù)包括爆破音部分,則爆破音部分/送氣音部分檢測(cè)單元101c檢 測(cè)爆破音部分的長(zhǎng)度和在爆破音部分之后持續(xù)的送氣音部分的長(zhǎng)度。根據(jù)爆破音部分/送氣音部分檢測(cè)單元101c基于由幅度變化測(cè)量單 元101b計(jì)算的幅度變化率的檢測(cè)結(jié)果一是否存在爆破音部分和是否存在 送氣音部分,音素分類單元101d將音素分類為清爆破音、濁爆破音、清 摩擦音、塞擦音、濁摩擦音和周期性波形中任一個(gè)的波形。音素式特征量計(jì)算單元101e計(jì)算由音素劃分單元101a劃分的各音 素類型的特征量,并輸出該特征量作為音素式特征量。例如,如果音素 類型為清爆破音,則特征量包括是否存在爆破音部分、爆破音部分的數(shù) 量、爆破音部分的最大幅度值、是否存在送氣音部分、送氣音部分的長(zhǎng) 度、以及在爆破音部分之前的不發(fā)音部分的長(zhǎng)度。如果音素類型為塞擦 音,則特征量包括在爆破音部分之前的不發(fā)音部分的長(zhǎng)度、幅度變化率 和最大幅度值。如果音素類型為清摩擦音,則特征量包括幅度變化率和 最大幅度值。如果音素類型為濁爆破音,則特征量包括是否存在爆破音 部分。音素環(huán)境檢測(cè)單元101f確定由音素劃分單元101a劃分的音素?cái)?shù)據(jù) 的音素的前綴聲和后綴聲。音素環(huán)境檢測(cè)單元101f確定前綴聲和后綴聲
是不發(fā)音部分還是發(fā)音部分、或者前綴聲和后綴聲是濁音還是清音。音 素環(huán)境檢測(cè)單元101f輸出確定結(jié)果作為音素環(huán)境檢測(cè)結(jié)果。將由波形特征量計(jì)算單元101計(jì)算的音素式特征量和音素種類輸入 校正確定單元102?;诟饕羲胤N類和音素式特征量,校正確定單元102確定是否需要校正音素。校正確定單元102包括音素式數(shù)據(jù)分配單元 102a、清爆破音確定單元102b、濁爆破音確定單元102c、清摩擦音確定 單元102d、濁摩擦音確定單元102e、塞擦音確定單元102f和周期性波形 確定單元102g。基于音素類型和因素環(huán)境,音素式數(shù)據(jù)分配單元102a將由音素式特 征量計(jì)算單元lOle計(jì)算的音素式特征量分配給音素類型的確定單元,換 言之分配給清爆破音確定單元102b、濁爆破音確定單元102c、清摩擦音 確定單元102d、濁摩擦音確定單元102e、塞擦音確定單元102f和周期性 波形確定單元102g中的任一個(gè)。清爆破音確定單元102b接收清爆破音的音素式特征量的輸入,基于 該音素式特征量確定是否校正音素,并輸出確定結(jié)果。濁爆破音確定單 元102c接收濁爆破音的音素式特征量的輸入,基于該音素式特征量確定 是否校正音素,并輸出確定結(jié)果。清摩擦音確定單元102d接收清摩擦音 的音素式特征量的輸入,基于該音素式特征量確定是否校正音素,并輸 出確定結(jié)果。濁摩擦音確定單元102e接收濁摩擦音的音素式特征量的輸 入,基于該音素式特征量確定是否校正音素,并輸出確定結(jié)果。塞擦音 確定單元102f接收塞擦音的音素式特征量的輸入,基于該音素式特征量 確定是否校正音素,并輸出確定結(jié)果。周期性波形確定單元102g接收周 期性波形(清元音)的音素式特征量的輸入,基于該音素式特征量確定 是否校正音素,并輸出確定結(jié)果。如果語(yǔ)音數(shù)據(jù)包括一系列的不發(fā)音聲音,則音素式特征量計(jì)算單元 lOle將不發(fā)音部分視為邊界來(lái)計(jì)算特征量。將輸入的語(yǔ)音輸入給濁音/清音確定單元103。濁音/清音確定單元 103將輸入的語(yǔ)音分類為濁音部分和清音部分,并輸出濁音/清音數(shù)據(jù)以 及表示該部分是濁音還是由清摩擦音、清爆破音等構(gòu)成的清音的濁音/清
音邊界數(shù)據(jù)。濁音/清音確定單元103確定小于或等于輸入語(yǔ)音的低頻的閾值(例如,250 Hz)的功率?;谑褂妹繒r(shí)幀(例如,0.2秒)的最大 功率值歸一化的數(shù)據(jù),濁音/清音確定單元103確定小于或等于所述閾值 的部分為清音,并確定大于或等于所述閾值的部分為濁音。波形校正單元104接收輸入語(yǔ)音、輸入語(yǔ)音的濁音/清音邊界數(shù)據(jù)、 校正確定單元102的確定結(jié)果和音素種類的輸入。波形校正單元104使 用存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元105中的波形數(shù)據(jù)來(lái)進(jìn)行對(duì)原始數(shù)據(jù) 的替代或增加(增補(bǔ)),并校正需要校正的音素。波形校正單元104輸出 校正之后的語(yǔ)音數(shù)據(jù)?;谝羲厥教卣髁亢鸵羲丨h(huán)境檢測(cè)結(jié)果,波形校正單元104確定是 否校正音素。例如,如果音素環(huán)境檢測(cè)結(jié)果表示前綴聲/后綴聲為發(fā)音的 濁音,則盡管音素的音素開(kāi)始和音素結(jié)束部分幅度較大,波形校正單元 104確定該較大的幅度是由于前綴聲/后綴聲的音素片段的影響而不必進(jìn) 行校正?;诔ヒ羲亻_(kāi)始和音素結(jié)束部分之后的中央部分的幅度變化, 波形校正單元104確定是否校正音素。如果前綴聲為清音且在音素片段 的音素開(kāi)始部分中觀察到幅度變化,或者如果后綴聲為清音且在音素片 段的音素結(jié)束部分中觀察到幅度變化,則波形校正單元104確定需要校 正音素。波形產(chǎn)生單元106接收輸入語(yǔ)音、輸入語(yǔ)音的濁音/清音邊界數(shù)據(jù)、 校正確定單元102的確定結(jié)果和波形校正單元104的校正結(jié)果的輸入。 波形產(chǎn)生單元106將經(jīng)校正的部分與未經(jīng)校正的部分相連,并將得到的 語(yǔ)音作為輸出語(yǔ)音輸出。除了濁音/清音邊界數(shù)據(jù)之外,還可以向圖2所示的波形特征量計(jì)算 單元101輸入普通音素邊界數(shù)據(jù)。在輸入普通音素邊界數(shù)據(jù)時(shí)可以省略 濁音/清音確定單元103。如果省略濁音/清音確定單元103,則也向波形 校正單元104輸入音素邊界數(shù)據(jù)。例如,在包括輔音"t"和元音"a"兩 個(gè)音素片段的音節(jié)"ta"中,音素表示"t"和"a"的邊界。也可以省略圖2中所示的音素環(huán)境檢測(cè)單元101f。如果省略音素環(huán) 境檢測(cè)單元101f,則不能對(duì)前綴聲和后綴聲是不發(fā)音、發(fā)音、濁音還是
清音進(jìn)行檢測(cè)。由此,僅基于音素類型,將音素式特征量分配給音素類 型的確定單元,換言之分配給清爆破音確定單元102b、濁爆破音確定單元102c、清摩擦音確定單元102d、濁摩擦音確定單元102e、塞擦音確定 單元102f和周期性波形確定單元102g中的任一個(gè)。下面將說(shuō)明根據(jù)第一實(shí)施方式的語(yǔ)音增強(qiáng)設(shè)備。圖3是根據(jù)第一實(shí) 施方式的語(yǔ)音增強(qiáng)處理的流程圖。如圖3所示,首先,濁音/清音確定單 元103獲取輸入語(yǔ)音的濁音/清音邊界數(shù)據(jù)(步驟SIOI)。如果省略濁音/ 清音確定單元103,則根據(jù)第一實(shí)施方式的語(yǔ)音增強(qiáng)設(shè)備100獲取普通音 素邊界數(shù)據(jù)并將該音素邊界數(shù)據(jù)輸入給波形特征量計(jì)算單元101、波形校 正單元104和波形產(chǎn)生單元106。接著,基于濁音/清音邊界數(shù)據(jù)(如果省略濁音/清音確定單元103, 則為普通音素邊界數(shù)據(jù)),音素劃分單元101a將輸入的語(yǔ)音數(shù)據(jù)劃分為 音素(步驟S102)。幅度變化測(cè)量單元101b計(jì)算所劃分音素的幅度值和幅度變化率(步 驟S103)。接著,基于幅度值和幅度變化率,爆破音部分/送氣音部分檢 測(cè)單元101c檢測(cè)爆破音部分/送氣音部分(步驟S104)。接著,基于所檢 測(cè)的爆破音部分/送氣音部分和幅度變化率,音素分類單元101d將音素按 音素種類分類(步驟S105)。接著,音素式特征量計(jì)算單元101e計(jì)算所 分類音素的特征量(步驟S106)。接著,音素環(huán)境檢測(cè)單元101f確定音素環(huán)境,換言之確定在步驟 S102劃分的音素的前綴聲/后綴聲的語(yǔ)音數(shù)據(jù)是不發(fā)音、發(fā)音、濁音還是 清音(步驟S107)。但是,如果省略音素環(huán)境檢測(cè)單元101f,則省略步 驟S107。接著,基于音素類型以及前綴聲/后綴聲的音素環(huán)境確定結(jié)果,音素 式數(shù)據(jù)分配單元102a向各音素類型分配各音素的特征量(步驟S108)。 如果省略音素環(huán)境檢測(cè)單元101f,則音素式數(shù)據(jù)分配單元102a僅基于音 素類型向各音素類型分配音素的特征量。接著,清爆破音確定單元102b、 濁爆破音確定單元102c、清摩擦音確定單元102d、濁摩擦音確定單元 102e、塞擦音確定單元102f和周期性波形確定單元102g對(duì)于各音素類型
確定校正音素的必要性(步驟S109)。接著,基于濁音/清音邊界數(shù)據(jù)(如果省略濁音/清音確定單元103, 則為普通音素邊界數(shù)據(jù))、音素種類和步驟S109中的校正確定結(jié)果,波 形校正單元104參考音素式波形數(shù)據(jù)存儲(chǔ)單元105并校正音素(步驟 SllO)。接著,基于濁音/清音邊界數(shù)據(jù)(如果省略濁音/清音確定單元103, 則為普通音素邊界數(shù)據(jù)),波形產(chǎn)生單元106將經(jīng)校正的音素與未經(jīng)校正 的音素相連,并輸出得到的語(yǔ)音數(shù)據(jù)(步驟Slll)。[實(shí)施例2]下面將參照?qǐng)D4和圖5來(lái)說(shuō)明本發(fā)明的第二實(shí)施方式。在第二實(shí)施 方式中僅說(shuō)明第一實(shí)施方式與第二實(shí)施方式之間的區(qū)別。圖4是根據(jù)第 二實(shí)施方式的語(yǔ)音增強(qiáng)設(shè)備的功能性框圖。如圖4所示,語(yǔ)音增強(qiáng)設(shè)備 IOO包括波形特征量計(jì)算單元101、校正確定單元102、波形校正單元104、 音素式波形數(shù)據(jù)存儲(chǔ)單元105、波形產(chǎn)生單元106、語(yǔ)言處理器107和音 素標(biāo)記單元108。因?yàn)椴ㄐ翁卣髁坑?jì)算單元101、校正確定單元102、波 形校正單元104、音素式波形數(shù)據(jù)存儲(chǔ)單元105和波形產(chǎn)生單元106分別 與第一實(shí)施方式中的波形特征量計(jì)算單元IOI、校正確定單元102、波形 校正單元104、音素式波形數(shù)據(jù)存儲(chǔ)單元105和波形產(chǎn)生單元106相似, 所以省略對(duì)它們的說(shuō)明。在向語(yǔ)言處理器107輸入表示輸入語(yǔ)音的內(nèi)容的文本數(shù)據(jù)時(shí),執(zhí)行 語(yǔ)言處理并輸出音素串。例如,如果文本數(shù)據(jù)是"tadaima",則音素串是 "tadaima"。在音素標(biāo)記單元108中輸入輸入語(yǔ)音和音素串時(shí),對(duì)于輸入 語(yǔ)音進(jìn)行音素標(biāo)記,并輸出各音素的音素標(biāo)記和各音素的邊界數(shù)據(jù)。將由語(yǔ)言處理器107輸出的音素標(biāo)記和音素邊界數(shù)據(jù)輸入給音素劃 分單元101a、波形校正單元104和波形產(chǎn)生單元106。音素劃分單元101a 基于音素標(biāo)記和音素邊界數(shù)據(jù)對(duì)輸入語(yǔ)音進(jìn)行劃分。波形校正單元104 接收輸入語(yǔ)音、音素標(biāo)記、音素邊界數(shù)據(jù)、校正確定單元102的確定結(jié) 果和音素種類的輸入?;谛枰U囊羲兀ㄐ涡U龁卧?04使用存 儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元105中的波形數(shù)據(jù)對(duì)原始數(shù)據(jù)進(jìn)行替代或 增加(增補(bǔ)),并輸出校正之后的語(yǔ)音數(shù)據(jù)。波形產(chǎn)生單元106接收輸入語(yǔ)音、音素標(biāo)記、音素邊界數(shù)據(jù)、校正確定單元102的確定結(jié)果和波形校正單元104的校正結(jié)果的輸入。波形產(chǎn)生單元106將語(yǔ)音數(shù)據(jù)的經(jīng)校正的部分與語(yǔ)音數(shù)據(jù)的未經(jīng)校正的部分相連,并將得到的語(yǔ)音數(shù)據(jù)作為 輸出語(yǔ)音輸出。因?yàn)橄虿ㄐ涡U龁卧?04輸入音素標(biāo)記,所以波形校正單元104使 用基于音素標(biāo)記的確定標(biāo)準(zhǔn)來(lái)確定是否校正各音素。例如,如果音素標(biāo) 記為"k",則將大于或等于閾值的塞擦音部分的長(zhǎng)度用作確定標(biāo)準(zhǔn)之一。在輸入音素標(biāo)記和音素式特征量時(shí),根據(jù)第二實(shí)施方式的校正確定 單元102基于各音素標(biāo)記和特征量來(lái)確定是否校正音素。例如,在音素 標(biāo)記為"k"時(shí),將音素是否僅包括一個(gè)爆破音部分、爆破音部分的幅度 絕對(duì)值的最大值是否小于或等于閾值和送氣音部分的長(zhǎng)度是否大于或等 于閾值用作確定標(biāo)準(zhǔn)。在音素為"p"或"t"時(shí),將音素是否僅包括一個(gè) 爆破音部分和爆破音部分的幅度絕對(duì)值的最大值是否小于或等于閾值用 作確定標(biāo)準(zhǔn)。在音素為"b"、 "d"或"g"時(shí),將是否存在爆破音部分和是否存在 周期性波形部分用作確定標(biāo)準(zhǔn)。如果不存在爆破音部分,則校正音素。 如果音素標(biāo)記為"r",則將是否存在爆破音部分用作確定標(biāo)準(zhǔn),并且如果 存在爆破音部分就校正音素。如果音素標(biāo)記為"s"、 "sH"、 "f"、 "h"、 "j" 或"z",則將幅度變化和爆破音部分的幅度絕對(duì)值的最大值是否小于或 等于閾值用作確定標(biāo)準(zhǔn)。因此,因?yàn)橄蛐U_定單元102輸入音素標(biāo)記,所以例如,如果即 使音素標(biāo)記為"k",由于短送氣音部分而使得音素不能被聽(tīng)為"k",如 果即使音素標(biāo)記為"d",由于不存在爆破音部分而使得音素錯(cuò)誤地被聽(tīng) 為"r",如果即使音素標(biāo)記為"g",由于不存在爆破音部分而使得音素不 能與"n"區(qū)分開(kāi),或者如果即使音素標(biāo)記為"n",由于噪音而使得音素 被聽(tīng)為"g",則校正確定單元102確定校正音素。向根據(jù)第二實(shí)施方式的波形校正單元104輸入輸入語(yǔ)音、輸入語(yǔ)音 的音素標(biāo)記邊界數(shù)據(jù)、確定數(shù)據(jù)和音素種類。波形校正單元104使用存 儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元105中的數(shù)據(jù)對(duì)原始數(shù)據(jù)進(jìn)行替代或增加、
刪除爆破音部分、刪除具有較大幅度變化率的幀等,以校正音素并輸出 校正之后的語(yǔ)音數(shù)據(jù)。如果音素標(biāo)記為"k",則由音素式特征量計(jì)算單元101e計(jì)算的音素式特征量包括是否存在爆破音部分、爆破音部分的長(zhǎng)度、爆破音部分的 數(shù)量、爆破音部分的幅度絕對(duì)值的最大值以及在爆破音部分之后持續(xù)的 送氣音部分的長(zhǎng)度中的任一個(gè)或多個(gè)。如果音素標(biāo)記為"b"、 "d"或"g", 則音素式特征量包括是否存在爆破音部分、是否存在周期性波形和音素之前的音素環(huán)境中的任一個(gè)或多個(gè)。如果音素標(biāo)記為"s"或"sH",則特征量包括幅度變化以及音素之前和之后的音素環(huán)境中的任一個(gè)或多個(gè)。接下來(lái)將說(shuō)明根據(jù)第二實(shí)施方式的語(yǔ)音增強(qiáng)處理。圖5是根據(jù)第二 實(shí)施方式的語(yǔ)音增強(qiáng)處理的流程圖。如圖5所示,首先,語(yǔ)言處理器107 接收對(duì)應(yīng)于輸入語(yǔ)音的文本數(shù)據(jù)的輸入,對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)言處理,并 輸出音素串(步驟S201)。接著,音素標(biāo)記單元108基于音素串向輸入語(yǔ)音增加音素標(biāo)記,并 輸出各音素的音素標(biāo)記以及音素邊界數(shù)據(jù)(步驟S202)。接著,基于各音 素的音素標(biāo)記以及音素邊界數(shù)據(jù),音素劃分單元101a使用音素標(biāo)記邊界 將輸入語(yǔ)音劃分為音素(步驟S203)。接著,幅度變化測(cè)量單元101b計(jì)算所劃分音素的幅度值和幅度變化 率(步驟S204)。接著,爆破音部分/送氣音部分檢測(cè)單元101c基于幅度 值和幅度變化率來(lái)檢測(cè)爆破音部分/送氣音部分(步驟S205)。接著,音 素分類單元101d基于檢測(cè)到的爆破音部分/送氣音部分和幅度變化率將 音素按音素種類分類(步驟S206)。接著,音素式特征量計(jì)算單元101e 計(jì)算所分類音素的特征量(步驟S207)。接著,音素環(huán)境檢測(cè)單元101f確定音素環(huán)境,換言之確定在步驟 S203劃分的音素的前綴聲/后綴聲的語(yǔ)音數(shù)據(jù)是不發(fā)音、發(fā)音、濁音還是 清音(步驟S208)。接著,基于音素類型以及前綴聲/后綴聲的音素環(huán)境確定結(jié)果,音素 式數(shù)據(jù)分配單元102a向各音素類型分配各音素的特征量(步驟S209)。
接著,清爆破音確定單元102b、濁爆破音確定單元102C、清摩擦音確定單元102d、濁摩擦音確定單元102e、塞擦音確定單元102f和周期性波形 確定單元102g確定對(duì)于各音素類型是否需要校正音素(步驟S210)。接著,基于音素標(biāo)記、音素邊界數(shù)據(jù)、音素種類和步驟S109中的校 正確定結(jié)果,波形校正單元104參考音素式波形數(shù)據(jù)存儲(chǔ)單元105并校 正音素(步驟S211)。接著,基于音素標(biāo)記和音素邊界數(shù)據(jù),波形產(chǎn)生單 元106將經(jīng)校正的音素與未經(jīng)校正的音素相連,并輸出得到的語(yǔ)音數(shù)據(jù) (步驟S212)。接下來(lái)將說(shuō)明由根據(jù)第一和第二實(shí)施方式的波形校正單元104校正 的波形的輪廓。圖6至圖8是用于說(shuō)明由波形校正單元104校正的波形 的輪廓的示意圖。在圖6所示的實(shí)施例中,從波形特征量計(jì)算單元101 的計(jì)算結(jié)果檢測(cè)到?jīng)]有爆破音部分的音素"d"。在校正確定單元102確 定需要校正音素"d"時(shí),用存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元105中并包 括爆破音部分的音素"d"來(lái)替代所述音素"d"。在圖7所示的實(shí)施例中,用存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元105中 并包括爆破音部分的音素"d"來(lái)增補(bǔ)沒(méi)有爆破音部分的音素"d"。在圖8所示的實(shí)施例中,將由于唇音而包括較大幅度變化的清塞擦 音"sH"和"s"替代為存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元105中并且不包 括幅度變化的"sH"和"s"。例如,因?yàn)?tadaima"中的"d"并不包括爆破音部分,所以"d" 被誤聽(tīng)為"r",因而"tadaima"被聽(tīng)作"taraima"。進(jìn)行圖7和圖8中所 示的波形校正,以有效地增強(qiáng)語(yǔ)音數(shù)據(jù)的這些實(shí)施例。在根據(jù)波形校正單元104的另一實(shí)施方式的方法中,如果爆破音包 括兩個(gè)爆破音部分,則刪除其中一個(gè)爆破音部分。另外,在另一方法中, 如果摩擦音包括具有較大幅度變化的短間隔,則刪除該具有較大幅度變 化的間隔。如此,使用存儲(chǔ)在"音素式波形數(shù)據(jù)存儲(chǔ)單元"中的數(shù)據(jù)對(duì) 原始數(shù)據(jù)進(jìn)行替代、增補(bǔ)或刪除,從而進(jìn)行波形校正。[實(shí)施例3]下面將參照?qǐng)D9和圖IO來(lái)說(shuō)明本發(fā)明的第三實(shí)施方式。第三實(shí)施方式涉及用于在根據(jù)第一和第二實(shí)施方式的音素式波形數(shù)據(jù)存儲(chǔ)單元105 中存儲(chǔ)音素的語(yǔ)音記錄設(shè)備。在第三實(shí)施方式中,音素式波形數(shù)據(jù)存儲(chǔ)單元205用作音素式波形數(shù)據(jù)存儲(chǔ)單元105。圖9是根據(jù)第三實(shí)施方式的 語(yǔ)音記錄設(shè)備的功能性框圖。如圖9所示,語(yǔ)音記錄設(shè)備200包括波形 特征量計(jì)算單元201、記錄確定單元202、波形記錄單元204、音素式波 形數(shù)據(jù)存儲(chǔ)單元205、語(yǔ)言處理器207和音素標(biāo)記單元208。波形特征量計(jì)算單元201還包括音素劃分單元201a、幅度變化測(cè)量 單元201b、爆破音部分/送氣音部分檢測(cè)單元201c、音素分類單元201d、 音素式特征量計(jì)算單元201e和音素環(huán)境檢測(cè)單元201f。因?yàn)橐羲貏澐謫?元201a、幅度變化測(cè)量單元201b、爆破音部分/送氣音部分檢測(cè)單元201c、 音素分類單元201d、音素式特征量計(jì)算單元201e和音素環(huán)境檢測(cè)單元 201f分別與根據(jù)第一和第二實(shí)施方式的音素劃分單元101a、幅度變化測(cè) 量單元101b、爆破音部分/送氣音部分檢測(cè)單元101c、音素分類單元101d、 音素式特征量計(jì)算單元101e和音素環(huán)境檢測(cè)單元101f相同,所以省略對(duì) 它們的說(shuō)明。記錄確定單元202與根據(jù)第一和第二實(shí)施方式的校正確定單元102 基本上相同。記錄確定單元202包括音素式數(shù)據(jù)分配單元202a、清爆破 音確定單元202b、濁爆破音確定單元202c、清摩擦音確定單元202d、濁 摩擦音確定單元202e、塞擦音確定單元202f和周期性波形確定單元202g, 它們分別與根據(jù)第一和第二實(shí)施方式的音素式數(shù)據(jù)分配單元102a、清爆 破音確定單元102b、濁爆破音確定單元102c、清摩擦音確定單元102d、 濁摩擦音確定單元102e、塞擦音確定單元102f和周期性波形確定單元 102g相同。根據(jù)第二實(shí)施方式的校正確定單元102基于各音素種類的特征量來(lái) 選擇有缺陷的音素片段作為有必要校正的音素片段。但是,根據(jù)第三實(shí) 施方式的記錄確定單元202基于各音素種類的特征量來(lái)確定沒(méi)有缺陷的 音素片段。例如,在音素為清爆破音"k"時(shí),將音素是否僅包括一個(gè)爆 破音部分、送氣音部分的長(zhǎng)度是否大于或等于閾值、以及爆破音部分的 幅度值是否在閾值內(nèi)用作記錄確定單元202確定是否記錄音素的確定標(biāo)
準(zhǔn)。在音素為清爆破音"S"或"SH"時(shí),將幅度變化率是否較大、所有 幅度值是否都在預(yù)定范圍內(nèi)、以及音素長(zhǎng)度是否大于或等于閾值用作記 錄確定單元202確定是否記錄音素的確定標(biāo)準(zhǔn)。在音素為清爆破音"b"、 "d"或"g"時(shí),將不存在周期分量和存在爆破音部分用作記錄確定單元202確定是否記錄音素的確定標(biāo)準(zhǔn)?;谟涗洿_定單元202的確定結(jié)果,波形記錄單元204將用于記錄 的音素片段的音素標(biāo)記和音素邊界數(shù)據(jù)存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元 205中。音素式波形數(shù)據(jù)存儲(chǔ)單元205設(shè)置成與第一和第二實(shí)施方式中的 音素式波形數(shù)據(jù)存儲(chǔ)單元105相同。另外,因?yàn)楦鶕?jù)第三實(shí)施方式的音素式波形數(shù)據(jù)存儲(chǔ)單元205設(shè)置 成與第一和第二實(shí)施方式中的音素式波形數(shù)據(jù)存儲(chǔ)單元105相同,所以 音素式波形數(shù)據(jù)存儲(chǔ)單元205也可以設(shè)置成具有獨(dú)立于語(yǔ)音記錄設(shè)備200 的結(jié)構(gòu)的存儲(chǔ)單元。同樣地,第一和第二實(shí)施方式中的音素式波形數(shù)據(jù) 存儲(chǔ)單元105也可以獨(dú)立于語(yǔ)音增強(qiáng)設(shè)備100設(shè)置。因?yàn)檎Z(yǔ)言處理器207和音素標(biāo)記單元208分別與根據(jù)第二實(shí)施方式 的語(yǔ)言處理器107和音素標(biāo)記單元108相同,所以省略對(duì)它們的說(shuō)明。接下來(lái)將說(shuō)明根據(jù)第三實(shí)施方式的語(yǔ)音記錄處理。圖IO是根據(jù)第三 實(shí)施方式的語(yǔ)音記錄處理的流程圖。如圖IO所示,首先,語(yǔ)言處理器207 接收對(duì)應(yīng)于輸入語(yǔ)音的文本數(shù)據(jù)的輸入,對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)言處理,并 輸出音素串(步驟S301)。接著,音素標(biāo)記單元208基于音素串向輸入語(yǔ)音增加音素標(biāo)記,并 輸出各音素的音素標(biāo)記以及音素邊界數(shù)據(jù)(步驟S302)。接著,基于各音 素的音素標(biāo)記以及音素邊界數(shù)據(jù),音素劃分單元201a使用音素標(biāo)記邊界 而將輸入語(yǔ)音劃分為音素(步驟S303)。接著,幅度變化測(cè)量單元201b計(jì)算所劃分音素的幅度值和幅度變化 率(步驟S304)。接著,爆破音部分/送氣音部分檢測(cè)單元201c基于幅度 值和幅度變化率來(lái)檢測(cè)爆破音部分/送氣音部分(步驟S305)。接著,音 素分類單元201d基于檢測(cè)到的爆破音部分/送氣音部分和幅度變化率將 音素按音素種類分類(步驟S306)。接著,音素式特征量計(jì)算單元201e
計(jì)算所分類音素的特征量(步驟S307)。接著,音素環(huán)境檢測(cè)單元201f確定音素環(huán)境,換言之確定在步驟 S303劃分的音素的前綴聲/后綴聲的語(yǔ)音數(shù)據(jù)是不發(fā)音、發(fā)音、濁音還是 清音(步驟S308)。接著,基于音素類型以及前綴聲/后綴聲的音素環(huán)境確定結(jié)果,音素 式數(shù)據(jù)分配單元202a向各音素類型分配各音素的特征量(步驟S309)。 接著,清爆破音確定單元202b、濁爆破音確定單元202c、清摩擦音確定 單元202d、濁摩擦音確定單元202e、塞擦音確定單元202f和周期性波形 確定單元202g確定對(duì)于各音素類型是否需要校正音素(步驟S310)。接著,基于音素標(biāo)記、音素邊界數(shù)據(jù)、音素種類和步驟S310中的校 正確定結(jié)果,波形記錄單元204將音素記錄在音素式波形數(shù)據(jù)存儲(chǔ)單元 205中(步驟S311)。在本發(fā)明中,對(duì)于各種類的音素包括有校正確定標(biāo)準(zhǔn)。對(duì)于爆破音 使用爆破音部分的高精度檢測(cè)。為此,也可以檢測(cè)兩個(gè)爆破音部分的存 在或者在爆破音部分之后持續(xù)的送氣音部分的長(zhǎng)度。另外,對(duì)于摩擦音 可以檢測(cè)精確的幅度變化。根據(jù)權(quán)利要求5,使用音素片段的前綴聲和后 綴聲的數(shù)據(jù)能夠進(jìn)行更高精度的校正確定。校正方法包括用替代片段替換檢測(cè)到的缺陷片段、用替代片段增補(bǔ) 原始語(yǔ)音并增補(bǔ)有缺陷的爆破音部分的方法。為此,可以校正極其難以 聽(tīng)到的摩擦音或爆破音的音量。另外,重疊爆破音也可以被校正為單個(gè) 爆破音。除了校正語(yǔ)音數(shù)據(jù)之外,也可以校正輸入文本中的被誤輸入為 "taraima"的"tadaima"。同樣地,如果用戶發(fā)現(xiàn)難以理解文本部分包括 "kokugai"還是"kokunai",則可以校正文本部分。可以通過(guò)使用諸如個(gè)人計(jì)算機(jī)、服務(wù)器或工作站的計(jì)算機(jī)系統(tǒng)執(zhí)行 包括規(guī)定序列的處理的計(jì)算機(jī)程序,而實(shí)現(xiàn)前述實(shí)施方式中說(shuō)明的所有 處理。本發(fā)明在其更廣泛方面中并不限于這里顯示和描述的具體細(xì)節(jié)和代 表性實(shí)施方式。因此,可以在不脫離由所附權(quán)利要求及其等價(jià)物限定的
大體發(fā)明構(gòu)思的精神或范圍的情況下作出各種修改。另外,所述實(shí)施方 式中描述的效果也不這樣受到限制。根據(jù)本發(fā)明的實(shí)施方式,基于由音素邊界數(shù)據(jù)分開(kāi)的各音素的語(yǔ)音 數(shù)據(jù)的波形特征量,如果需要校正語(yǔ)音數(shù)據(jù),則使用預(yù)先存儲(chǔ)在音素式 波形數(shù)據(jù)存儲(chǔ)單元中的波形數(shù)據(jù)來(lái)校正各音素的語(yǔ)音數(shù)據(jù)。為此,對(duì)于 各音素校正不清楚且難以聽(tīng)到的語(yǔ)音數(shù)據(jù),從而可以獲得易于聽(tīng)到的語(yǔ) 音數(shù)據(jù)。根據(jù)本發(fā)明的實(shí)施方式,基于由濁音/清音邊界數(shù)據(jù)分開(kāi)的各音素的 語(yǔ)音數(shù)據(jù)的波形特征量,如果需要校正語(yǔ)音數(shù)據(jù),則使用預(yù)先存儲(chǔ)在音 素式波形數(shù)據(jù)存儲(chǔ)單元中的波形數(shù)據(jù)來(lái)校正各音素的語(yǔ)音數(shù)據(jù)。為此, 對(duì)于由濁音/清音邊界數(shù)據(jù)分開(kāi)的各音素校正不清楚且難以聽(tīng)到的語(yǔ)音數(shù) 據(jù),從而可以獲得易于聽(tīng)到的語(yǔ)音數(shù)據(jù)。根據(jù)本發(fā)明的實(shí)施方式,向通過(guò)對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)言處理獲得的音 素串分配音素識(shí)別數(shù)據(jù),并且確定音素識(shí)別數(shù)據(jù)的邊界以得到音素識(shí)別 數(shù)據(jù)的邊界數(shù)據(jù)。基于由該邊界數(shù)據(jù)分開(kāi)的各音素的語(yǔ)音數(shù)據(jù)的波形特 征量,如果需要校正語(yǔ)音數(shù)據(jù),則使用預(yù)先存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ) 單元中的波形數(shù)據(jù)來(lái)校正各音素的語(yǔ)音數(shù)據(jù)。為此,對(duì)于由音素識(shí)別數(shù) 據(jù)分開(kāi)的各音素校正不清楚且難以聽(tīng)到的語(yǔ)音數(shù)據(jù),從而可以獲得易于 聽(tīng)到的語(yǔ)音數(shù)據(jù)。根據(jù)本發(fā)明的實(shí)施方式,測(cè)量幅度值、幅度變化率以及語(yǔ)音數(shù)據(jù)的 音素中是否存在周期性波形?;谝羲氐谋埔舨糠趾退蜌庖舨糠值臋z 測(cè)結(jié)果,對(duì)音素的音素類型進(jìn)行分類,并計(jì)算各分類音素的特征量。為 此,可以檢測(cè)并校正諸如輔音和清元音的可能不清楚的語(yǔ)音部分。根據(jù)本發(fā)明的實(shí)施方式,將輸入的語(yǔ)音數(shù)據(jù)與經(jīng)波形校正單元校正 的各音素的語(yǔ)音數(shù)據(jù)合成,以輸出得到的語(yǔ)音數(shù)據(jù)。由此,僅校正輸出 的語(yǔ)音數(shù)據(jù)中的不清楚部分,從而可以在不會(huì)明顯改變語(yǔ)音數(shù)據(jù)的原始 特性的情況下校正不清楚部分。根據(jù)本發(fā)明的實(shí)施方式,向通過(guò)對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)言處理獲得的音 素串分配音素識(shí)別數(shù)據(jù),并且確定音素識(shí)別數(shù)據(jù)的邊界以得到音素識(shí)別 數(shù)據(jù)的邊界數(shù)據(jù)。對(duì)于由該邊界數(shù)據(jù)分開(kāi)的各音素,將滿足預(yù)定條件的 語(yǔ)音數(shù)據(jù)記錄在音素式波形數(shù)據(jù)存儲(chǔ)單元中,并且所記錄的語(yǔ)音數(shù)據(jù)可 以用于校正。本發(fā)明通過(guò)對(duì)語(yǔ)音數(shù)據(jù)的不清楚部分進(jìn)行校正而有效地獲得清楚的 語(yǔ)音數(shù)據(jù),并且可尤其用于自動(dòng)地檢測(cè)并自動(dòng)地校正與爆破音(例如是 否存在爆破音部分,在爆破音部分之后持續(xù)的送氣音部分的音素長(zhǎng)度) 有關(guān)的缺陷部分,或者與摩擦音的幅度變化有關(guān)的缺陷部分。盡管為了完整清楚的公開(kāi)參考具體實(shí)施方式
描述了本發(fā)明,但所附 權(quán)利要求不應(yīng)這樣受到限制,而應(yīng)理解為可實(shí)施完全落在這里闡述的基 本教導(dǎo)的范圍內(nèi)且對(duì)于本領(lǐng)域技術(shù)人員顯而易見(jiàn)的所有修改和替換結(jié) 構(gòu)。
權(quán)利要求
1、 一種語(yǔ)音增強(qiáng)設(shè)備,該語(yǔ)音增強(qiáng)設(shè)備對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚 部分進(jìn)行校正并輸出,該語(yǔ)音增強(qiáng)設(shè)備包括波形特征量計(jì)算單元,該波形特征量計(jì)算單元對(duì)于各音素計(jì)算所述 語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同將該語(yǔ)音數(shù)據(jù)劃分為音素的 音素邊界數(shù)據(jù)一起被輸入;校正確定單元,該校正確定單元基于由所述波形特征量計(jì)算單元計(jì) 算的所述波形特征量,對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)校正的必要性;以 及波形校正單元,該波形校正單元通過(guò)使用預(yù)先存儲(chǔ)在音素式波形數(shù) 據(jù)存儲(chǔ)單元中的波形數(shù)據(jù),對(duì)于各音素對(duì)由所述校正確定單元確定有校 正必要的所述語(yǔ)音數(shù)據(jù)進(jìn)行校正。
2、 根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)設(shè)備,該語(yǔ)音增強(qiáng)設(shè)備還包括 濁音/清音邊界數(shù)據(jù)輸出單元,該濁音/清音邊界數(shù)據(jù)輸出單元確定所述語(yǔ)音數(shù)據(jù)的濁音/清音的分界,并輸出濁音/清音邊界數(shù)據(jù)作為所述音素 邊界數(shù)據(jù),其中所述波形特征量計(jì)算單元對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征 量,所述語(yǔ)音數(shù)據(jù)連同由所述濁音/清音邊界數(shù)據(jù)輸出單元輸出的所述濁 音/清音邊界數(shù)據(jù)一起被輸入。
3、 根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)設(shè)備,該語(yǔ)音增強(qiáng)設(shè)備還包括 音素識(shí)別數(shù)據(jù)輸出單元,該音素識(shí)別數(shù)據(jù)輸出單元基于所述輸入的語(yǔ)音數(shù)據(jù)以及通過(guò)對(duì)所述語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù)進(jìn)行語(yǔ)言處理輸出的音素 串而向所述語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述音素識(shí)別數(shù)據(jù)的邊界, 并輸出所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音素邊界數(shù)據(jù),其中所述波形特征量計(jì)算單元對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征 量,所述語(yǔ)音數(shù)據(jù)連同由所述音素識(shí)別數(shù)據(jù)輸出單元輸出的所述音素識(shí) 別數(shù)據(jù)的所述邊界數(shù)據(jù)一起被輸入。
4、 根據(jù)權(quán)利要求2所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述波形特征量計(jì)算單元包括語(yǔ)音數(shù)據(jù)劃分單元,該語(yǔ)音數(shù)據(jù)劃分單元基于所述音素邊界數(shù)據(jù)將 所述輸入的語(yǔ)音數(shù)據(jù)劃分為音素,幅度變化測(cè)量單元,該幅度變化測(cè)量單元基于由所述語(yǔ)音數(shù)據(jù)劃分 單元?jiǎng)澐值囊羲囟鴾y(cè)量幅度值、幅度變化率以及是否存在所述音素的周 期性波形, 爆破音部分/送氣音部分檢測(cè)單元,該爆破音部分/送氣音部分檢測(cè)單 元基于由所述幅度變化測(cè)量單元測(cè)量的幅度值和幅度變化率以及由所述 語(yǔ)音數(shù)據(jù)劃分單元?jiǎng)澐值乃稣Z(yǔ)音數(shù)據(jù),而檢測(cè)所述音素的爆破音部分 和送氣音部分,音素分類單元,該音素分類單元基于所述爆破音部分/送氣音部分檢 測(cè)單元的檢測(cè)結(jié)果、以及由所述幅度變化測(cè)量單元測(cè)量的幅度值、幅度 變化率和是否存在周期性波形而對(duì)所述音素的音素類型進(jìn)行分類,以及音素式特征量計(jì)算單元,該音素式特征量計(jì)算單元對(duì)于由所述音素 分類單元分類的各音素而計(jì)算所述特征量。
5、根據(jù)權(quán)利要求3所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述波形特征量計(jì) 算單元包括語(yǔ)音數(shù)據(jù)劃分單元,該語(yǔ)音數(shù)據(jù)劃分單元基于所述音素邊界數(shù)據(jù)將 所述輸入的語(yǔ)音數(shù)據(jù)劃分為音素,幅度變化測(cè)量單元,該幅度變化測(cè)量單元基于由所述語(yǔ)音數(shù)據(jù)劃分 單元?jiǎng)澐值囊羲囟鴾y(cè)量幅度值、幅度變化率以及是否存在所述音素的周 期性波形,爆破音部分/送氣音部分檢測(cè)單元,該爆破音部分/送氣音部分檢測(cè)單 元基于由所述幅度變化測(cè)量單元測(cè)量的幅度值和幅度變化率以及由所述 語(yǔ)音數(shù)據(jù)劃分單元?jiǎng)澐值乃稣Z(yǔ)音數(shù)據(jù),而檢測(cè)所述音素的爆破音部分 和送氣音部分,音素分類單元,該音素分類單元基于所述爆破音部分/送氣音部分檢 測(cè)單元的檢測(cè)結(jié)果、以及由所述幅度變化測(cè)量單元測(cè)量的幅度值、幅度 變化率和是否存在周期性波形而對(duì)所述音素的音素類型進(jìn)行分類,以及音素式特征量計(jì)算單元,該音素式特征量計(jì)算單元對(duì)于由所述音素 分類單元分類的各音素計(jì)算所述特征量。
6、 根據(jù)權(quán)利要求4所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述音素式特征量 計(jì)算單元計(jì)算下列中的至少一個(gè)作為所述特征量由所述幅度變化測(cè)量 單元測(cè)量的幅度值、幅度變化率和是否存在周期性波形,由所述爆破音 部分/送氣音部分檢測(cè)單元檢測(cè)的是否存在所述音素的爆破音部分、所述 爆破音部分的長(zhǎng)度、是否存在所述爆破音部分之后持續(xù)的送氣音部分和 所述送氣音部分的長(zhǎng)度,以及在由所述音素分類單元分類的所述音素之 前和之后的音素的音素類型。
7、 根據(jù)權(quán)利要求5所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述音素式特征量 計(jì)算單元計(jì)算下列中的至少一個(gè)作為所述特征量由所述幅度變化測(cè)量 單元測(cè)量的幅度值、幅度變化率和是否存在周期性波形,由所述爆破音 部分/送氣音部分檢測(cè)單元檢測(cè)的是否存在所述音素的爆破音部分、所述 爆破音部分的長(zhǎng)度、是否存在所述爆破音部分之后持續(xù)的送氣音部分和 所述送氣音部分的長(zhǎng)度,以及在由所述音素分類單元分類的所述音素之 前和之后的音素的音素類型。
8、 根據(jù)權(quán)利要求4所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述校正確定單元根據(jù)由所述音素分類單元分類的音素類型而對(duì)于各音素確定是否有必要 校正所述語(yǔ)音數(shù)據(jù)。
9、 根據(jù)權(quán)利要求5所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述校正確定單元根據(jù)由所述音素分類單元分類的音素類型而對(duì)于各音素確定是否有必要 校正所述語(yǔ)音數(shù)據(jù)。
10、 根據(jù)權(quán)利要求4所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述波形特征量計(jì)算單元還包括音素環(huán)境檢測(cè)單元,該音素環(huán)境檢測(cè)單元檢測(cè)在由所述語(yǔ)音數(shù)據(jù)劃 分單元?jiǎng)澐值乃鲆羲刂昂椭蟮囊羲刂械?、發(fā)音/不發(fā)音的差異和濁 音/清音的差異,并且其中所述校正確定單元基于所述音素環(huán)境檢測(cè)單元的檢測(cè)結(jié)果以及由所 述波形特征量計(jì)算單元計(jì)算的所述波形特征量,而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)的校正的必要性。
11、 根據(jù)權(quán)利要求5所述的語(yǔ)音增強(qiáng)設(shè)備,其中,所述波形特征量 計(jì)算單元還包括音素環(huán)境檢測(cè)單元,該音素環(huán)境檢測(cè)單元檢測(cè)在由所述語(yǔ)音數(shù)據(jù)劃 分單元?jiǎng)澐值乃鲆羲刂昂椭蟮囊羲刂械摹l(fā)音/不發(fā)音的差異和濁 音/清音的差異,并且其中所述校正確定單元基于所述音素環(huán)境檢測(cè)單元的檢測(cè)結(jié)果以及由所 述波形特征量計(jì)算單元計(jì)算的所述波形特征量,而對(duì)于各音素確定所述 語(yǔ)音數(shù)據(jù)的校正的必要性。
12、 根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)設(shè)備,該語(yǔ)音增強(qiáng)設(shè)備還包括 輸出語(yǔ)音數(shù)據(jù)合成器,該輸出語(yǔ)音數(shù)據(jù)合成器基于所述音素邊界數(shù)據(jù)和 所述校正確定單元的確定結(jié)果而將所述輸入的語(yǔ)音數(shù)據(jù)與經(jīng)所述波形校 正單元校正的各音素的所述語(yǔ)音數(shù)據(jù)合成,并輸出該合成的語(yǔ)音數(shù)據(jù)。
13、 一種語(yǔ)音記錄設(shè)備,該語(yǔ)音記錄設(shè)備將輸入的語(yǔ)音數(shù)據(jù)記錄在 音素式波形數(shù)據(jù)存儲(chǔ)單元中,該語(yǔ)音記錄設(shè)備包括音素識(shí)別數(shù)據(jù)輸出單元,該音素識(shí)別數(shù)據(jù)輸出單元基于所述輸入的 語(yǔ)音數(shù)據(jù)以及通過(guò)對(duì)所述語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù)進(jìn)行語(yǔ)言處理輸出的音素 串而向所述語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述音素識(shí)別數(shù)據(jù)的邊界, 并輸出所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音素邊界數(shù)據(jù);波形特征量計(jì)算單元,該波形特征量計(jì)算單元對(duì)于各音素計(jì)算所述 語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同由所述音素識(shí)別數(shù)據(jù)輸出單元輸出的所述音素識(shí)別數(shù)據(jù)的所述邊界數(shù)據(jù)一起被輸入;條件充分性確定單元,該條件充分性確定單元基于由所述波形特征 量計(jì)算單元計(jì)算的所述波形特征量而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)是否滿足預(yù)定條件;以及音素式波形數(shù)據(jù)記錄單元,該音素式波形數(shù)據(jù)記錄單元基于所述條 件充分性確定單元的確定結(jié)果而將被確定為滿足所述預(yù)定條件的各音素 的語(yǔ)音數(shù)據(jù)記錄在所述音素式波形數(shù)據(jù)存儲(chǔ)單元中。
14、 一種計(jì)算機(jī)可讀記錄介質(zhì),該計(jì)算機(jī)可讀記錄介質(zhì)中存儲(chǔ)有使得計(jì)算機(jī)對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚部分進(jìn)行校正并輸出的語(yǔ)音增強(qiáng)程 序,該語(yǔ)音增強(qiáng)程序使得所述計(jì)算機(jī)執(zhí)行下列步驟對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同將 該語(yǔ)音數(shù)據(jù)劃分為音素的音素邊界數(shù)據(jù)一起被輸入;基于在所述波形特征量的計(jì)算步驟中計(jì)算的波形特征量,對(duì)于各音 素確定所述語(yǔ)音數(shù)據(jù)的校正的必要性;以及通過(guò)使用預(yù)先存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元中的波形數(shù)據(jù),對(duì)于 各音素對(duì)在所述確定步驟中確定有校正必要的所述語(yǔ)音數(shù)據(jù)進(jìn)行校正。
15、 根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀記錄介質(zhì),所述語(yǔ)音增強(qiáng)程 序還使得所述計(jì)算機(jī)執(zhí)行下列步驟.-確定所述語(yǔ)音數(shù)據(jù)的濁音/清音的分界,并輸出濁音/清音邊界數(shù)據(jù)作 為所述音素邊界數(shù)據(jù),其中所述計(jì)算步驟對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ) 音數(shù)據(jù)連同在所述輸出步驟中輸出的濁音/清音邊界數(shù)據(jù)一起被輸入。
16、 根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀記錄介質(zhì),所述語(yǔ)音增強(qiáng)程序還使得所述計(jì)算機(jī)執(zhí)行下列步驟基于所述輸入的語(yǔ)音數(shù)據(jù)以及通過(guò)對(duì)所述語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù)進(jìn)行 語(yǔ)言處理輸出的音素串而向所述語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述 音素識(shí)別數(shù)據(jù)的邊界,和輸出所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音 素邊界數(shù)據(jù),其中所述計(jì)算步驟對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ) 音數(shù)據(jù)連同在所述輸出步驟中輸出的音素識(shí)別數(shù)據(jù)的所述邊界數(shù)據(jù)一起 被輸入。
17、 根據(jù)權(quán)利要求15所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述計(jì)算步驟包括-基于所述音素邊界數(shù)據(jù)將輸入的語(yǔ)音數(shù)據(jù)劃分為音素, 基于在所述劃分中劃分的音素而測(cè)量幅度值、幅度變化率以及是否 存在所述音素的周期性波形,基于在所述測(cè)量步驟中測(cè)量的幅度值和幅度變化率以及在所述劃分步驟中劃分的語(yǔ)音數(shù)據(jù),而檢測(cè)所述音素的爆破音部分和送氣音部分,基于在所述檢測(cè)步驟中的檢測(cè)結(jié)果、以及在所述測(cè)量步驟中測(cè)量的幅度值、幅度變化率和是否存在周期性波形而對(duì)所述音素的音素類型進(jìn)行分類,以及對(duì)于在所述分類步驟中分類的各音素計(jì)算所述特征量。
18、 根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀記錄介質(zhì),其中所述計(jì)算步 驟包括基于所述音素邊界數(shù)據(jù)將所述輸入的語(yǔ)音數(shù)據(jù)劃分為音素,基于在所述劃分步驟中劃分的音素而測(cè)量幅度值、幅度變化率以及 是否存在所述音素的周期性波形,基于在所述測(cè)量步驟中測(cè)量的幅度值和幅度變化率以及在所述劃分 步驟中劃分的語(yǔ)音數(shù)據(jù),而檢測(cè)所述音素的爆破音部分和送氣音部分,基于在所述檢測(cè)步驟中的檢測(cè)結(jié)果、以及在所述測(cè)量步驟中測(cè)量的 幅度值、幅度變化率和是否存在周期性波形而對(duì)所述音素的音素類型進(jìn) 行分類,以及對(duì)于在所述分類步驟中分類的各音素計(jì)算所述特征量。
19、 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述計(jì)算 步驟計(jì)算下列中的至少一個(gè)作為所述特征量在所述測(cè)量步驟中測(cè)量的幅度值、幅度變化率和是否存在周期性波形,在所述檢測(cè)步驟中檢測(cè)的 是否存在所述音素的爆破音部分、所述爆破音部分的長(zhǎng)度、是否存在所 述爆破音部分之后持續(xù)的送氣音部分和所述送氣音部分的長(zhǎng)度,以及在 所述分類步驟中分類的所述音素之前和之后的音素的音素類型。
20、 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述計(jì)算步驟計(jì)算下列中的至少一個(gè)作為所述特征量在所述測(cè)量步驟中測(cè)量的幅度值、幅度變化率和是否存在周期性波形,在所述檢測(cè)步驟中檢測(cè)的 是否存在所述音素的爆破音部分、所述爆破音部分的長(zhǎng)度、是否存在所 述爆破音部分之后持續(xù)的送氣音部分和所述送氣音部分的長(zhǎng)度,以及在 所述分類步驟中分類的所述音素之前和之后的音素的音素類型。
21、 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述確定步驟根據(jù)在所述分類步驟中分類的所述音素類型而對(duì)于各音素確定是否 有必要校正所述語(yǔ)音數(shù)據(jù)。
22、 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述確定 步驟根據(jù)在所述分類步驟中分類的所述音素類型而對(duì)于各音素確定是否 有必要校正所述語(yǔ)音數(shù)據(jù)。
23、 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述計(jì)算 步驟還包括檢測(cè)在所述劃分步驟中劃分的所述音素之前和之后的音素中的、發(fā) 音/不發(fā)音的差異和濁音/清音的差異,并且其中所述確定步驟基于所述檢測(cè)步驟的檢測(cè)結(jié)果以及在所述計(jì)算步驟中 計(jì)算的所述波形特征量,而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)的校正的必要 性。
24、 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)可讀記錄介質(zhì),其中,所述計(jì)算步驟還包括檢測(cè)在所述劃分步驟中劃分的所述音素之前和之后的音素中的、發(fā) 音/不發(fā)音的差異和濁音/清音的差異,并且其中所述確定步驟基于所述檢測(cè)步驟的檢測(cè)結(jié)果以及在所述計(jì)算步驟中 計(jì)算的所述波形特征量,而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)的校正的必要 性。
25、 根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀記錄介質(zhì),所述語(yǔ)音增強(qiáng)程序還使得所述計(jì)算機(jī)執(zhí)行下列步驟基于所述音素邊界數(shù)據(jù)和所述確定步驟的確定結(jié)果而將所述輸入的 語(yǔ)音數(shù)據(jù)與在所述校正步驟中校正的各音素的所述語(yǔ)音數(shù)據(jù)合成,并輸 出該合成的語(yǔ)音數(shù)據(jù)。
26、 一種計(jì)算機(jī)可讀記錄介質(zhì),該計(jì)算機(jī)可讀記錄介質(zhì)中存儲(chǔ)有使 得計(jì)算機(jī)將輸入的語(yǔ)音數(shù)據(jù)記錄在音素式波形數(shù)據(jù)存儲(chǔ)單元中的語(yǔ)音記錄程序,該語(yǔ)音記錄程序使得所述計(jì)算機(jī)執(zhí)行下列步驟基于所述輸入的語(yǔ)音數(shù)據(jù)以及通過(guò)對(duì)所述語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù)進(jìn)行 語(yǔ)言處理輸出的音素串而向所述語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述音素識(shí)別數(shù)據(jù)的邊界,和輸出所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音 素邊界數(shù)據(jù);對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同在所述輸出步驟中輸出的所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)一起被輸入;基于在所述計(jì)算步驟中計(jì)算的所述波形特征量而對(duì)于各音素確定所述語(yǔ)音數(shù)據(jù)是否滿足預(yù)定條件;以及基于所述確定步驟中的確定結(jié)果而將被確定為滿足所述預(yù)定條件的 各音素的所述語(yǔ)音數(shù)據(jù)記錄在所述音素式波形數(shù)據(jù)存儲(chǔ)單元中。
27、 一種語(yǔ)音增強(qiáng)方法,該語(yǔ)音增強(qiáng)方法對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清楚部分進(jìn)行校正并輸出,該語(yǔ)音增強(qiáng)方法包括下列步驟對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同將該語(yǔ)音數(shù)據(jù)劃分為音素的音素邊界數(shù)據(jù)一起被輸入;基于在所述計(jì)算步驟中計(jì)算的波形特征量,對(duì)于各音素確定所述語(yǔ) 音數(shù)據(jù)校正的必要性;以及通過(guò)使用預(yù)先存儲(chǔ)在音素式波形數(shù)據(jù)存儲(chǔ)單元中的波形數(shù)據(jù),對(duì)于 各音素對(duì)在所述確定步驟中確定有校正必要的所述語(yǔ)音數(shù)據(jù)進(jìn)行校正。
28、 一種語(yǔ)音記錄方法,該語(yǔ)音記錄方法對(duì)輸入的語(yǔ)音數(shù)據(jù)的不清 楚部分進(jìn)行校正并輸出,該語(yǔ)音記錄方法包括下列步驟基于所述輸入的語(yǔ)音數(shù)據(jù)以及通過(guò)對(duì)所述語(yǔ)音數(shù)據(jù)的文本數(shù)據(jù)進(jìn)行 語(yǔ)言處理輸出的音素串而向所述語(yǔ)音數(shù)據(jù)分配音素識(shí)別數(shù)據(jù),確定所述 音素識(shí)別數(shù)據(jù)的邊界,和輸出所述音素識(shí)別數(shù)據(jù)的邊界數(shù)據(jù)作為所述音 素邊界數(shù)據(jù);對(duì)于各音素計(jì)算所述語(yǔ)音數(shù)據(jù)的波形特征量,所述語(yǔ)音數(shù)據(jù)連同在 所述輸出步驟中輸出的所述音素識(shí)別數(shù)據(jù)的所述邊界數(shù)據(jù)一起被輸入;基于在所述計(jì)算步驟中計(jì)算的所述波形特征量而對(duì)于各音素確定所 述語(yǔ)音數(shù)據(jù)是否滿足預(yù)定條件;以及基于所述確定步驟中的確定結(jié)果而將被確定為滿足所述預(yù)定條件的 各音素的所述語(yǔ)音數(shù)據(jù)記錄在所述音素式波形數(shù)據(jù)存儲(chǔ)單元中。
全文摘要
本發(fā)明涉及語(yǔ)音增強(qiáng)設(shè)備、語(yǔ)音記錄設(shè)備、語(yǔ)音增強(qiáng)程序、語(yǔ)音記錄程序、語(yǔ)音增強(qiáng)方法和語(yǔ)音記錄方法,它們可自動(dòng)地檢測(cè)并自動(dòng)地校正與摩擦音的幅度變化有關(guān)的缺陷部分,或者與爆破音有關(guān)的缺陷部分,例如是否存在爆破音部分、在爆破音部分之后持續(xù)的送氣音部分的音素長(zhǎng)度。向根據(jù)本發(fā)明的語(yǔ)音增強(qiáng)設(shè)備中輸入其中輔音和清元音不清楚且不悅耳的語(yǔ)音。在該語(yǔ)音增強(qiáng)設(shè)備中,語(yǔ)音被劃分為音素,且各音素被分類為清爆破音、濁爆破音、清摩擦音、濁摩擦音、塞擦音和清元音中的任一個(gè)。根據(jù)各音素的校正必要性而校正各音素,以獲得其中輔音和清元音清楚且悅耳的語(yǔ)音的輸出。
文檔編號(hào)G10L21/02GK101145346SQ200710146698
公開(kāi)日2008年3月19日 申請(qǐng)日期2007年8月24日 優(yōu)先權(quán)日2006年9月13日
發(fā)明者松本智佳子 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1