1、簡介
與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。中國物聯網校企聯盟形象得把語音識別[1] 比做為“機器的聽覺系統”[2] 。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術?!≌Z音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。語音識別技術車聯網也得到了充分的引用,例如在翼卡車聯網中,只需按一鍵通客服人員口述即可設置目的地直接導航,安全、便捷。
2、發展史
1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統。
1960年英國的Denes等人研究成功了第一個計算機語音識別系統。
大規模的語音識別[3] 研究是在進入了70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。
進入80年代以后,研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。在研究思路上也發生了重大變化,即由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型 (HMM)的技術思路。此外,再次提出了將神經網絡技術引入語音識別問題的技術思路。
進入90年代以后,在語音識別的系統框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。
DARPA(Defense Advanced Research Projects Agency)是在70年代由美國國防部遠景研究計劃局資助的一項10年計劃,其旨在支持語言理解系統的研究開發工作。
到了80年代,美國國防部遠景研究計劃局又資助了一項為期10年的DARPA戰略計劃,其中包括噪聲下的語音識別和會話(口語)識別系統,識別任務設定為“(1000單詞)連續語音數據庫管理”。
到了90年代,這一DARPA計劃仍在持續進行中。其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。
日本也在1981年的第五代計算機計劃中提出了有關語音識別輸入-輸出自然語言的宏偉目標,雖然沒能實現預期目標,但是有關語音識別技術的研究有了大幅度的加強和進展。
1987年起,日本又擬出新的國家項目---高級人機口語接口和自動電話翻譯系統。
中國發展
中國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。直至1973年才由中國科學院聲學所開始計算機語音識別。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發展的階段。
進入80年代以后,隨著計算機應用技術在中國逐漸普及和應用以及數字信號技術的進一步發展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經過了多年的沉寂之后重又成為研究的熱點,發展迅速。就在這種形式下,國內許多單位紛紛投入到這項研究工作中去。
1986年3月中國高科技發展計劃(863計劃)啟動,語音識別作為智能計算機系統研究的一個重要組成部分而被專門列為研究課題。在863計劃的支持下,中國開始了有組織的語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。從此中國的語音識別技術進入了一個前所未有的發展階段。
識別模式
這一時期的語音識別方法基本上是采用傳統的模式識別策略。其中以蘇聯的Velichko和Zagoruyko、日本的迫江和千葉,以及當時在美國的板倉等人的研究工作最具有代表性。
· 蘇聯的研究為模式識別應用于語音識別這一領域奠定了基礎;
· 日本的研究則展示了如何利用動態規劃技術在待識語音模式與標準語音模式之間進行非線性時間匹配的方法;
·板倉的研究提出了如何將線性預測分析技術(LPC)加以擴展,使之用于語音信號的特征抽取的方法。
數據庫
在語音識別的研究發展過程中,相關研究人員根據不同語言的發音特點,設計和制作了以漢語(包括不同方言)、英語等各類語言的語音數據庫,這些語音數據庫可以為國內外有關的科研單位和大學進行漢語連續語音識別算法研究、系統設計、及產業化工作提供充分、科學的訓練語音樣本。例如:MIT Media lab Speech Dataset(麻省理工學院媒體實驗室語音數據集)、Pitch and Voicing Estimates for Aurora 2(Aurora2語音庫的基因周期和聲調估計)、Congressional speech data(國會語音數據)、Mandarin Speech Frame Data(普通話語音幀數據)、用于測試盲源分離算法的語音數據等。
技術發展
目前在大詞匯語音識別方面處于領先地位的IBM語音研究小組,就是在70年代開始了它的大詞匯語音識別研究工作的。AT&T的貝爾研究所也開始了一系列有關非特定人語音識別的實驗。這一研究歷經10年,其成果是確立了如何制作用于非特定人語音識別的標準模板的方法。
這一時期所取得的重大進展有:
?、烹[式馬爾科夫模型(HMM)技術的成熟和不斷完善成為語音識別的主流方法。
?、埔灾R為基礎的語音識別的研究日益受到重視。在進行連續語音識別的時候,除了識別聲學信息外,更多地利用各種語言知識,諸如構詞、句法、語義、對話背景方面等的知識來幫助進一步對語音作出識別和理解。同時在語音識別研究領域,還產生了基于統計概率的語言模型。
?、侨斯ど窠浘W絡在語音識別中的應用研究的興起。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網絡。人工神經網絡具有區分復雜的分類邊界的能力,顯然它十分有助于模式劃分。特別是在電話語音識別方面,由于其有著廣泛的應用前景,成了當前語音識別應用的一個熱點。
另外,面向個人用途的連續語音聽寫機技術也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統。這些系統具有說話人自適應能力,新用戶不需要對全部詞匯進行訓練,便可在使用中不斷提高識別率。
中國的語音識別技術的發展 :?、旁诒本┯兄锌圃郝晫W所、自動化所、清華大學、北方交通大學等科研機構和高等院校。另外,還有哈爾濱工業大學、中國科技大學、四川大學等也紛紛行動起來。
?、片F在,國內有不少語音識別系統已研制成功。這些系統的性能各具特色。
· 在孤立字大詞匯量語音識別方面,最具代表性的要數92年清華大學電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實時系統。
· 在連續語音識別方面,91年12月四川大學計算機中心在微機上實現了一個主題受限的特定人連續英語——漢語語音翻譯演示系統。
·在非特定人語音識別方面,有清華大學計算機科學與技術系在87年研制的聲控電話查號系統并投入實際使用。
內容來自百科網