網站首頁 美容小常識 享受生活 東方時尚 識真假 高奢 資訊 遊戲攻略 搞笑段子
當前位置:品位站 > 享受生活 > 數碼

Win10的語音識別|微軟不願意提及的軟肋

欄目: 數碼 / 發佈於: / 人氣:3.14W

由於仍然使用10年前的技術,語音識別準確率相對較低,用户需要大量訓練時間,語音輸入成為Windows的軟肋。

微軟不願意提及的軟肋:Win10的語音識別

據PCWorld 網站報道,Windows有一項微軟不願意提及的功能。雖然Windows可以讓用户使用觸控筆“寫寫畫畫”,藉助Windows Hello利用臉部登錄系統(或保護Web安全),甚至命令小娜設置提醒事項,但它明顯不想讓用户使用的一項功能是,利用其語音識別引擎對系統發號施令或讓用户利用語音輸入編輯文檔。

微軟不大力宣揚Windows語音識別功能的原因可以追溯到10年前,當時微軟產品經理謝恩·博切(Shanen Boettcher)在演示Windows Vista的語音輸入功能時搞砸了。之後Windows的語音輸入技術一直相當“低調”,目前幾乎沒有用户知道Windows有語音輸入功能。

如果説Windows有機會再戰語音輸入領域,目前似乎是個時機——計算機和人工智能的進展為語音輸入提供了好得多的基礎。

在被問及語音輸入技術在Office中的未來時,微軟負責語音識別研究以及小娜和必應的執行副總裁哈里·舒姆(Harry Shum)表示,“這是一個重大問題。語音輸入沒有扮演更重要的角色是不可理解的。”

語音識別不完美的原因

微軟不願意提及的軟肋:Win10的語音識別 第2張

部分用户仍然認為語音輸入還是《杜恩斯比利》(Doonesbury)系列漫畫中蘋果牛頓 PDA的水平,把用户説的“I am writing a test sentence”,聽為“Siam fighting atomic sentry”。用户有這種想法是可以原諒的:Windows語音識別功能仍然採用微軟Speech Recognizer 8.0技術,自Vista以來,這一技術就基本上沒有什麼變化。舒姆稱之為“祖父”級技術。

PCWorld表示,但硬件已經發生了很大變化:聽和解釋語音要求的處理能力遠低於10年前。Surface Book等PC產品中的集成式麥克風陣列的質量,意味着無需使用專用麥克風語音識別就可以達到很高的準確率。只是,語音輸入技術的發展已經適合大眾使用了嗎?

在使用語音輸入軟件輸入長度為1028個單詞的文章時,95%的準確率意味着用户必須修正逾15個錯誤。在測試中,Windows語音輸入準確率為93.6%,從理論上説這一數值並不高,低於測試的其他專用語音輸入軟件。Windows有個奇怪的習慣,在輸入逗號時,它會在文檔中插入“comma”(逗號)這個詞彙。語音輸入社區似乎對這類相對較小的失誤是否有重要影響有不同看法。

當然,這還不是全部。使用過語音輸入軟件的人都知道,準確率的關鍵是訓練。隨着時間推移,語音輸入軟件會了解用户口音,“apricot”中“a”的發音與“bad”還是“ape”中的“a”相同,和如何過濾無意識的痙攣性語言障礙。微軟員工曾聲稱,經過適當訓練,Windows語音識別技術的準確率可以達到99%.。1000個單詞出現10個錯誤還不算太壞。

很少有用户願意花時間訓練使用語音識別軟件。Windows語音識別軟件,要求用户用10分鐘時間訓練數個句子,會讓用户有度日如年的感覺。小娜和Siri不要求用户進行訓練,那是因為它們已經被訓練了數以百萬計的語音樣本。

小娜(可以在PC和手機上使用)在語音識別方面表現遠優於Windows語音輸入系統的原因是,它利用了微軟雲服務的計算能力。微軟會對用户的語音進行分析,使用户語音與其其他數據相關聯,生成作為小娜靈魂的智能。

微軟重視語音識別

微軟不願意提及的軟肋:Win10的語音識別 第3張

鑑於小娜的出色表現,用户會認為語音應當成為上週微軟Ignite會議的中心。但Ignite期間沒有任何與語音輸入有關的會議,只有一次會議與語音識別有關。微軟首席執行官薩蒂亞·納德拉(Satya Nadella)在主旨演講中把語音識別稱作是微軟未來的關鍵元素。

以Skype Translator為例。據納德拉稱,Skype Translator依賴三個方面的研究:語音識別、語音合成和機器翻譯。在演講中,納德拉稱微軟語音識別算法的誤字率為6.9%,這是一個糟糕的成績:準確率僅為93.1%.

PCWorld稱,如果微軟真正看好辦公軟件,語音識別在PC中的未來不僅僅是利用Skype在孟加拉國訂賓館,而是撰寫體驗,不過是通過語音而非手指。