5月14日消息,小鵬汽車在論文《判別性多模態語音識別, Discriminative Multi-modality SR》提出了一個兩階段語音識別模型。在第一階段,通過唇動的視覺信息將目標語音從背景噪聲中分離出來,使模型能夠清晰地理解。第二階段,音頻模態再次結合視覺模態,通過MSR子網絡更好地理解語音,進一步提高識別率。據介紹,通過在LRS3-TED和LRW數據集上進行了大量的實驗。該兩階段模型 (音頻增強多模態語音識別,AE-MSR) 以顯著的優勢達到了最先進的性能,證明了AE-MSR的必要性和有效性。