從鍵盤(pán)打字到觸控屏,再到現(xiàn)在的語(yǔ)音交互和手勢(shì)交互, 人工智能技能
的開(kāi)展,正在促進(jìn)人機(jī)交互方法向愈加多元化方向革新。而今日,國(guó)內(nèi)聞名互聯(lián)網(wǎng)公司搜狗又推出了一種人機(jī)交互新技能——唇語(yǔ)辨認(rèn),這也是業(yè)界首個(gè)揭露演示的唇語(yǔ)辨認(rèn)體系,經(jīng)過(guò)機(jī)器視覺(jué)辨認(rèn),不必聽(tīng)聲響,僅靠辨認(rèn)說(shuō)話人唇部動(dòng)作,就能解讀說(shuō)話者所說(shuō)的內(nèi)容。
與語(yǔ)音辨認(rèn)不同,唇語(yǔ)辨認(rèn)是一項(xiàng)基于機(jī)器視覺(jué)與自然語(yǔ)言處理于一體的技能,因此在研發(fā)難度上比語(yǔ)音辨認(rèn)大得多。據(jù)悉,搜狗首創(chuàng)了雜亂端到端深度神經(jīng)網(wǎng)絡(luò)技能進(jìn)行中文唇語(yǔ)序列建模,經(jīng)過(guò)數(shù)千小時(shí)的實(shí)在唇語(yǔ)數(shù)據(jù)練習(xí),別的得益于搜狗在自然語(yǔ)言處理方面的強(qiáng)大優(yōu)勢(shì),最終取得了業(yè)界搶先的唇語(yǔ)辨認(rèn)作用。在非特定人敞開(kāi)白話測(cè)驗(yàn)集上,搜狗唇語(yǔ)辨認(rèn)體系現(xiàn)已到達(dá)60%以上的準(zhǔn)確率,超越google發(fā)布的英文唇語(yǔ)體系50%以上的準(zhǔn)確率,在垂直場(chǎng)景如車(chē)載、
智能家居
等場(chǎng)景下乃至現(xiàn)已到達(dá)90%的準(zhǔn)確率。在剛完畢不久的烏鎮(zhèn)國(guó)際互聯(lián)網(wǎng)大會(huì)上,搜狗唇語(yǔ)辨認(rèn)技能露臉,在業(yè)界大大都唇語(yǔ)辨認(rèn)技能實(shí)用性尚待考證的環(huán)境下,成功完成了業(yè)界首個(gè)中文唇語(yǔ)辨認(rèn)體系的揭露演示,引起廣泛重視。
當(dāng)國(guó)內(nèi)大部分企業(yè)都扎堆集合在智能語(yǔ)音、圖像辨認(rèn)等范疇時(shí),搜狗唇語(yǔ)辨認(rèn)技能的推出無(wú)疑將引領(lǐng)整個(gè)職業(yè)進(jìn)入一個(gè)全新的開(kāi)展方向。作為人機(jī)交互的形式之一,未來(lái)唇語(yǔ)辨認(rèn)技能能夠輔助語(yǔ)音交互及圖像辨認(rèn),在日常日子、安防、公益等各個(gè)范疇完成廣泛應(yīng)用。比如在車(chē)載場(chǎng)景下,周?chē)胍暨^(guò)大時(shí)會(huì)對(duì)語(yǔ)音指令產(chǎn)生攪擾,經(jīng)過(guò)唇語(yǔ)辨認(rèn)技能則能夠規(guī)避攪擾,確保人車(chē)交互的準(zhǔn)確性和穩(wěn)定性,日常不方便發(fā)聲的公共場(chǎng)所也能夠確保說(shuō)話內(nèi)容的私密性;在安防范疇,因?yàn)楝F(xiàn)在大都監(jiān)控只要攝像頭沒(méi)有麥克風(fēng),往往只能看清嘴型卻不知道在說(shuō)什么,給案情剖析帶來(lái)很多難題,而唇語(yǔ)辨認(rèn)技能能夠協(xié)助公安人員獲取重要的說(shuō)話信息,為公共安全供給有用支撐。除此之外,唇語(yǔ)辨認(rèn)技能還能發(fā)揮巨大的公益價(jià)值,協(xié)助先天性聽(tīng)障人群或老年人,讓他們更好地了解和表達(dá)自己。
作為一家技能驅(qū)動(dòng)型的企業(yè),近年來(lái)搜狗一向致力于自然語(yǔ)言的研討,現(xiàn)在在語(yǔ)音辨認(rèn)、語(yǔ)義了解、機(jī)器翻譯等方面均取得了職業(yè)搶先的成果并完成產(chǎn)品落地,此次推出唇語(yǔ)辨認(rèn)技能,不只會(huì)推進(jìn)整個(gè)AI職業(yè)的技能革新,也意味著搜狗在AI范疇的技能實(shí)力到達(dá)了更高的開(kāi)展水平。
時(shí)至今日,
人工智能
的開(kāi)展速度現(xiàn)已徹底超出了我們的想象,那些電影里的炫酷黑科技正在一步步成為實(shí)際出現(xiàn)在我們的日子中。跟著AI技能的開(kāi)展,信任在不遠(yuǎn)的將來(lái),唇語(yǔ)辨認(rèn)也能像語(yǔ)音辨認(rèn)、圖像辨認(rèn)一樣成為我們?nèi)兆又须S處可見(jiàn)的一部分。
|