走進(jìn)深圳市北科瑞聲科技股份有限公司(以下簡(jiǎn)稱“北科瑞聲”)的人工智能展廳,一件件智能語音產(chǎn)品引人注目。

“智能語音音頻技術(shù)應(yīng)用十分廣泛,可以賦能許多場(chǎng)景?!北笨迫鹇暥麻L劉軼說,公司通過與高速交通、智慧醫(yī)療、數(shù)字政務(wù)等行業(yè)深度融合,創(chuàng)新研發(fā)了一系列智能產(chǎn)品,并與多個(gè)國產(chǎn)主流平臺(tái)完成兼容性互認(rèn)證,實(shí)現(xiàn)智能語音系統(tǒng)全鏈自主可控運(yùn)行,持續(xù)推動(dòng)智能語音技術(shù)應(yīng)用研發(fā)及產(chǎn)業(yè)化。2022年,北科瑞聲營業(yè)收入突破億元,同比增速超過56%。

專注技術(shù)研發(fā)


(資料圖片)

2003年,劉軼從香港科技大學(xué)博士畢業(yè)留校任教,從事嵌入式智能語音識(shí)別技術(shù)研究?!白约貉邪l(fā)的東西能夠?qū)崿F(xiàn)應(yīng)用,產(chǎn)生經(jīng)濟(jì)效益、服務(wù)社會(huì),這是每一個(gè)工科人的夢(mèng)想?!睅е@樣的夢(mèng)想,2008年,他與兩位合伙人來到深圳,創(chuàng)立北科瑞聲。

實(shí)現(xiàn)夢(mèng)想的路上,需要不斷探索和創(chuàng)新。嵌入式智能語音識(shí)別技術(shù)通過將聲音轉(zhuǎn)換成文本和命令,能夠?qū)崿F(xiàn)語音輸入、語音控制,可應(yīng)用于多種應(yīng)用系統(tǒng)、移動(dòng)設(shè)備,大大改善人機(jī)交互方式。但是,要把這個(gè)技術(shù)落地實(shí)現(xiàn)產(chǎn)品化,并不是件容易的事。

“那時(shí),人們對(duì)語音識(shí)別還沒什么概念,相關(guān)技術(shù)也不夠成熟,鮮有成功的商業(yè)化案例。風(fēng)口沒到的時(shí)候,我們需要沉下心來,做好基礎(chǔ)性工作,錘煉好自己的本領(lǐng)。”劉軼說。

瞄準(zhǔn)語音音頻交互核心技術(shù),北科瑞聲組織研發(fā)團(tuán)隊(duì)開展持續(xù)攻關(guān),不斷突破技術(shù)瓶頸。“在人工智能和機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,有一大一小兩個(gè)難題。大難題是指超大規(guī)模預(yù)訓(xùn)練模型,小難題是指芯片級(jí)神經(jīng)網(wǎng)絡(luò)模型?!北笨迫鹇暱偨?jīng)理王昕介紹,針對(duì)兩個(gè)難題,公司研發(fā)了音頻信息感知、語音識(shí)別、人機(jī)交互系統(tǒng)等全鏈多模態(tài)人工智能技術(shù),并將這些技術(shù)封裝在自研芯片上,打造存算一體芯片級(jí)小型神經(jīng)網(wǎng)絡(luò)模型語音芯片,推出“云+端+芯”全鏈條、自主可控智能語音產(chǎn)品,實(shí)現(xiàn)從人工智能語音技術(shù)創(chuàng)新到產(chǎn)業(yè)應(yīng)用的生態(tài)閉環(huán)。

“云+端+芯”即云、設(shè)備終端和芯片,三者鏈條打通之后,能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的存儲(chǔ)、處理、整理、分析和傳輸?!肮タ诉@個(gè)技術(shù)并非易事,我們面臨許多挑戰(zhàn)?!蓖蹶空f,語音交互具有時(shí)變性。在溝通過程中,設(shè)備每一分鐘都要通過提取語音特征、參數(shù),與后臺(tái)的模型進(jìn)行大量比對(duì)計(jì)算,快速反饋語音內(nèi)容。這不僅需要一個(gè)速度非常快的計(jì)算單元,還需要中央處理器的算力足夠快、存儲(chǔ)器容量足夠大。與此同時(shí),還要實(shí)現(xiàn)低功耗,降低應(yīng)用成本。

為了破解這一系列難題,北科瑞聲不斷提升數(shù)據(jù)、算法和算力能力,積累了超10萬小時(shí)語音音頻數(shù)據(jù)、TB級(jí)語言數(shù)據(jù)及語音音頻行業(yè)標(biāo)桿級(jí)數(shù)據(jù)資源;研發(fā)出行業(yè)領(lǐng)先的中文復(fù)雜場(chǎng)景語音音頻交互技術(shù),普通話語音識(shí)別準(zhǔn)確度達(dá)99%,限定領(lǐng)域的意圖識(shí)別準(zhǔn)確度達(dá)到95%。

語音交互技術(shù)好不好,不僅要看測(cè)試的識(shí)別準(zhǔn)確率,還要看其在實(shí)際場(chǎng)景下的語義理解能力。“即便如今普通話普及程度越來越高,但由于每個(gè)人的經(jīng)歷或生活環(huán)境不同,產(chǎn)生了很多‘不標(biāo)準(zhǔn)’的普通話發(fā)音。這個(gè)‘不標(biāo)準(zhǔn)’千變?nèi)f化,識(shí)別起來十分困難。而基于中文復(fù)雜場(chǎng)景的語音音頻交互技術(shù),可以做到在無需事先指定口音類型的情況下,處理國內(nèi)50多個(gè)地方的帶口音普通話?!眲⑤W說。

面對(duì)互聯(lián)網(wǎng)時(shí)代層出不窮且逐漸融入人們生活的網(wǎng)絡(luò)新詞,中文復(fù)雜場(chǎng)景語音音頻交互技術(shù)還能通過自進(jìn)化能力,在30秒內(nèi)對(duì)這些新詞進(jìn)行全面學(xué)習(xí)、掌握,以快速跟上互聯(lián)網(wǎng)信息迭代速度。而原先的傳統(tǒng)技術(shù)若想識(shí)別新詞,一般需要數(shù)天甚至數(shù)周的技術(shù)訓(xùn)練。

經(jīng)過持續(xù)研發(fā)創(chuàng)新,北科瑞聲攻克了多項(xiàng)人工智能核心技術(shù),實(shí)現(xiàn)了端云架構(gòu)以及端到端一體化產(chǎn)品應(yīng)用。目前,北科瑞聲擁有知識(shí)產(chǎn)權(quán)200多件,其中發(fā)明專利100多件,參與了智能語音識(shí)別和交互國家標(biāo)準(zhǔn)制定,獲得我國智能科學(xué)技術(shù)最高獎(jiǎng)“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”、中國專利優(yōu)秀獎(jiǎng)以及多項(xiàng)廣東省科學(xué)技術(shù)獎(jiǎng)等獎(jiǎng)項(xiàng),發(fā)展成為人工智能音頻領(lǐng)軍企業(yè)。

拓展應(yīng)用場(chǎng)景

創(chuàng)新不能閉門造車,還需要根據(jù)市場(chǎng)需求將科研成果落地轉(zhuǎn)化?!巴ㄓ卯a(chǎn)品僅僅將語音轉(zhuǎn)化為文字,無法滿足醫(yī)療、交通、政務(wù)等細(xì)分領(lǐng)域的需求。比如一些專業(yè)術(shù)語,如果我們的智能語音系統(tǒng)沒有與行業(yè)進(jìn)行深度融合或者定制化處理,就達(dá)不到好的效果?!眲⑤W告訴記者,人工智能要想真正為市場(chǎng)所用,一定要與具體的行業(yè)應(yīng)用結(jié)合起來,做深、做精,為行業(yè)發(fā)展賦能。

在探尋技術(shù)落地及差異化競(jìng)爭(zhēng)路徑的過程中,北科瑞聲將目光首先聚焦于車載應(yīng)用領(lǐng)域。

“支持語音交互是車載導(dǎo)航智能發(fā)展的必然趨勢(shì),出于對(duì)安全駕駛的考慮,人們不能一邊開車一邊操作導(dǎo)航。我們嘗試將智能語音識(shí)別技術(shù)嵌入汽車車機(jī),通過車機(jī)總線進(jìn)行總控,可執(zhí)行高達(dá)幾萬條的語音命令?!北笨迫鹇暱偛棉k公室副總監(jiān)王詩雨說,“車主只需說出路線需求,車機(jī)就能規(guī)劃合適的路線,實(shí)現(xiàn)無手化操作。”

車載應(yīng)用成功落地讓北科瑞聲在智能語音應(yīng)用領(lǐng)域摸索出一些經(jīng)驗(yàn),隨后開始在數(shù)字政務(wù)、智慧醫(yī)療和高速交通等領(lǐng)域發(fā)力。

在數(shù)字政務(wù)智能語音解決方案中,北科瑞聲基于其智能語音核心能力開發(fā)出一套主要用于政企會(huì)議場(chǎng)景的智能語音會(huì)議系統(tǒng)?!皶?huì)議記錄是政企日常工作中的重要部分,但傳統(tǒng)記錄方式效率較低?!眲⑤W說,智能語音會(huì)議系統(tǒng)提供基于私有云的語音轉(zhuǎn)文字、實(shí)時(shí)轉(zhuǎn)寫上屏顯示、離線語音轉(zhuǎn)寫、紀(jì)要成稿、會(huì)議記錄留存查詢等功能,避免了傳統(tǒng)人工整理記錄會(huì)議內(nèi)容存在的時(shí)間長、易遺漏、準(zhǔn)確率低等問題,從而提升會(huì)議交互體驗(yàn)與辦公效率。目前,北科瑞聲智能語音會(huì)議系統(tǒng)已在深圳許多政企單位實(shí)現(xiàn)應(yīng)用。

“數(shù)據(jù)不只是一種資源,更是一種能力,是企業(yè)的核心競(jìng)爭(zhēng)力?!眲⑤W說,在高速交通領(lǐng)域,北科瑞聲通過運(yùn)用云計(jì)算、大數(shù)據(jù)分析能力,提升人工智能認(rèn)知能力,實(shí)現(xiàn)大交通領(lǐng)域用戶數(shù)據(jù)安全可靠。

ETC卡剛剛推行時(shí),由于需求量不高,高速客服中心的線上客服配置并不多。隨著ETC熱潮的到來,2019年,粵通卡車主大幅上漲,給客服工作帶來了巨大壓力?;跀?shù)據(jù)、算法、算力三大要素技術(shù)積累,北科瑞聲結(jié)合高速交通業(yè)務(wù)場(chǎng)景及高速視頻云系統(tǒng),打造出覆蓋互聯(lián)網(wǎng)渠道、電話通道及高速場(chǎng)景線下服務(wù)窗口的人工智能高速交通綜合信息服務(wù)平臺(tái)——全終端高速交通平臺(tái)。

這一平臺(tái)以智能外呼機(jī)器人替代人工客服,通過與粵高速客服中心電話線路集成,實(shí)現(xiàn)從流程設(shè)置、外呼呼叫到數(shù)據(jù)處理與匯總的全流程自動(dòng)化處理。智能外呼機(jī)器人集成語音識(shí)別、自然語言理解、信息檢索、語音合成等智能技術(shù),聽得懂、能理解、會(huì)說話,人機(jī)交互流暢自然,機(jī)器人單條電話線單日可完成外呼電話上千次,外呼數(shù)據(jù)同步轉(zhuǎn)寫生成保存。

“與傳統(tǒng)人工外呼相比,智能外呼機(jī)器人具備自動(dòng)撥打、多輪對(duì)話、自動(dòng)生產(chǎn)外呼數(shù)據(jù)等優(yōu)勢(shì),還可不間斷工作,有效提升了工作智能化、數(shù)字化水平?!蓖蹶空f,深圳具有良好的創(chuàng)新土壤,為企業(yè)積累場(chǎng)景應(yīng)用經(jīng)驗(yàn)、促進(jìn)技術(shù)迭代提供了舞臺(tái)。立足這個(gè)資源優(yōu)勢(shì),北科瑞聲在不斷拓展應(yīng)用場(chǎng)景的同時(shí),將繼續(xù)破解技術(shù)瓶頸,持續(xù)迭代產(chǎn)品,用人工智能技術(shù)賦能更多行業(yè)發(fā)展。(記者 楊陽騰)

標(biāo)簽: