久久精品无码视频|精产国品色情一二三区在线观看|国产性爱自拍视频|亚洲av韩国av|日韩美女一级AAA大片|少妇无码激情诱惑|日韩AV在线播放有码|一级黄片一级黄片|av上一页亲亲久草av|aaa在线观看国产做爱

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
特寫 正文
發(fā)私信給游瑞
發(fā)送

12

錄音轉(zhuǎn)文字,聽道可能成為速記終結(jié)者嗎?

本文作者: 游瑞 2015-12-02 09:14
導(dǎo)語(yǔ):機(jī)器替代人工速記,有何不可。

在很多重要的場(chǎng)所或者對(duì)話過(guò)程中,需要用到速記,它的特點(diǎn)就是記錄速度快、效率高,可以用比漢字快三倍以上的書寫速度來(lái)記錄別人的對(duì)話。但速記畢竟是個(gè)技術(shù)活,不是人人都可以輕松掌握的一項(xiàng)技能,另外專業(yè)速記人員不好請(qǐng)(現(xiàn)場(chǎng)速記略貴)也是一個(gè)不爭(zhēng)的事實(shí),所以在很多場(chǎng)景下,將現(xiàn)場(chǎng)錄音轉(zhuǎn)交速記人員轉(zhuǎn)錄成文字成了不二之選。

那么將錄音轉(zhuǎn)錄為文字,能不需要人工嗎?將語(yǔ)音轉(zhuǎn)化為文字,對(duì)目前的技術(shù)而言并非難事,很多語(yǔ)音助手都有較高的語(yǔ)音識(shí)別度,就連微信也能直接將語(yǔ)音翻譯為文字,就更別說(shuō)那些能支持語(yǔ)音輸入的輸入法們,所以要將將錄音轉(zhuǎn)為文字,是可以讓機(jī)器完成的。

90后創(chuàng)業(yè)團(tuán)隊(duì)聽道在做就是這個(gè),用創(chuàng)始人董建成自己的話說(shuō)就是“我們自己的‘初心’就是讓更多需要技術(shù)來(lái)解決問(wèn)題的人能用得上高新技術(shù),而不是讓技術(shù)成為擺設(shè),有困難的人還是得不到解決,所以我們定位是在技術(shù)層到應(yīng)用層的企業(yè)“。錄音轉(zhuǎn)文字,聽道可能成為速記終結(jié)者嗎?

雷鋒網(wǎng):語(yǔ)音識(shí)別技術(shù)是自己做的嗎?

董建成(公眾號(hào):ting dao):目前采用的語(yǔ)音識(shí)別技術(shù)雖然不是自己做得,但也不是哪一家的,而是同時(shí)選用了多家語(yǔ)音識(shí)別的技術(shù)。之所以不自己做,是這塊如果沒有個(gè)一二十年的積累,肯定是做不出來(lái)的,尤其是對(duì)于小團(tuán)隊(duì)來(lái)說(shuō),第一沒這個(gè)能力做,第二即便現(xiàn)在去做,也做不過(guò)別人。

選擇多家技術(shù)的糅合也不是沒有章法的,經(jīng)過(guò)研究對(duì)比,我們發(fā)現(xiàn)每個(gè)引擎(語(yǔ)音識(shí)別技術(shù))都有自己擅長(zhǎng)處理的一個(gè)領(lǐng)域,有的善于處理KTV環(huán)境下的錄音,有的對(duì)大馬路上的錄音處理效果好,不同環(huán)境下,不同領(lǐng)域內(nèi)的詞匯偏重,都會(huì)影響最終的轉(zhuǎn)錄效果。

降噪部分我們自己做,有單獨(dú)的算法,不但降噪還能自動(dòng)把每句話是時(shí)間點(diǎn)精確地自動(dòng)地切分好,提高識(shí)別效率,不過(guò)音源肯定是清晰度越高越好,因?yàn)榧词褂薪翟?,也?huì)降低識(shí)別準(zhǔn)確度,音源清晰發(fā)音清晰最好

我們還能通過(guò)對(duì)錄音環(huán)境的甄別,領(lǐng)域的劃分,對(duì)比結(jié)果后選擇最好的文字呈現(xiàn)給用戶,但是對(duì)于口音暫時(shí)沒有自動(dòng)區(qū)分。引擎與最終結(jié)果的選擇,是系統(tǒng)自動(dòng)完成的。

雷鋒網(wǎng):讓電腦自己去做對(duì)比選擇,這是怎么做到的?它如何去判斷這個(gè)錄音是在KTV里面錄的還是在大馬路上錄的?它又怎么能知道這個(gè)錄音說(shuō)的是科技領(lǐng)域內(nèi)的東西還是娛樂(lè)圈里面的?

董建成:首先在噪音處理這塊,是我們自己做的,所以通過(guò)噪音的頻譜以及響度可以大概區(qū)分出來(lái)是處于哪個(gè)環(huán)境,然后再去初選引擎。

每個(gè)引擎會(huì)對(duì)自動(dòng)的對(duì)自己識(shí)別的結(jié)果給出一個(gè)評(píng)分,也就是置信度,分?jǐn)?shù)越高表示結(jié)果越準(zhǔn)確,所以置信度的高低決定了最終會(huì)選用哪個(gè)結(jié)果。

最終的結(jié)果還會(huì)跟用戶修改后的文字進(jìn)行對(duì)比,一并收納進(jìn)大數(shù)據(jù)庫(kù)。若下次再在遇到同樣的結(jié)果時(shí),就能直接在我們這邊直接給出更符合用戶需求的文字。

雷鋒網(wǎng):你們跟這些引擎之間有協(xié)議嗎?

董建成:引擎方提供SDK,其中包含了使用協(xié)議,而我們則是直接使用他們的API做了一個(gè)應(yīng)用,即便是用于商業(yè)化也沒有問(wèn)題,微信就是這樣做的。

雷鋒網(wǎng):你們的轉(zhuǎn)化率如何?

董建成:主要是出于兩點(diǎn)考慮,第一個(gè)就是之前所說(shuō)的通過(guò)不斷地收集修改前后的文字對(duì)比,來(lái)完善最終文字。另一點(diǎn)的話,就還是通過(guò)選擇多種引擎來(lái)提供最為合適的結(jié)果。

錄音轉(zhuǎn)文字,之所以轉(zhuǎn)化率低,不是因?yàn)橐娌恍?,而是錄音這一塊出的問(wèn)題會(huì)比較多。很多引擎說(shuō)自己的轉(zhuǎn)化率能達(dá)到95%或者99%,其實(shí)也沒錯(cuò),不過(guò)前提是錄音清晰的情況下。

用微信說(shuō)話的時(shí)候,一般都是拿著手機(jī)講,距離比較近,所以轉(zhuǎn)錄效果非常好。而正常錄音的話,一般距離較遠(yuǎn),環(huán)境也會(huì)更加復(fù)雜,這樣一來(lái)就容易造成錄音不清晰,噪音比較大。

未來(lái),我們可能推出自動(dòng)定向的錄音麥克風(fēng),采用四點(diǎn)麥克風(fēng)陣列,誰(shuí)在說(shuō)話時(shí)就調(diào)整陣列,只收集說(shuō)話人的聲音,算法我們已經(jīng)驗(yàn)證過(guò)了,可行,效果也可以。

錄音轉(zhuǎn)文字,聽道可能成為速記終結(jié)者嗎?

雷鋒網(wǎng):與錄音寶如何競(jìng)爭(zhēng)?

董建成:錄音寶做到比較好的地方是能實(shí)時(shí)錄音,能夠顯示錄音時(shí)的地址,按時(shí)間軸存儲(chǔ)文件,一件轉(zhuǎn)錄文字,也可以一鍵導(dǎo)出音頻與文字。但錄音筆實(shí)際上是偏重于日常生活,對(duì)于處理工作中一小時(shí),兩小時(shí)的長(zhǎng)時(shí)間錄音的話,它就不是那么方便。比如說(shuō),在一段很長(zhǎng)的錄音文件中,中間可能有一段錄音是不需要的,但是卻沒辦法刪掉,只能導(dǎo)出來(lái)之后,手動(dòng)修改。

而在我們的網(wǎng)頁(yè)版上,就能在導(dǎo)出之前勾選你說(shuō)需要的或者不需要的內(nèi)容。而且能夠就這每一句話聽錄音編輯修改轉(zhuǎn)錄出來(lái)的文字。另外一個(gè)就是,我們轉(zhuǎn)錄出來(lái)的文字是帶有時(shí)間節(jié)點(diǎn)的,可以直接生成字幕格式。比如說(shuō),你要發(fā)布一個(gè)視頻,那么你就不要再去配字幕了,直接就能用。

我們的定位主要是專業(yè)軟件,能夠多平臺(tái)同步處理,只要錄音文件上傳到了云端,那么用戶無(wú)論是在家還是辦公室,只要打開這個(gè)軟件,就能繼續(xù)編輯,這樣的話,就能不受限于工作地點(diǎn)與電腦。我們不是純做技術(shù),我們是底層技術(shù)研發(fā)和解決用戶實(shí)際問(wèn)題之間的橋梁,是為了將現(xiàn)有的技術(shù)真實(shí)用來(lái)解決用戶實(shí)際需求的。

對(duì)于文字的編輯這塊,我們也有獨(dú)特的地方,比如說(shuō)對(duì)每一句話的起點(diǎn)與終點(diǎn)劃分,十分準(zhǔn)確,而且是修改哪一行,就能播放哪一句聲音。如果在文字內(nèi)容修改時(shí)按回車,不僅文字內(nèi)容會(huì)拆分,音頻內(nèi)容也會(huì)自動(dòng)分段,依據(jù)是語(yǔ)音與文字對(duì)應(yīng)的頻率,還有時(shí)間點(diǎn)。其他基本的文字編輯功能與技巧與常有的WORD差不多。

雷鋒網(wǎng):你們會(huì)代替速記這個(gè)工種嗎?

董建成:將來(lái)發(fā)展是有可能替代速記的,但會(huì)很久,目前是幫助速記。

就目前的平臺(tái)處理速度而言,一小時(shí)的文件,需要10分鐘才能出稿。以后,會(huì)采用分段處理的方式,將一段錄音分解成無(wú)數(shù)小段,同時(shí)轉(zhuǎn)錄,雖然會(huì)消耗服務(wù)器大量的計(jì)算能力,但能保證一小時(shí)文件一分鐘左右完成轉(zhuǎn)錄。

小結(jié)

從成本身而言,現(xiàn)在人力成本太高,請(qǐng)一個(gè)速記人員到現(xiàn)場(chǎng)除了要按字付錢之外,還得額外給出勤費(fèi),按日計(jì)算的。時(shí)間成本也高,現(xiàn)場(chǎng)速記可不是當(dāng)場(chǎng)結(jié)束就能當(dāng)場(chǎng)給出的,速記人員還得回過(guò)去校隊(duì)一次,要不然很多東西是看不懂的,而錄音給速記人員去轉(zhuǎn)錄文章的話,1小時(shí)的錄音最快也得花一小時(shí)轉(zhuǎn)錄出來(lái)。

機(jī)器轉(zhuǎn)錄的話,目前基本上都是免費(fèi)的,以后收費(fèi)也可能是在精度,處理速度與存儲(chǔ)空間上做文章,所以不用太擔(dān)心。時(shí)間現(xiàn)在差一點(diǎn)的一小時(shí)文件可能上傳,轉(zhuǎn)錄,導(dǎo)出算一起不到20分鐘的樣子,未來(lái)會(huì)更快。至于,轉(zhuǎn)化率的問(wèn)題,人工速記的精度并高,還是需要用戶再次校對(duì),那么隨著機(jī)器轉(zhuǎn)錄的置信度的提高,需要用戶校對(duì)的地方也只會(huì)越來(lái)越少。

人工速記定會(huì)被機(jī)器取代,這一點(diǎn)是可以確定的,但這個(gè)速記終結(jié)者是不是聽道,就不要一定了,或許是引擎?zhèn)兊目赡苄愿蟆?/p>

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章

編輯

雷鋒網(wǎng)上海新聞中心,編輯。關(guān)注智能硬件、汽車科技,致力創(chuàng)業(yè)者服務(wù),微信號(hào):OI23432。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)