itc語音轉(zhuǎn)寫系統(tǒng)
概述
itc語音轉(zhuǎn)寫系統(tǒng)是廣東保倫電子股份有限公司(itc)自主研發(fā)、生產(chǎn)、設(shè)計的利用人工智能技術(shù)將語音內(nèi)容轉(zhuǎn)換為文本的系統(tǒng)。
系統(tǒng)介紹
itc語音轉(zhuǎn)寫系統(tǒng)提供實時語音識別和錄音文件識別能力,實現(xiàn)語音實時轉(zhuǎn)寫、實時字幕、實時上屏、快速編輯語音轉(zhuǎn)寫紀(jì)要,并具有角色分離、錄音轉(zhuǎn)寫導(dǎo)出、紀(jì)要導(dǎo)出等功能,配合傳統(tǒng)會議室系統(tǒng)使用。
系統(tǒng)功能
實時語音轉(zhuǎn)寫
可將會議現(xiàn)場參會人員的發(fā)言內(nèi)容實時快速轉(zhuǎn)寫成文字,并且可以進行文字同步編輯,在會議結(jié)束后可以快速的整理出會議記錄或紀(jì)要,讓記錄人員的錄入效率從以往最高每分鐘輸入120~150個字提升到當(dāng)前每分鐘輸入250~350個字,縮短記錄時長。
歷史音頻轉(zhuǎn)寫
會議結(jié)束后,記錄人員可將會議結(jié)束后的歷史錄音文件針直接導(dǎo)入系統(tǒng)進行轉(zhuǎn)寫進行文字轉(zhuǎn)寫,確保會議記錄的準(zhǔn)確性。系統(tǒng)支持wma/wav/mp3/m4a/pcm/avi等多種格式音頻,轉(zhuǎn)寫結(jié)果支持錄音文字同步調(diào)聽矯正,可快速完成文字校核。一次性支持上傳50條數(shù)據(jù),數(shù)據(jù)總大小不超過5G,單條音頻時長不超過18小時。
實時上屏展示
可將文字轉(zhuǎn)寫內(nèi)容通過大屏顯示給現(xiàn)場人員觀看,通過展板上屏、展示實時語音轉(zhuǎn)寫結(jié)果,字體顏色和展板背景顏色支持根據(jù)實際情況需要進行調(diào)整,實現(xiàn)參會人員視聽結(jié)合。
關(guān)鍵詞優(yōu)化
針對會議的轉(zhuǎn)寫過程中,某些個性化或者生僻的詞語(例如人名、公司名、地名等)可能出現(xiàn)錯誤的情況,后臺記錄員可以提前輸入一些關(guān)鍵詞來優(yōu)化語言識別模型,以便在后面的實時轉(zhuǎn)寫過程中,系統(tǒng)自動修正這些文字的轉(zhuǎn)寫結(jié)果,提高識別準(zhǔn)確率。
語氣詞過濾
使用超大規(guī)模的語言模型,對識別結(jié)果語句智能預(yù)測其對話語境,提供智能斷句和標(biāo)點符號的預(yù)測。能夠在實時語音轉(zhuǎn)寫開始前或者進行文稿整理時,根據(jù)需要選擇是否開啟“語氣詞過濾”功能,若開啟則能將參會人員語氣詞和多余的詞匯去除,以保證文稿的規(guī)整。
禁忌詞屏蔽
系統(tǒng)管理人員可將不適宜展示的敏感詞添加禁忌詞列表中,屏蔽此禁忌詞,當(dāng)識別到此類詞匯時,系統(tǒng)提供不顯示、*號和空格三種顯示方式供選擇。
重點內(nèi)容標(biāo)記
當(dāng)發(fā)言遇到一些重要的信息時后臺工作人員可對內(nèi)容進行重點標(biāo)記,同時對領(lǐng)導(dǎo)的一些決策也可以進行重點標(biāo)記,便于會議結(jié)束后的記錄查詢等。
系統(tǒng)支持在實時語音轉(zhuǎn)寫過程、對轉(zhuǎn)寫文本結(jié)果進行編輯,對一些有疑問的內(nèi)容重點標(biāo)記高亮顯示,已標(biāo)記的文本也可以進行修改和標(biāo)記取消,方便整理會議紀(jì)要,會議結(jié)束會后即可或直接成稿。
音頻文字雙向?qū)?yīng)
在會議過程會議結(jié)束后,若對會議當(dāng)時的記錄存在異議,可對當(dāng)時的歷史音頻文件進行回放并再次轉(zhuǎn)寫,轉(zhuǎn)寫過程可以任意拖動進度條,并會顯示當(dāng)前進度條所轉(zhuǎn)寫的語音文字區(qū)域?qū)崿F(xiàn)雙向?qū)?yīng),方便記錄人員復(fù)查會議記錄內(nèi)容。
播放器、時間軸及文本區(qū)互相同步定位,更方便找到錄音時間對應(yīng)的文本對照修改。語音文字雙向交互,既可通過文字定位到語音,也可通過語音定位到文字,方便進行問題針對性的查看及修改。
角色分離
通過接入不同音頻通道實現(xiàn)角色自動分離,每個通道對應(yīng)發(fā)言角色。實現(xiàn)在會議過程中參會人員各方發(fā)言的內(nèi)容進行角色分離并自動實時識別成文字。
快速會后紀(jì)要
在會議中記錄人員需要仔細聽現(xiàn)場參會人員的發(fā)言,并記錄他們發(fā)言內(nèi)容,在會議過后并整理存檔,可使用語音轉(zhuǎn)寫結(jié)果進行編輯會議紀(jì)要,復(fù)制語音轉(zhuǎn)寫文本內(nèi)容到會議紀(jì)要中。會議結(jié)束后,自動歸檔會議紀(jì)要文件。管理人員可前往歷史會議中查看會議紀(jì)要文件,下載會議紀(jì)要文件。
會議錄音
可實時錄制參會人員發(fā)言的現(xiàn)場音頻,方便記錄員回聽錄音。可對照轉(zhuǎn)寫文本回聽錄音,追根溯源。速記員在會議記錄過程中,因記錄不及時、發(fā)言人語速過快的情況,通過轉(zhuǎn)寫過程中打點標(biāo)記相應(yīng)的位置,在閉會時,可以通過回聽會議音頻,再快速修正記錄內(nèi)容。
系統(tǒng)特征
依托核心語音技術(shù),準(zhǔn)確率最高可達95%以上。
整段錄音全自動機器轉(zhuǎn)寫,1小時音頻最快5分鐘出稿。
采用獨立專業(yè)服務(wù)器,不需聯(lián)網(wǎng),避免會議內(nèi)容和信息的外泄。
采用先進聲學(xué)模型和語言模型訓(xùn)練,。
基于有限狀態(tài)機的解碼網(wǎng)絡(luò),支持語音流實時輸出。實時轉(zhuǎn)寫,200ms內(nèi)返回結(jié)果。
實現(xiàn)在會議過程中對會議的發(fā)起方、參與方、主席、主持人、秘書等將各方發(fā)言的內(nèi)容進行角色分離并自動實時識別成文字。
通過提取上下文相關(guān)的語義特征,同時結(jié)合停頓、基頻信息等語音特征,來進行子句與段落的劃分;綜合運用上下文相關(guān)語義特征和語音學(xué)特征,解決分句與分段問題。
通過使用泛化特征并結(jié)合上下文相關(guān)語義特征和語音學(xué)特征,剔除轉(zhuǎn)寫結(jié)果中的停頓詞、語氣詞、重復(fù)詞。
會議室的會議音響系統(tǒng)可與智能會議語音轉(zhuǎn)寫系統(tǒng)統(tǒng)一結(jié)合、協(xié)同使用,直接對接。
會議發(fā)言、音頻擴聲、會議語音實時轉(zhuǎn)寫多項模塊靈活疊加組合,滿足不同行業(yè)、不同會議場景的多功能會議需求。
應(yīng)用場景
適用于辦公會議、工作報告、學(xué)術(shù)講座、培訓(xùn)、采訪等多種場景