首頁>產(chǎn)品中心

語音識別轉(zhuǎn)寫引擎 PM-54459GCY軟件(V3.017)

語音識別服務軟件是人工智能技術開發(fā)，面向各行業(yè)客戶提供的一款語音轉(zhuǎn)寫產(chǎn)品。該產(chǎn)品為客戶提供整套語音轉(zhuǎn)寫方案，幫助客戶快速將音頻轉(zhuǎn)換為文本。產(chǎn)品針對長語音場景做了多項核心技術優(yōu)化，在遠場、噪音環(huán)境下的識別率大幅提升，技術業(yè)界領先。產(chǎn)品提供異步文件轉(zhuǎn)寫、實時語音轉(zhuǎn)寫兩個核心功能，滿足客戶的不同需求。錄音文件識別，支持客戶將音頻文件上傳識別成文字；實時語音識別，支持客戶上傳音頻流，獲得識別后的文字流結(jié)果。

產(chǎn)品特點

1.實時長語音識別：基于深度卷積神經(jīng)網(wǎng)絡架構，通過 WebSocket 協(xié)議，建立應用與語音識別引擎的長鏈接，對不限時長的音頻流作實時識別，可以做到“邊說話邊同步輸出文字”的效果，內(nèi)置智能斷句，可提供每句話開始結(jié)束時間，適用于實時直播字幕、實時會議記錄、實時法庭庭審等場景。

2.語音識別準確率：標準普通話轉(zhuǎn)寫準確率≥98.5%。(轉(zhuǎn)寫的準確率與普通話標準程度和發(fā)音清晰度有關)

3.語音識別速度：依托語音轉(zhuǎn)寫技術，實時語音轉(zhuǎn)寫速度≤200毫秒。

4.一句話識別：支持對時長較短（60 秒以內(nèi)）的語音進行識別，非實時的返回識別結(jié)果，返回結(jié)果延遲小于5秒。

5.支持多種音頻編解碼格式：目前實時語音轉(zhuǎn)寫支持pcm格式音頻編解碼算法。非實時轉(zhuǎn)寫支持mp3、wav、wma、mp4、avi、pcm、m4a等格式音頻。目前音頻采樣率僅支持16K和8K。

6.文本后處理：語音轉(zhuǎn)寫私有云支持對識別結(jié)果語句智能預測其對話語境，提供智能斷句和標點符號的預測，同時也支持數(shù)字規(guī)整和替換列表能力。

7.錄音文件轉(zhuǎn)寫：錄音文件轉(zhuǎn)寫，通過 http[s]協(xié)議調(diào)用識別服務，將長段音頻錄音（5小時以內(nèi)）轉(zhuǎn)寫成文本數(shù)據(jù)，可用于采訪錄音轉(zhuǎn)寫、庭審數(shù)據(jù)錄入、會議記錄總結(jié)、呼叫中心錄音質(zhì)檢等場景，支持錄音分片上傳、說話人角色分離、自定義熱詞和敏感詞配置等功能。

8.軟件識別語言僅支持中文普通話。

9.可懂度高：提供口語順滑、熱詞、敏感詞檢測、數(shù)字規(guī)整、智能標點預測、智能分段等功能，有效提升文稿可讀性和可懂度。

10.支持150路并發(fā)

網(wǎng)站內(nèi)容僅供參考,本公司保留最終解釋權!

轉(zhuǎn)載請注明出處https://www.itc-pa.cn/pro/index/art/14287.html

項目咨詢獲取詳細信息

自慰在线观看,亚洲精品无码在线播放,美女张开腿让男生捅,亚洲成a人一区二区三区

語音識別轉(zhuǎn)寫引擎 PM-54459GCY軟件(V3.017)