星火直播永久破解版,国产免费一级高清生活片,久久九九久精品国产综合

虛擬助手在用戶發(fā)出命令后就會作出語音回復(fù)。而生成語音回復(fù)的技術(shù)被稱為文本轉(zhuǎn)語音（TTS）。

TTS 應(yīng)用能夠讓輔助器具使用者訪問更多內(nèi)容，因此非常實用。最新的 TTS 技術(shù)可以從一段幾分鐘的音頻數(shù)據(jù)中生成合成聲音，非常適合僅留存了有限錄音的失音者。

事實上，TTS 的應(yīng)用正在因技術(shù)進步而不斷增長：

在幾毫秒內(nèi)運行端到端 TTS 流程，以實現(xiàn)自然互動。

在推斷時自定義 AI 模型和流程，以產(chǎn)生具有表現(xiàn)力的合成語音。

部署在所有云、數(shù)據(jù)中心、邊緣或嵌入式設(shè)備上。

本文將說明語音合成系統(tǒng)如何運作，然后介紹 TTS 技術(shù)的常見用途和新用途。

語音合成系統(tǒng)如何工作

顧名思義，文本轉(zhuǎn)語音或語音合成是將書面文本轉(zhuǎn)換成自然、類似人類的語音音頻的過程。在端到端 TTS 流程中用于實現(xiàn)這一轉(zhuǎn)換的關(guān)鍵模型和模塊包括：

文本規(guī)范化和預(yù)處理：將數(shù)字和縮略語變成文字。

文本編碼：將文本轉(zhuǎn)換為輸入到聲譜圖生成器的編碼向量。

聲譜圖生成器：從編碼文本向量中生成聲譜圖。

語音編碼器模型：輸入聲譜圖并生成一個人們可以聽到的合成語音。

一般來說，TTS 是虛擬助手、數(shù)字人和服務(wù)機器人等應(yīng)用的最終階段。

常見的 TTS 應(yīng)用

2021 年 IDC 對話式 AI 采用情況調(diào)查共調(diào)研了 251 家公司，其中 74.5% 在語音對話式 AI 解決方案中使用 TTS，68.5% 在無障礙解決方案中使用 TTS（圖 1）。

圖 1.? IDC 關(guān)于常見 TTS 用例的調(diào)查

語音合成的功能用途正得到許多行業(yè)的認(rèn)可，人們可能已經(jīng)看到過以下 TTS 技術(shù)用例。

虛擬網(wǎng)紅

虛擬網(wǎng)紅正在改變未來與企業(yè)或名人溝通的方式。虛擬網(wǎng)紅也稱為虛擬品牌大使或品牌代言人，它們可以協(xié)助公司推廣產(chǎn)品和服務(wù)，名人也可以通過它們與粉絲保持全天候的聯(lián)系。

在這些用例中 TTS 技術(shù)生成了自定義聲音，然后被整合到動畫虛擬網(wǎng)紅或數(shù)字大使身上。

文本敘述

文本敘述能夠大聲朗讀所有類型的文本。這項 TTS 功能可用于網(wǎng)站及閱讀類應(yīng)用，為喜歡音頻類節(jié)目的人帶來了福音。有視覺障礙的人也可以使用文字?jǐn)⑹雎牭剿麄兿矚g的內(nèi)容。

TTS 用于在這些應(yīng)用程序上將文本轉(zhuǎn)換成語音并朗讀出來。但這項工作并不像表面上那么簡單。為了提升收聽體驗，此類應(yīng)用的聲音必須抑揚頓挫、富有節(jié)奏和表現(xiàn)力。

常見的語音轉(zhuǎn)文本準(zhǔn)確性問題

對于生活在現(xiàn)代社會的人來說，最流行和具有吸引力的媒介莫過于音頻和視頻內(nèi)容。TTS 技術(shù)可以幫助內(nèi)容創(chuàng)作者為視頻配音或創(chuàng)建播客。

為了獲得更多的受眾，創(chuàng)作者還可以使用 TTS 技術(shù)將博客、新聞文章等文本內(nèi)容轉(zhuǎn)換成音頻。

TTS 的使用十分靈活，用戶可以在變聲器等應(yīng)用中改變語音的音調(diào)、節(jié)奏和音量，使聲音變得更具表現(xiàn)力。

獨特的 TTS 應(yīng)用

除了這些日常應(yīng)用外，企業(yè)家們正在探索各種新穎的 TTS 應(yīng)用。下文將介紹開發(fā)獨特語音合成技術(shù)的公司。

用于智慧醫(yī)院的語音通知亭：Artisight

Artisight 是一個應(yīng)用于醫(yī)院的物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò)，可改善醫(yī)院的運營、財務(wù)業(yè)績和患者體驗。該公司幫助美國許多頂尖醫(yī)院提高運營效率，同時通過任務(wù)自動化給患者帶來更好的體驗，比如呼叫患者到掛號窗口和化驗等。

醫(yī)院可以使用 TTS 技術(shù)與患者和訪客分享有關(guān)醫(yī)院服務(wù)、設(shè)施位置和一般健康公告的信息。該技術(shù)也可以使用多種語言幫助可能不會說醫(yī)院當(dāng)?shù)卣Z言的人。

上面的視頻演示了醫(yī)院通知亭的文字轉(zhuǎn)語音技術(shù)如何讀出患者排隊單上的號碼。

挑戰(zhàn)和解決方案

過去，醫(yī)院接待人員需要手動登記患者信息并在輪到患者就診時通知他們。這種耗時的登記流程降低了醫(yī)院的效率和患者的滿意度。

Artisight 開發(fā)的語音簽到、通知亭等智慧醫(yī)院解決方案可提升患者的體驗。

Artisight 和 NVIDIA Riva 賦能的通知亭實現(xiàn)了有效、快速的患者登記流程，將等待時間縮短了一半并避免了數(shù)據(jù)輸入錯誤，最終提高了員工的工作效率和患者的滿意度。

為數(shù)字虛擬形象提供類似人類聲音：NVIDIA

TTS 技術(shù)使計算機能夠?qū)嫖淖洲D(zhuǎn)換成語音，進而讓數(shù)字人能夠“開口說話”并以更加自然、有代入感的方式與用戶交流。

為了取得用戶的信任，數(shù)字人所說的話必須高度準(zhǔn)確，尤其是當(dāng)它們被用于教育、娛樂或其他互動用途時。使用 TTS 技術(shù)生成自然、類似人類的語音可以幫助數(shù)字人吸引用戶的注意力和興趣。

正如 NVIDIA Omniverse Avatar Cloud Engine（ACE）演示所示，AI 虛擬形象?Toy Jensen 能夠理解黃仁勛的問題并作出自然的回答。Toy Jensen 的聲音使用 NVIDIA Riva 創(chuàng)建。

視頻 2. 用于構(gòu)建實時、交互式 AI 助手的 NVIDIA Omniverse ACE 平臺

挑戰(zhàn)和解決方案

開發(fā)用于數(shù)字人的 TTS 可能有一定的難度，尤其是在創(chuàng)造自然、真實的語音方面，并且難度取決于地區(qū)和語言。這是因為使用傳統(tǒng)和統(tǒng)計算法創(chuàng)建的 TTS 系統(tǒng)可能導(dǎo)致語音聽起來像是機器人或機械發(fā)出的，而用戶對此可能不會“買賬”。

此外，由于 TTS 系統(tǒng)受數(shù)據(jù)集、所使用的模型和模塊類型等諸多因素影響，因此要為數(shù)字人應(yīng)用創(chuàng)建靈活的自適應(yīng)語音具有一定的難度。這使開發(fā)者難以生成具有細微差別和富有表現(xiàn)力的語音。

最后，數(shù)字人需要在不犧牲質(zhì)量的情況下實時生成大量語音，因此創(chuàng)建高效、可擴展的 TTS 系統(tǒng)至關(guān)重要。

NVIDIA 為數(shù)字人和虛擬形象生成了自定義語音，比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可幫助開發(fā)只需短短幾毫秒就能實時運行且精準(zhǔn)的 TTS 流程，滿足實現(xiàn)自然語音的必要條件，還可以靈活調(diào)整音調(diào)、持續(xù)時間和音量等，使生成的聲音更具表現(xiàn)力。

開始使用語音合成

用戶現(xiàn)在就可以開始將 TTS 功能集成到應(yīng)用中，例如閱讀內(nèi)容或生成數(shù)字網(wǎng)紅獨特聲音等。NVIDIA Riva 等 SDK 可以幫助用戶開發(fā)出提供高準(zhǔn)確度并進行高性能推理的應(yīng)用。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
MCF5282CVM66	1	Motorola Semiconductor Products	RISC Microprocessor, 32-Bit, 66.67MHz, CMOS, PBGA256,		$40.57	查看
STM32F407VGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下載ECAD模型	$20.39	查看
ATXMEGA128A4U-MH	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 44VQFN	ECAD模型下載ECAD模型	$5.12	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

MCF5282CVM66

Motorola Semiconductor Products

RISC Microprocessor, 32-Bit, 66.67MHz, CMOS, PBGA256,