以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 XML在语音技术中的应用 』   (http://bbs.xml.org.cn/list.asp?boardid=47)
----  [转贴]XML促进新语音应用  (http://bbs.xml.org.cn/dispbbs.asp?boardid=47&rootid=&id=20985)


--  作者:Coral
--  发布时间:8/9/2005 9:02:00 AM

--  [转贴]XML促进新语音应用
转自:中文语音交互技术标准工作组      2001-08-13 网络世界第31期


语音技术已经发展到人机交换信息变得更像真正谈话的阶段。这是从计算能力呈指数级增加到基本语音技术和用户界面的全面进步等多种因素共同作用的结果。

迄今为止部署的基于语音的应用一直是建立在几家语音软件厂商制定的规则基础之上的。VoiceXML也许将通过它所保证的厂商在开发语音应用中的独立性改变这种局面。

VoiceXML是用于语音使能应用的新标准。它定义了呼叫者与运行语音识别与文本到语音软件的计算机之间如何构造和开展对话。

VoiceXML具有生成语音Web内容或开发基于电话的语音识别呼叫中心应用的灵活性。具体地说,VoiceXML定义了一种编写语音应用程序时所使用的通用语言。在VoiceXML中,许多规则都涉及到标记。与HTML中使用的标记类似,标记规定了生成人类语音与语音识别系统之间对话所采取的行为。


例如,VoiceXML标记可以对音频输出进行编排。基于VoiceXML服务的主要组成部分包括标记、定义内容的格式和规则以及用于翻译和表示音频内容的语音浏览器。

词汇表和语法是定义语音使能的网页输入的关键组件。词汇表由可以被语音识别引擎识别的单词组成。例如,一个飞行信息系统的词汇表可以由城市名以及像“离开”和“飞行”这类与旅行相关的单词构成。语法提供了识别有意义句子的结构,在语音使能的应用中,词汇表与语法结合在一起,在呼叫者和语音识别处理器所接受的合理的效率范围内定义语音识别。

语音应用的设计包括提供通过电话提交的数据、构造呼叫流以及使能提示和语法。VoiceXML提供了规则的通用集合作为灵活的基础,但是为一个语音系统生成合适的流和个性信息需要由设计人员来完成。

就像HTML内容由浏览器进行翻译并通过Web可视地表现出来一样,VoiceXML必须为语音、浏览器所理解或翻译以便通过电话表现出来。语音浏览器起到呼叫与Internet连接之间网关的作用,它翻译VoiceXML编码、管理呼叫者与Web站点上VoiceXML内容之间的对话。语音浏览器软件还维持呼叫,提供等价于URL的语音提示以及为音频互动下载网页。

使用语音浏览器的基于VoiceXML的应用提供了灵活性,方便了呼叫者和内容提供商,呼叫者可以使用普通电话或最新的无线电话接收同样的服务。内容提供商可以选择将语音浏览器安装在自己的设施中或外包给应用服务提供商、传输商或服务机构。同使用目前的可视Web模型一样,在易用性、灵活性、费用以及其他因素之间需要进行权衡。

今天,各公司正通过以互动音频格式提供电话接入和表现数据,将企业建立在基于语音的Web内容基础上。这些企业管理语音应用来提供更大的灵活性、更强有力的维护与支持,同时让内容提供商将注意力放在自己的核心业务上。

多种明显与微妙的因素正在共同作用推动VoiceXML Web模型的普及。许多人认为业务对VoiceXML广泛的支持是VoiceXML发展的最明显的力量。其他因素,如文本到语音质量最新的改进,意味着无需耗时耗费录制语音,信息就可以直接以音频格式表现出来。

回顾Web的发展过程,正如今天所看到的那样,显然在内容表示上采用通用格式——HTML——促进了Web的发展。VoiceXML标准为语音保证了同样的发展前景。


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
31.250ms