提高会议效率的 5 个技巧

在工作中,也许我们参加的最多的活动就是会议了,但是在这个快节奏的时代,我们要怎样才能提高我们的工作效率呢,或者说我们应该怎样提高会议效率呢?

enter image description here

  1. 提前在日历上安排合适的时间

有些会议需要在日历周之前举行。例如,任何有大量与会者的会议,例如公司全体会议或季度股东大会,都需要提前安排好,以帮助尽可能多的人为会议安排好时间。

其他会议,尤其是内部SparkleComm视频会议,真的不应该提前太远安排。对于大多数人来说,一两个星期就足够了。如果SparkleComm视频会议的目的是继续或解决已经开始的讨论或项目,您不希望在最近的讨论和会议之间间隔太多时间。人们需要带着他们脑海中仍然新鲜的想法来参加会议。

在寻找适合所有人的会议时间和日期时,请使用会议安排工具。他们消除了日程安排的痛苦并加快了进程。

2.使用清晰的主题行

无论您是通过日历邀请还是简单的电子邮件或SparkleComm即时消息安排会议,请使用清晰的主题行。这是每个人的生产力的关键。主题行应该用几句话来说明会议的主题,而不仅仅是会议的目的。清晰的会议主题行有助于每个人首先了解他们被邀请参加会议的原因。它还提示人们应该如何提前准备。

  1. 既有议程又有目标

议程是会议中将要发生的事情的列表,通常按顺序排列。讨论会议确实受益于议程,这是会议日程。

单独的议程并不能告诉人们会议需要发生什么,因此,除了制定议程之外,您还需要实现目标。

会议结束时应该做出哪些决定?本次会议结束时会产生什么结果?如果您被邀请参加与新联系人的会议,那么问“您希望从这次会议中得到什么?”是完全合理的。

根据会议的复杂性,您可能不需要明确议程和目标。例如,SparkleComm签到会议的目的总是相同的:签到、审查进度和提出疑虑。对于此类会议,您可能不需要明确的议程。有时,目标隐含在主题行中,或目标是在工作会议中完成该任务。

  1. 定义会议负责人

每次会议都需要一个领导者或共同领导者。在大多数情况下,是召集会议的人,做决定要明确。

我参加过的最糟糕的会议是没有领导。这是没有方向的,没有人知道如何让我们走上正轨。大约进行到一半时,我意识到有几个人认为我应该领导,我对安排它的人感到完全愤怒,却没有明确谁应该推动谈话。最糟糕的是,这次会议对每个人来说都毫无成效。在另一个鲁莽的场景中,我曾经召集一个会议,安排它,并完全打算运行它,结果却让另一个同事完全接管它,这是让人生气的。

  1. 失去技术,但做演示

在浪费时间创建幻灯片之前,先问问自己:“我需要演示文稿吗?”

如果答案是肯定的,请记住幻灯片应该用来保持人们的参与度并强化您的观点,而不是为您制作。没有人愿意在他们来听您讲话或与您讨论时观看视频。

如果您有要炫耀的产品或服务,请展示其工作原理。不要显示它的图片或视频。给你的听众真正的干货。

如果您想与每位与会者共享信息,请在会议之前而不是之后发送。人们是否会提前审查是另一回事,但要给他们选择权。然后,您可以花时间深入了解问题的核心,而且时间可能也更少。

每个人都受益于更好的SparkleComm视频会议

SparkleComm视频会议有各种形式和规模,因此有独特的需求。尽管如此,一点准备工作对于让每个放弃时间参加的SparkleComm会议都富有成效大有帮助。知道你打算举行什么样的会议也将帮助你塑造和完善你对它的期望。

SparkleComm的云通信安全方法

统一通信平台不断创新并适应我们快速变化的工作方式。与此同时,财务和品牌威胁在整个云中以创纪录的速度增长——尤其是在混合和远程工作继续进行的情况下。

这就是为什么企业应该始终仔细审查 UCaaS 供应商如何处理安全性、数据隐私和合规性。减轻和预防这些风险应该在您的购买考虑中发挥关键作用。

enter image description here

了解安全和数据隐私风险

可以这样想:您的 UCaaS 供应商的安全基础设施本质上是您的环境的扩展。您的供应商应该对他们为保护您的用户和数据免受安全威胁和数据丢失所做的投资(日复一日)保持透明。 

如果您的 UCaaS 供应商的安全性松懈,那么您的组织将更容易受到可能损害您的品牌价值和底线的破坏。 

通过正确的技术控制,可以构建一个 UCaaS 平台,并将安全性、隐私性和合规性置于其基础设施投资和创新战略的中心。

  SparkleComm:领先的 UCaaS 信任方法

安全存在于我们的 DNA 中。凭借多年的经验,我们的 IT 安全资深人士通过应用一流的技术和严格的流程,采取多维方法来保护您的数据安全。 

  1. 一流的 DevSecOps

从我们的产品设计到我们的业务运营,我们在所做的每一件事中都采用了严格的安全和数据最佳实践。我们从一开始就将安全原则集成到开发过程中,为客户提供强大的安全的SparkleComm统一通信平台

  1. 安全设计平台

我们孜孜不倦地追求共同责任模型,我们维护第三方认证和证明,以验证我们的信息安全政策和实践以及客户控制——因此您可以直接管理您的用例需求。

  1. 高可靠性和正常运行时间

我们的安全专家 24/7/365 主动监控和优化SparkleComm统一通信平台,以确保您的服务可用性保持在最高水平。我们恪守这一承诺,在多个国家/地区提供行业领先的服务水平协议 (SLA),其正常运行时间为99.999%。

凭借多个地理位置分散的数据中心和媒体存在点,我们提供了一个全球基础架构,可确保您的公司在任何地方都能实现 24/7 的业务连续性。

  我们的安全基础设施

SparkleComm统一通信的安全状况包括许多反映既定信息安全行业标准的最佳实践的控制措施。总的来说,这些严格的控制使我们能够为客户实现世界级的安全实践。

  安全和管理策略控制

SparkleComm统一通信平台为我们的客户提供领先的通信安全和策略控制,确保为您的用户提供安全可靠的通信体验。

我们的SparkleComm统一通信平台让您触手可及的跨视频消息电话的一套全面管理控制,例如高级呼叫和传真阻止、要求您的会议与会者进行身份验证、限制谁可以启用屏幕共享以及要求您的用户在等候室批准可以加入的与会者。 

这些为您提供一流的安全功能,以保护您的组织免受数据丢失和不良行为者的影响。 

一种完全不同的全球信任方法

SparkleComm为您的统一通信平台提供了一种完全不同的全球信任方法。从我们行业领先的正常运行时间可靠性 5 个 9 到我们全面的信息安全保护和全球隐私管理,您不必担心您的数据被泄露或不符合区域监管标准。

我们的方法提供“始终在线”的信息安全保护和数据隐私管理,确保您的数据安全并符合法律规定。我们的SparkleComm统一通信平台为您的管理员和用户提供了一个全面的工具集,具有广泛的动态和实时控制。

SparkleComm呼叫中心 AI 提供更好客户体验的 7 种方式

呼叫中心 AI 可以通过为客户和座席提供更好的体验来改变呼叫中心的日常运营和交互。通常被认为是座席的替代品,人工智能实际上是帮助呼叫中心座席更好、更高效地执行的推动因素。

enter image description here

什么是SparkleComm呼叫中心人工智能

SparkleComm呼叫中心 AI 的帮助下,您可以真正倾听客户的心声,让他们感觉与您的品牌联系更紧密。它通过在正确的时间为他们提供正确的信息来补充人工座席的努力,从而使呼叫更顺利并迅速处理问题。您的呼叫中心可以在与客户互动时使用个性化服务来提高保留率并增加收入。

SparkleComm呼叫中心 AI 能做什么?

SparkleComm呼叫中心人工智能使座席能够为客户提供最佳的解决方案和服务。它还提供了可用于解决查询的替代通信模式。例如,SparkleComm呼叫中心 AI 可能会收集呼叫分析,然后编译常见问题,并提供逐步解决这些问题的工作流程。人工智能还可以为自助服务提供支持,使客户更容易快速地自行解决问题,而无需现场代理的帮助。

我们知道,客户的挫败感来自解决时间过长、难以获得客户支持以及支持代理未能满足客户的需求。这些问题的出现是因为大多数公司都依靠资源密集型的人类理解来解决问题。如果没有人工智能,代理从客户那里收集适量的上下文需要更长的时间,从而导致这些问题。

SparkleComm呼叫中心人工智能如何帮助企业

SparkleComm呼叫中心 AI 通过提供代理协助和启用自助服务渠道以及许多其他功能,适用于任何行业。以下是人工智能可以帮助企业的七种方式:

改变客户旅程

SparkleComm呼叫中心 AI 平台使座席能够通过即时上下文回答客户查询。人工智能使客户可以在与品牌互动开始时提供最少的上下文。然后,它通过其他智能见解增强此信息,并将客户的上下文带到每个后续接触点。

例如,客户可能会通过向聊天机器人发送消息来开始与企业的对话。当客户遇到超出聊天机器人范围的问题时,可以聘请代理来帮助回答他们的问题。当现场代理加入通话时,人工智能解决方案可以向他们提供有关对话开始的上下文。这样,客户就不需要重复已经收集的任何信息,从而节省了时间和挫折感。

捕获和分析客户交互

人工智能还可以捕捉和分析客户互动,让您的业务更智能。SparkleComm呼叫中心人工智能识别客户交互过程中的关键对话时刻、主题和情绪,从而更好地了解客户意图。这些源自 AI 的洞察力揭示了您的业务趋势,从而得出可操作的结论。通过发现 AI 的常见问题,您的企业能够消除客户旅程中的摩擦点。

提供自动化的自助服务体验

今天的客户正在寻找自助服务资源,例如自动语音通道或聊天机器人。通过在客户交互过程中索引常见问题解答,人工智能为填充和扩展这些渠道提供了方向。当自助服务渠道健全时,客户可以自行找到更多答案,从而带来更方便和更令人满意的客户体验。当他们确实选择与现场代理进行交互时,SparkleComm呼叫中心人工智能可以解析信息并授权现场代理尽快提供帮助。它同时让座席腾出时间来专注于真正需要人工帮助来回答更复杂查询的客户。

授权代理

一旦启用了实时代理,人工智能就会提供自动协助,监控对话并提供有用的快捷方式,例如上下文建议、专有信息或下一个最佳操作。此外,SparkleComm呼叫中心 AI 可以通过自动协助支持实时呼叫和数字聊天交互,从而增强您企业的数字化转型战略。

人工智能通过评估代理交互、确定改进的关键领域以及为代理提供可操作的反馈来促进更好的客户体验。它通过帮助代理商提高客户服务技能来增强质量管理流程。

改进代理管理

在更高的层次上,SparkleComm呼叫中心 AI提供了优化人员配置决策、管理员工调度偏好和减少整体管理工作的管理功能。AI 甚至可以让您的团队预测客户需求并更有效地进行计划,并根据历史和实时数据进行预测。有组织的工作环境会带来更快乐的座席和更好的客户服务。再加上数据驱动的预测,您将最大程度地降低高峰日人手不足的风险。

此外,人工智能可用于管理您的远程呼叫中心,为您提供可见性并降低风险。借助SparkleComm呼叫中心 AI,您可以自信地监督远程座席,执行政策和程序,并了解您的分布式劳动力的哪些领域需要改进。

使人类保持在循环中

人工智能不应被视为“黑匣子”。当您实施SparkleComm呼叫中心人工智能时,人类应该留在循环中。经验丰富的员工有机会将他们的知识融入呼叫中心的流程中。通过结合机器学习和代理的专业知识,人工智能平台可以随着时间的推移了解您的业务模式,并为您的团队提供更智能、数据驱动的见解。这种人机驱动知识的结合提高了企业自动化的准确性和信心。

协助预防欺诈

人工智能还可以使呼叫中心通过语音生物识别和风险评分来防止欺诈。AI 使用自助服务、实时身份验证将客户快速路由到代理并防止欺诈者带来的风险。

SparkleComm是基于人工智能的呼叫中心解决方案,以提供卓越的客户体验,将最好的人工智能技术交到您的企业手中。我们使用面向座席的直观工具优化您最关键的客户服务流程。

与视频会议相关的安全风险

在远程工作时代,视频会议比以往任何时候都更加重要,但我们必须敏锐地意识到相关的网络安全风险。详细了解它带来的安全威胁以及为什么零信任对于始终保持通信安全至关重要。

尽管视频会议技术并不新鲜,但随着越来越多的公司转向远程办公,它的使用和重要性呈指数级上升。即使它很方便,您在注册任何新的视频会议应用程序之前肯定会暂停,理由是担心被黑客入侵或受到危险监视。但这些应用真的有害吗?如果是这样,它们会带来哪些安全隐患,以及进行安全虚拟会议的最佳做法是什么?

SparkleComm视频会议工具必须安全可靠,才能定期用于业务交互。远程工作环境要求员工通过一系列技术进行连接,这些技术必须安全可靠,以确保敏感数据的隐私。不幸的是,许多视频会议解决方案不能为用户提供最佳的安全性。使用安全凭证较差的解决方案会带来会议中断、机密信息被截获或未经授权访问录制会话的风险。

enter image description here

视频会议安全风险

视频会议应用程序的一些风险: “由于选择过多而没有充分执行而导致的错误配置是当今最大的风险之一。大多数现代视频会议平台都具有内置的安全功能,但这并不意味着它们已启用。“

人们通常对视频会议应用程序的担忧是视频会议提供商窃听正在进行的实时通话的能力。这种担心是完全可以理解的,但也是错位的。首先,所有主要的视频通话提供商都提供了一些“端到端加密”(EE2E)功能,并且大多数商业计划都默认启用了 EE2E。”

这意味着正在进行的通话被加密,只有端点的用户,通话中的人,才能解密音频、视频和文本聊天。这已经是一种比电子邮件和普通手机更好的加密状态,它们通常用于私人、敏感的通信,也只是在客户端-服务器级别加密,容易受到所有这些风险和威胁参与者的攻击。

因此,假设启用了 EE2E(这在各类视频会议软件如SparkleComm中很容易做到),人们应该确信他们的视频通话实际上是私密的。

如何进行高质量的视频会议

enter image description here

从另一个角度来看,一个好的视频会议类似于一部好的电影。在一部优秀的电影中,有一种“怀疑的暂停”,即观众一开始很清楚自己是坐在电影院里,因此不相信屏幕上出现的图像是真实的,最终将这种怀疑暂停到屏幕上的人物、动作和对话看起来是真实的地步。

同样地,在一个好的视频会议中,参与者最初意识到通过屏幕、摄像机、麦克风和扬声器与另一方沟通,但最终这种“不相信”的面对面接触被暂停,这样几分钟后,双方参与者真的感觉他们是面对面的会面。

SparkleComm视频会议中实现“暂停怀疑”的久经考验的规则,列举起来很简单,但在技术上执行起来很复杂:

1)视频必须有足够高的分辨率,以便每个听众都能清楚地理解说话者的眼睛、手、面部手势和身体语言。

2)音频必须足够清晰,以便接近说话人在同一房间时听众听到的声音。

3)视频和音频必须流畅、自然地进行,不能有停顿、停顿或间隙。

4)视频和音频之间不能有任何延迟——当说话者的嘴动了,说话者的话必须在同一时刻被听到。

听起来很简单!直到人们考虑到潜伏在互联网阴影下的各种视频会议问题和延迟,它们常常让最专业的视频会议专家感到困惑。为了获得高质量的SparkleComm视频会议,必须避免上述每一个问题。

劣质视听设备。正如前面提到的,为了进行视频会议,每一方都必须有一个网络摄像头和麦克风(用于发送视频和音频),以及一个屏幕和扬声器(用于接收视频和音频)。许多用户更喜欢使用耳机,它结合了扬声器和麦克风的功能,也克服了讨厌的“回声”。

一个低分辨率的网络相机,只支持低帧率,或处理光对比度差,将打破规则1)。低分辨率或非常小的屏幕图像也会出现在观看者的末端。在音频方面,如果麦克风或耳机不能以适当的灵敏度和数字采样来接收说话人的话语,就会违反规则2)。一个低质量的扬声器也会产生同样的效果。

由于设备的缺陷,视频会议未能实现“暂停怀疑”。但还有可能网络的延迟,低宽带原因导致视频会议并不完美。

VoIP电话及如何工作

enter image description here

模拟电话系统有许多限制。这种传统的电话系统只有一条线路,只能进行一次通话。但随着科技的进步,沟通渠道也发生了变化。

VoIP电话是最新的通信趋势。它可以让你使用现有的互联网连接打免费电话。这意味着你可以通过切换到免费的VoIP软件来避免使用你的模拟电话。

网络电话有一些有趣的特性,可以帮助任何企业发展。首先,我们来谈谈什么是VoIP电话以及它是如何工作的。

  • 什么是VoIP电话?

VoIP (Voice over Internet Protocol)电话是通过IP (Internet Protocol)技术来实现语音通话的。计算机或移动设备程序都具有VoIP电话的功能。

SparkleComm VoIP电话使用互联网而不是传统的铜线来打电话。与传统的固定电话系统相比,SparkleComm VoIP电话系统允许您拥有更多的互操作和连接。

VoIP电话主要有两种类型:

硬电话:硬电话是办公桌或会议室电话,与传统型号类似。
软电话:这是智能手机上的数字应用手机,也可以像硬手机一样使用。

硬电话和软电话在上网打电话时都很有用。企业利用VoIP是因为它的好处,比如降低整体电话成本,增强客户互动,以及简单地举行会议。

  • VoIP电话是如何工作的?

VoIP服务提供商通过互联网将IP话机接入电话网络。它利用互联网协议将音频转换成数据包。

模拟呼叫被编码成数字数据包。然后,数字数据包被转换回模拟,然后被用来完成与传统固定电话客户的通话。

有了网络电话技术,你就可以打电话给固定电话和移动设备。另一种选择是使用计算机对计算机的电话连接。电脑和电话设备都使用麦克风、扬声器和耳机。

SparkleComm软件电话是一套全面集成语音、视频、电话、即时消息和邮件功能,可安装于智能手机、电脑(PC/Mac)的软件客户端。方便、及时、灵活!

如何建立VoIP电话

enter image description here

现在您已经熟悉了VoIP电话的工作原理,让我们来谈谈如何开始您的VoIP电话设置。

以下是设置VoIP电话的五个简单步骤:

步骤1:运行一个网络和网速测试

使用网络电话速度测试来看看你的网络有多好。结果会让你知道你的连接是否能够支持VoIP设置。

SparkleComm VoIP电话系统最有可能与您当前的互联网连接工作良好。请记住,一些住宅互联网连接的上传速度要慢得多,比如DSL。

第二步:投资具有正确功能的VoIP硬件

购买VoIP硬件,如果你已经有供应商。由于近年来VoIP已经成为行业标准,许多尖端选择已经出现。

确定您需要哪些工具或特性来改进跨部门协作。寻找能够提供你的要求和需要的VoIP服务提供商。

步骤3:使用VoIP适配器

连接您的电话将需要使用一个适配器或专用的VoIP电话。根据你的路由器的不同,适配器可以连接到你的电脑,直接连接到互联网,或者两者兼而有之。

要用你的电脑或移动设备打电话,你需要从你的服务提供商那里下载并安装一个应用程序。请注意,除非在使用说明书中清楚说明,否则不能使用普通的PSTN电话。

第四步:测试你的新网络电话线路,看看它们的表现如何

VoIP测试是一个很好的方式来看看你的SparkleComm VoIP电话系统工作得如何。您还应该在购买前进行测试。

在测试时,您可以在网络繁忙时检查线路。看看VoIP是如何处理由网络拥塞引起的掉线电话、糟糕的音频和其他问题的。

第五步:培训你的员工关于新的VoIP电话

随着VoIP的存在,许多小企业现在第一次为他们的公司提供了有用的电话功能。

设定一个时间来培训你的团队关于新的VoIP电话。在正确的监管下,您的员工可以使用VoIP系统直接连接到客户关系管理系统,建立自定义路由策略,通过电子邮件发送语音邮件,重定向电话,并在云端记录通话。

wav2letter++_最高效的语音识别系统

wav2letter++_最高效的语音识别系统

论文译文

外文原文题目:WAV2LETTER++: THE FASTEST OPEN-SOURCE SPEECH RECOGNITION SYSTEM

中文译文题目:WAV2LETTER++,最高效的开源语音识别系统

原文作者: Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

所属单位:Facebook AI Research

译文作者:岳昕阳

所属单位:重庆劳格科技有限公司

原文发表于:Cornell University网站

https://arxiv.org/abs/1812.07625

版权所有 非授权谢绝转载    





摘 要

这篇论文将会介绍当前最高效的基于深度学习的语音识别架构——wav2letter++。wav2letter++完全由C++语言编写并使用了能最大化提升效率的ArrayFire张量库。本文将介绍wav2letter++系统的整体框架与设计并将其与其他现存常见的主要的开源语音识别系统相比较。比较后可以发现在一定情况下wav2letter++比其他已经经过优化的端到端语音识别神经网络训练速度快超过两倍以上。我们同样会展示在对一亿个参数的模型进行训练测试时,wav2letter++的训练次数最多线性扩展到了64GPU。高性能结构可以加快迭代速度,而迭代速度很多时候又是直接关乎研究与训练新的数据库或任务模型的成功率的重要参数。

关键词:语音识别,开源软件,端到端





1. 介绍

随着大众对于自动语音识别(automatic speech recognition,ASR)技术关注的不断加强,在众多开源软件社区中语音识别软件系统与工具包软件激增。其中包括Kaldi[1]、ESPNet[2]、OpenSeq2Seq[3]和Eesen[4]。经过过去十年的发展,这些框架已经从传统的基于隐马尔可夫模型(Hidden Markov Models,HMM)和高斯混合模型(Gaussian Mixture Models,GMM)发展到基于端到端的神经网络模型。许多当前的ASR工具包都不是基于声音单位(phonemes)的而是使用基于图形单位(graphemes)的端到端声学建模。本文章所介绍的ASR工具包也是如此。产生这样的转变主要有以下两方面原因:首先,端到端模型十分简单;其次,此模型与HMM/GMM系统之间原有的精确度差距正在急剧缩小。


C++是当前世界上第三广泛使用的编程语言,能够完全控制高性能任务关键型系统的所有资源。更重要的是,C++中所具有的静态数据类型可以在对大规模程序进行编译时捕捉所有协议不匹配错误(contract mismatches)。不仅如此,事实上几乎所有编程语言都可以轻松调用本地库(native libraries)。尽管在机器学习领域采用C++语言会遇到一定的困难,例如在主流框架里缺少经过完善定义的C++应用程序编程接口(API)以及在工作中C++几乎都被应用于关键性能组件方面而不是机器学习方面,由于常用语言的不同可能导致的学习成本增加等问题。但是随着机器学习代码库变得愈加庞大,在脚本语言与C++之间来回切换也变的愈发困难且容易出错。与此同时,随着现代C++的发展,只要有足够的库支持C++语言的编程速度和脚本语言的编程速度之间已经没有太大的差距。在本文中,我们将介绍第一款完全由C++语言开发的开源语音识别系统。 我们利用现代C++语言对机器学习系统进行的设计可以在不牺牲编程简易度的情况下保持软件的高效率与高可扩展性。在本工作中,我们主要将聚焦于例如训练时间、解码速度与可扩展性等ASR系统的技术方面。


接下来,我们将在第二节讨论wav2letter++的具体设计;在第三节大致讨论其他现存主要的开源系统;并在第四节中将这些系统与我们的系统进行比较。




2.设计

wav2letter++的设计主要需要满足三项需求。首先,工具包必须可以在包含数千小时语音数据的数据库中高效的训练模型。第二,必须能尽量简单地合并与表达新的网络结构和损失函数,尽可能简化其他代码操作。第三,从模型研究到模型部署的路径应该在保证研究的灵活性的基础上尽量做到简洁、直白并尽可能减少对新代码的需求。



2.1ArrayFire张量库

我们之所以采用ArrayFire作为张量操作的库主要是有以下几个原因:首先,ArrayFire是一种可以执行多种后端包括CUDA GPU后端和CPU后端的已经经过了高度优化的张量库。其次,ArrayFire使用即时代码生成技术(just-in-time code generation,也被称为惰性编译技术,lazy evaluation)来将数条简单的操作合并成一条内核调用,这可以加快内存带宽限制操作的执行速度并减少峰值内存的使用时间。另一个ArrayFire的重要特点是它具有简单的阵列构建与操作界面。与其他同样支持CUDA的C++张量库相比,ArrayFire界面不那么冗长且更少的依赖C++特性。

enter image description here

图1 wav2letter++库结构



2.2数据准备与特征提取

我们的特征提取支持多种音频文件格式(例如wav、flac.../mono、stereo/int、float)和数种特征类型,包括原始音频、线性可扩展功率谱、log-Mels(MFSC)和MFCC等。我们使用FFTW库来计算离散傅里叶变换。wav2letter++的数据加载过程是先进行动态特征计算,再进行网络评估,再加上完全端到端管道可以以单二进制文件运行,这让搜索替代特征更加简单,并使得本设计允许动态数据扩充,让模型部署变得更加简单。为了在训练模型时提高效率,我们采取并行异步的方式来加载和解码音频文件以及计算特征。对于我们已经尝试过的模型与批量大小来说,花费在数据加载上的时间是可以忽略不计的。



2.3模型

我们支持数种端到端模型。每个模型分别由“网络”和“标准”两部分组成。“网络”部分是只与输入有关的函数而“标准”部分是与输入和靶转录(target transcription)都有关的函数。与“网络”部分总是有参数不同,“标准”部分的函数并不一定有参数。这种抽象概念允许我们可以很轻松的利用相同的训练管道训练不同的模型。支持的标准包括基于神经网络连接的时序分类(Connectionist Temporal Classification,CTC)[7],原始wav2letter的AutoSegCriterion(ASG)[8],和拥有注意力算法的序列到序列模型(S2S)[9,10],其中CTC标准没有参数而ASG和S2S模型都包含可被学习的参数。与此同时,我们注意到由于像ASG和CTC这样的损失函数可以在C++中被高效使用,添加新的序列标准变得十分简单。我们同样兼容支持大量网络框架与激活函数,这里就不再一一列举。


我们用更高效的cuDNN算法扩展了核心ArrayFire CUDA后端,在cuDNN提供的众多程序中主要使用1D和2D卷积以及RNN程序。由于使用的网络库提供动态图型构造与自动微分功能,我们不用费多大劲就能进行类似新建层这样的基本操作。后文将举出一个例子展示如何建立与训练一个拥有二进制交叉熵损失的一层MLP(如图2),以此来论证C++界面的简易性。

enter image description here

图2 例:由二进制交叉熵和SGD训练的单隐藏层MLP,使用自动微分。



2.4训练与扩展

我们的训练管道为使用者使用不同的特征、框架与优化参数进行实验提供了最大程度的灵活性。训练程序可以在三种模式下运行:-train(平启动(flat-start)训练),continue(从检查点位置继续)和fork(例如转移学习)


此设计支持标准优化算法包括SGD和其他常用的基于梯度的优化器。我们通过数据并行同步SGD将wav2letter扩展为一个更大的数据库。使用英伟达多GPU通信库(NVIDIA Collective Communication Library,NCCL2)实现进程内通信。


为了尽可能减小进程间等待时间并提升单一进程工作效率,我们会在建立训练批次前对数据库中的数据按输入长度进行分类。



2.5解码

wav2letter++使用的解码器是经过数次提升效率优化的柱状搜索解码器,与文献[13]使用的相同,包含了来自语言模型与词语插入项的限制。解码器接口接收来自声学模型的输出与转换(如果相关)。我们同时为解码器设置了一个包含词语字典和语言模型的字典树。此解码器支持所有拥有解码器所需接口的语言模型,包括N元语言模型(n-gram LMs)和无状态参数语言模型(stateless parametric LM),并为N元语言模型提供基于KenLM的简易封装。




3. 相关工作

我们对其他常用开源语音识别系统做了一个简要概括,包括Kaldi[1],ESPNet[2]和OpenSeq2Seq[3]。卡迪语音识别工具包(The Kaldi Speech Recongnition Toolkit,Kaldi)目前是上述系统中出现时间最早的,它拥有一套独立式命令行工具包。Kaldi支持HMM/GMM与混合式基于HMM/NN的声学模型并包含基于电话的菜单(phone-based recips)。


端到端语音处理工具包(End-to-End Speech Processing Toolkit,ESPNet)与Kaldi之间联系很紧密,ESPNet将Kaldi用来进行特征提取与数据预处理。ESPNet一般将Chainer[15]或PyTorch[16]用作后端来训练语言模型,虽然主要用Python编写,但与Kaldi风格相同,高级工作流程采用实用脚本程序(bash scripts)编写。虽然这样便于系统组件的解耦,但同时也缺乏拥有静态类型的面向对象的编程语言所具有的类型安全、可靠性高和交互界面直观等优点。ESPNet具有同时拥有基于CTC的和基于注意力的解码译码器以及结合这两个标准的混合模型的特点。


OpenSeq2Seq与ESPNet类似,都具有基于CTC和拥有编码器解码器模型的特点,且都是用Python编写的,都使用TensorFlow作为后端而不使用PyTorch。若要处理高级工作流,OpenSeq2Seq同样依赖于调用Perl和Python脚本的实用脚本程序。OpenSeq2Seq系统的一个值得注意的特点是它支持混合精度训练。而且,ESPNet和OpenSeq2Seq支持文本到语音模型(Text-To-Speech,TTS)。


表1描述了这几个开源语音识别系统的具体情况。如表所示,wav2letter++是唯一一个完全使用C++编写的系统,它事实上可以很简单的和现存的用任何语言编写的应用程序整合到一起。由于它使用的C++语言具有静态变量且面向对象,所以它可以更好地适应大规模开发需求。在第四章中,我们可以看到它在与其他系统相对比时同样具有最大效率。与他形成对比的是类似Python这样的动态类型语言虽然可以提高原型设计的速度,但强制静态类型的缺失总是会妨碍大规模开发。 enter image description here

表1 主要开源语音识别系统




4.实验

在这一章我们将通过对比研究讨论ESPNet、Kaldi、OpenSeq2Seq和wav2letter++之间的表现差距,通过利用华尔街日报(WSJ)数据库中的大量词汇对自动语音识别系统进行工作评估。我们会测量训练中的平均历元时间以及平均语音解码延迟。来实验的机器硬件配置如下:每台机器配置装有八个NVIDIA Tesla V100 Tensor Core GPU的NVIDIA SXM2 模块和16GB内存,每个计算节点拥有两个Intel Xeon E5-2698 v4 CPU,总共40个核心,80个硬件线程,工作频率2.20GHz。所有机器通过100Gbps无线带宽网络进行连接。



4.1训练

我们通过扩展网络参数和增加GPU使用数量评估训练时间。我们考虑两种神经网络结构:循环结构网络,拥有三千万个参数;还有纯卷积模式,拥有一亿个参数。两种网络结构分别在图4的上下两幅图中做出了具体描述。


对于OpenSeq2Seq,我们同时考虑float32和混合精度float16训练。对于两种网络,我们使用40维log-mel滤波器组作为输入以及CTC作为标准(基于CPU的实现,CPU-based implementation)。


对于Kaldi,由于CTC训练标准在标准Kaldi菜单(recipes)中不可用,我们使用LF-MMI[19]标准。 所有模型都使用带动量(momentun)SGD进行训练。 我们使用的批次大小为每个GPU处理4条语音。每次运行限制每个GPU最多使用5个CPU核心。 图3可以提供关于训练管道主要组件的更多细节,图中展示单个GPU运行情况下在一个完整的历元时间内,对每个批次所消耗的时间进行的平均处理。


对于只有三千万个参数的更小的模型来说,就算是在单个GPU上运行wav2letter++也比第二优秀的系统快15%以上。需要注意的是由于我们使用的是8GPU设备,当我们需要进行16、32甚至64GPU实验的时候,需要引入多节点通信。但ESPNet并不支持多节点训练开箱即用(out-of-the-box)。我们通过使用PyTorch的DistributedDataParallel模式和NCCL2后端对它进行扩展。ESPNet依赖于对输入特征的预先计算,而wav2letter++和OpenSeq2Seq则由于对灵活性的需求而选择在程序运行过程中计算特征。在一些情况下,混合精度训练可以将OpenSeq2Seq的历元时间降低1.5倍以上,这项优化在未来也可以被运用在wav2letter++上。由于Kaldi的菜单在进行LF-MMI时无法同步SGD上传数据的梯度,导致每次历元花费的时间慢了20倍以上。(The Kaldi recipe for LF-MMI does not synchronize gradients for each SGD update; the per-epoch time is still more than 20x slower.)由于使用了不同的标准(LF-MMI)和优化算法导致难以进行比较,我们并没有把Kaldi包含进表4中。 enter image description here

图3 训练循环中主要步骤消耗毫秒数。



4.2解码

wav2letter++包含一个用C++实现的单通柱状搜索解码器(详见2.5节)。我们将此解码器与OpenSeq2Seq和ESPNet中可获得的其他柱状搜索解码器相比较。不把Kaldi引入比较主要是因为它内置了的基于WFST的解码器并不支持CTC解码。我们利用在LibriSpeech上通过Wave2Letter+训练的完全优化的OpenSeq2Seq模型产生完全相同的,经过预先计算的数据并传输给两个解码器,这样我们就可以得到在相同模型情况下的独立的实验结果数据。由于ESPNet并不支持N元语言模型解码,我们使用的4元LibriSpeech语言模型主要用来给OpenSeq2Seq与wav2letter++提供数据。在表2中,我们主要汇报了基于LibriSpeech dev-clean的单线程解码的解码时间与峰值内存使用,验证其误码率是否低于5%并记录每个框架最低可达到的误码率。我们对超参数进行了严格的调整这样报告就可以反映在报告误码率下最大可能达到的速度。最终结果显示,mav2letter++不仅比类似的解码器表现优秀一个数量级以上,还可以大量节约内存资源。

enter image description here

表2 基于LibriSpeech dev~clean的解码表现   enter image description here

图4 训练时间对比图。上方图是一个三千万参数RNN[12], 下方图是一个一亿参数CNN[13]。




5.结论

本论文主要介绍了wav2letter:一个用于开发端到端语音识别器的高速简单系统。其框架完全通过C++实现,这使得它不仅可以高效训练模型还可以进行实时解码。我们的初步实践与其他语音框架相比展现了极大的前景,而且wav2letter++可以在未来的进一步更新中持续优化。由于它简单且可扩展的界面,wav2letter++很适合成为端到端语音识别的快速研究平台。与此同时,我们依然保留了对基于Python的ASR系统进行优化的可能性,以使其缩小与wav2letter++的差距。




  .

参考文献

[1] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Han- nemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, et al., “The kaldi speech recognition toolkit,” in IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society, 2011, number EPFL-CONF-192584.

[2] Shinji Watanabe, Takaaki Hori, Shigeki Karita, Tomoki Hayashi, Jiro Nishitoba, Yuya Unno, Nelson En- rique Yalta Soplin, Jahn Heymann, Matthew Wiesner, Nanxin Chen, et al., “Espnet: End-to-end speech processing toolkit,” arXiv preprint arXiv:1804.00015, 2018

[3] Oleksii Kuchaiev, Boris Ginsburg, Igor Gitman, Vi- taly Lavrukhin, Carl Case, and Paulius Micikevicius, “Openseq2seq: extensible toolkit for distributed and mixed precision training of sequence-to-sequence mod- els,” arXiv preprint arXiv:1805.10387, 2018.

[4] Yajie Miao, Mohammad Gowayyed, and Florian Metze, “Eesen: End-to-end speech recognition using deep rnn models and wfst-based decoding,” in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 167–174.

[5] James Malcolm, Pavan Yalamanchili, Chris McClana- han, Vishwanath Venugopalakrishnan, Krunal Patel, and John Melonakos, “Arrayfire: a gpu acceleration plat- form,” 2012.

[6] Matteo Frigo and Steven G. Johnson, “The design and implementation of FFTW3,” Proceedings of the IEEE, vol. 93, no. 2, pp. 216–231, 2005, Special issue on “Pro- gram Generation, Optimization, and Platform Adapta- tion”.

[7] Alex Graves, Santiago Ferna ́ndez, Faustino Gomez, and Ju ̈rgen Schmidhuber, “Connectionist temporal classifi- cation: labelling unsegmented sequence data with recur- rent neural networks,” in Proceedings of the 23rd inter- national conference on Machine learning. ACM, 2006, pp. 369–376.

[8] Ronan Collobert, Christian Puhrsch, and Gabriel Synnaeve, “Wav2letter: an end-to-end convnet- based speech recognition system,” CoRR, vol. abs/1609.03193, 2016.

[9] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Ben- gio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014.

[10] Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, and Yoshua Bengio, “Attention-based models for speech recognition,” in Advances in neural information processing systems, 2015, pp. 577–585.

[11] Sharan Chetlur, Cliff Woolley, Philippe Vandermersch, Jonathan Cohen, John Tran, Bryan Catanzaro, and Evan Shelhamer, “cudnn: Efficient primitives for deep learn- ing,” arXiv preprint arXiv:1410.0759, 2014.

[12] Awni Hannun, Carl Case, Jared Casper, Bryan Catan- zaro, Greg Diamos, Erich Elsen, Ryan Prenger, San- jeev Satheesh, Shubho Sengupta, Adam Coates, et al., “Deep speech: Scaling up end-to-end speech recogni- tion,” arXiv preprint arXiv:1412.5567, 2014.

[13] Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Col- lobert, “Letter-based speech recognition with gated con- vnets,” CoRR, vol. abs/1712.09444, 2017.

[14] Kenneth Heafield, “Kenlm: Faster and smaller language model queries,” in Proceedings of the Sixth Workshop on Statistical Machine Translation. Association for Com- putational Linguistics, 2011, pp. 187–197.

[15] Seiya Tokui, Kenta Oono, Shohei Hido, and Justin Clay- ton, “Chainer: a next-generation open source frame- work for deep learning,” in Proceedings of workshop on machine learning systems (LearningSys) in the twenty- ninth annual conference on neural information process- ing systems (NIPS), 2015, vol. 5, pp. 1–6.

[16] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer, “Au- tomatic differentiation in pytorch,” 2017.

[17] Mart ́ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, San- jay Ghemawat, Geoffrey Irving, Michael Isard, et al., “Tensorflow: a system for large-scale machine learn- ing.,” in OSDI, 2016, vol. 16, pp. 265–283.

[18] Douglas B Paul and Janet M Baker, “The design for the wall street journal-based csr corpus,” in Proceedings of the workshop on Speech and Natural Language. Associ- ation for Computational Linguistics, 1992, pp. 357–362.

[19] Daniel Povey, Vijayaditya Peddinti, Daniel Galvez, Pe- gah Ghahremani, Vimal Manohar, Xingyu Na, Yim- ing Wang, and Sanjeev Khudanpur, “Purely sequence- trained neural networks for asr based on lattice-free mmi.,” in Interspeech, 2016, pp. 2751–2755.

最佳视听体验SparkleComm视频会议功能

enter image description here

SparkleComm视频会议是用于实时组织虚拟会议和会议的协作工具。视频会议旨在提供卓越的音频和视频质量体验,以使远程会议富有成效并引人入胜。

SparkleComm视频会议软件可帮助企业进行远程视频会议和电话会议。包括的功能有屏幕共享、白板、呼叫分析、录音等等。

您可以使用最好的设备工具(如免提电话、摄像头、麦克风等)来辅助SparkleComm视频会议和网络研讨会的召开。

视频会议的主要特点和能力

当大多数人目前在家工作时,通过远程会议解决方案和SparkleComm视频电话会议系统与员工和客户联系的使用已经大大增加。

您可以与您的团队成员进行头脑风暴,以提高工作效率,并通过适用于大房间和小房间的最佳视频会议摄像机、扬声器、麦克风和其他设备确保每个团队成员的完全参与。任何家用视频会议设备的核心功能是:

  • 屏幕共享

屏幕共享是使用视频电话会议最重要的部分。整个团队需要查看屏幕显示上共享的内容和信息。

  • 网络电话

SparkleComm VoIP提供了一个完整的软件包,让用户只需单击一个按钮即可轻松地从语音通话切换到视频通话和小组会议。

  • 通话录音

SparkleComm视频会议支持无限制的通话记录,因此可以随时通过云存储访问相同的通话记录。这同样适用于与其他团队成员共享记录的信息。

  • 自动取景

自动取景是视频会议的一项动态功能,可以对放大/缩小、摄像机角度和视图设置进行调整。否则,如果手动完成,这些过程会变得乏味。通过自动取景,可以查看会议中的每个人并相应地调整设置。

  • 说话人跟踪

在一个人满为患的房间里,扬声器跟踪及其先进的麦克风阵列可以捕捉到说话的人并立即放大。这为虚拟会议期间在场的其他听众避免了任何形式的混淆的可能性。

最适合您企业的 VoIP 电话

enter image description here

互联网协议语音 (VoIP) 是商业通信的未来。 VoIP 电话或 IP 电话依靠 VoIP 技术通过互联网而不是物理电话线以数字信号的形式发送呼叫。它提供了现代公司所需的连接性、敏捷性和移动性。这就是为什么他们中的许多人正在放弃传统的固定电话,转而使用 VoIP 电话系统

虽然您可以选择安装在设备上以通过 Internet 拨打电话的软件电话,但为您的 VoIP 电话配备专用硬件会带来很多好处。有很多 VoIP 桌面和办公电话可供选择。他们提供传统的电话服务以及各种附加功能。

VoIP 电话可以做传统固定电话不能做的事情,比如视频会议或高级呼叫处理。因此,为您的企业选择 VoIP 电话至关重要。在评估替代方案时,需要注意一些关键标准:

  • 价格

手机型号是否符合您的业务预算?购买您买不起的顶级桌面电话并没有任何好处,尤其是当您只需要 VoIP 通话的基本功能时。在比较最好的 VoIP 电话的价格时,您应该考虑的是价值,而不是成本。在确定价格是否代表物有所值时,请牢记以下标准。

  • 音频质量和可靠性

影响通话质量的不仅仅是您的互联网连接。以音频清晰度和质量为设计理念的手机可以带来真正的改变。理想情况下,您希望您选择的型号能够提供高清语音质量。您还需要它来无限期地保持这种质量。

  • 连接性

VoIP 就是为了改善连接性。在为您的工作场所选择 SparkleComm VoIP 电话时,这也是一个关键因素。提供 Wi-Fi 连接的电话非常方便——尤其是当您正在查看无绳电话时。它们不需要您通过以太网将它们连接到路由器。内置蓝牙的型号也很棒。它们让您的员工使用免提耳机代替听筒,为他们提供移动设备的所有优势。

  • 特征

SparkleComm VoIP 电话比传统的桌面电话为公司提供更多。您应该能够使用您选择的型号轻松路由、阻止和举行电话会议。更重要的是,视频兼容性也是一个明确的好处。当前的互联网连接使视频会议成为一种比以往任何时候都更加可靠的工具。

  • VoIP 服务兼容性

大多数现代 VoIP 电话都与所有 VoIP 软件兼容。但是,仍然值得牢记的是,某些 VoIP 提供商或服务确实需要某些型号的电话。

它们是为您的企业选择 VoIP 电话时要牢记的主要事项。没有一种 VoIP 电话型号会是每个企业的正确选择。不同的公司对其电话系统有不同的优先级,一些公司优先考虑桌面电话,而另一些公司则想要更类似于智能手机的东西。他们都需要从办公室电话中获取不同的东西。但你可以选择最贴近和最适合的VoIP解决方案。