wav2letter++_最高效的语音识别系统

wav2letter++_最高效的语音识别系统

论文译文

外文原文题目:WAV2LETTER++: THE FASTEST OPEN-SOURCE SPEECH RECOGNITION SYSTEM

中文译文题目:WAV2LETTER++,最高效的开源语音识别系统

原文作者: Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

所属单位:Facebook AI Research

译文作者:岳昕阳

所属单位:重庆劳格科技有限公司

原文发表于:Cornell University网站

https://arxiv.org/abs/1812.07625

版权所有 非授权谢绝转载    





摘 要

这篇论文将会介绍当前最高效的基于深度学习的语音识别架构——wav2letter++。wav2letter++完全由C++语言编写并使用了能最大化提升效率的ArrayFire张量库。本文将介绍wav2letter++系统的整体框架与设计并将其与其他现存常见的主要的开源语音识别系统相比较。比较后可以发现在一定情况下wav2letter++比其他已经经过优化的端到端语音识别神经网络训练速度快超过两倍以上。我们同样会展示在对一亿个参数的模型进行训练测试时,wav2letter++的训练次数最多线性扩展到了64GPU。高性能结构可以加快迭代速度,而迭代速度很多时候又是直接关乎研究与训练新的数据库或任务模型的成功率的重要参数。

关键词:语音识别,开源软件,端到端





1. 介绍

随着大众对于自动语音识别(automatic speech recognition,ASR)技术关注的不断加强,在众多开源软件社区中语音识别软件系统与工具包软件激增。其中包括Kaldi[1]、ESPNet[2]、OpenSeq2Seq[3]和Eesen[4]。经过过去十年的发展,这些框架已经从传统的基于隐马尔可夫模型(Hidden Markov Models,HMM)和高斯混合模型(Gaussian Mixture Models,GMM)发展到基于端到端的神经网络模型。许多当前的ASR工具包都不是基于声音单位(phonemes)的而是使用基于图形单位(graphemes)的端到端声学建模。本文章所介绍的ASR工具包也是如此。产生这样的转变主要有以下两方面原因:首先,端到端模型十分简单;其次,此模型与HMM/GMM系统之间原有的精确度差距正在急剧缩小。


C++是当前世界上第三广泛使用的编程语言,能够完全控制高性能任务关键型系统的所有资源。更重要的是,C++中所具有的静态数据类型可以在对大规模程序进行编译时捕捉所有协议不匹配错误(contract mismatches)。不仅如此,事实上几乎所有编程语言都可以轻松调用本地库(native libraries)。尽管在机器学习领域采用C++语言会遇到一定的困难,例如在主流框架里缺少经过完善定义的C++应用程序编程接口(API)以及在工作中C++几乎都被应用于关键性能组件方面而不是机器学习方面,由于常用语言的不同可能导致的学习成本增加等问题。但是随着机器学习代码库变得愈加庞大,在脚本语言与C++之间来回切换也变的愈发困难且容易出错。与此同时,随着现代C++的发展,只要有足够的库支持C++语言的编程速度和脚本语言的编程速度之间已经没有太大的差距。在本文中,我们将介绍第一款完全由C++语言开发的开源语音识别系统。 我们利用现代C++语言对机器学习系统进行的设计可以在不牺牲编程简易度的情况下保持软件的高效率与高可扩展性。在本工作中,我们主要将聚焦于例如训练时间、解码速度与可扩展性等ASR系统的技术方面。


接下来,我们将在第二节讨论wav2letter++的具体设计;在第三节大致讨论其他现存主要的开源系统;并在第四节中将这些系统与我们的系统进行比较。




2.设计

wav2letter++的设计主要需要满足三项需求。首先,工具包必须可以在包含数千小时语音数据的数据库中高效的训练模型。第二,必须能尽量简单地合并与表达新的网络结构和损失函数,尽可能简化其他代码操作。第三,从模型研究到模型部署的路径应该在保证研究的灵活性的基础上尽量做到简洁、直白并尽可能减少对新代码的需求。



2.1ArrayFire张量库

我们之所以采用ArrayFire作为张量操作的库主要是有以下几个原因:首先,ArrayFire是一种可以执行多种后端包括CUDA GPU后端和CPU后端的已经经过了高度优化的张量库。其次,ArrayFire使用即时代码生成技术(just-in-time code generation,也被称为惰性编译技术,lazy evaluation)来将数条简单的操作合并成一条内核调用,这可以加快内存带宽限制操作的执行速度并减少峰值内存的使用时间。另一个ArrayFire的重要特点是它具有简单的阵列构建与操作界面。与其他同样支持CUDA的C++张量库相比,ArrayFire界面不那么冗长且更少的依赖C++特性。

enter image description here

图1 wav2letter++库结构



2.2数据准备与特征提取

我们的特征提取支持多种音频文件格式(例如wav、flac.../mono、stereo/int、float)和数种特征类型,包括原始音频、线性可扩展功率谱、log-Mels(MFSC)和MFCC等。我们使用FFTW库来计算离散傅里叶变换。wav2letter++的数据加载过程是先进行动态特征计算,再进行网络评估,再加上完全端到端管道可以以单二进制文件运行,这让搜索替代特征更加简单,并使得本设计允许动态数据扩充,让模型部署变得更加简单。为了在训练模型时提高效率,我们采取并行异步的方式来加载和解码音频文件以及计算特征。对于我们已经尝试过的模型与批量大小来说,花费在数据加载上的时间是可以忽略不计的。



2.3模型

我们支持数种端到端模型。每个模型分别由“网络”和“标准”两部分组成。“网络”部分是只与输入有关的函数而“标准”部分是与输入和靶转录(target transcription)都有关的函数。与“网络”部分总是有参数不同,“标准”部分的函数并不一定有参数。这种抽象概念允许我们可以很轻松的利用相同的训练管道训练不同的模型。支持的标准包括基于神经网络连接的时序分类(Connectionist Temporal Classification,CTC)[7],原始wav2letter的AutoSegCriterion(ASG)[8],和拥有注意力算法的序列到序列模型(S2S)[9,10],其中CTC标准没有参数而ASG和S2S模型都包含可被学习的参数。与此同时,我们注意到由于像ASG和CTC这样的损失函数可以在C++中被高效使用,添加新的序列标准变得十分简单。我们同样兼容支持大量网络框架与激活函数,这里就不再一一列举。


我们用更高效的cuDNN算法扩展了核心ArrayFire CUDA后端,在cuDNN提供的众多程序中主要使用1D和2D卷积以及RNN程序。由于使用的网络库提供动态图型构造与自动微分功能,我们不用费多大劲就能进行类似新建层这样的基本操作。后文将举出一个例子展示如何建立与训练一个拥有二进制交叉熵损失的一层MLP(如图2),以此来论证C++界面的简易性。

enter image description here

图2 例:由二进制交叉熵和SGD训练的单隐藏层MLP,使用自动微分。



2.4训练与扩展

我们的训练管道为使用者使用不同的特征、框架与优化参数进行实验提供了最大程度的灵活性。训练程序可以在三种模式下运行:-train(平启动(flat-start)训练),continue(从检查点位置继续)和fork(例如转移学习)


此设计支持标准优化算法包括SGD和其他常用的基于梯度的优化器。我们通过数据并行同步SGD将wav2letter扩展为一个更大的数据库。使用英伟达多GPU通信库(NVIDIA Collective Communication Library,NCCL2)实现进程内通信。


为了尽可能减小进程间等待时间并提升单一进程工作效率,我们会在建立训练批次前对数据库中的数据按输入长度进行分类。



2.5解码

wav2letter++使用的解码器是经过数次提升效率优化的柱状搜索解码器,与文献[13]使用的相同,包含了来自语言模型与词语插入项的限制。解码器接口接收来自声学模型的输出与转换(如果相关)。我们同时为解码器设置了一个包含词语字典和语言模型的字典树。此解码器支持所有拥有解码器所需接口的语言模型,包括N元语言模型(n-gram LMs)和无状态参数语言模型(stateless parametric LM),并为N元语言模型提供基于KenLM的简易封装。




3. 相关工作

我们对其他常用开源语音识别系统做了一个简要概括,包括Kaldi[1],ESPNet[2]和OpenSeq2Seq[3]。卡迪语音识别工具包(The Kaldi Speech Recongnition Toolkit,Kaldi)目前是上述系统中出现时间最早的,它拥有一套独立式命令行工具包。Kaldi支持HMM/GMM与混合式基于HMM/NN的声学模型并包含基于电话的菜单(phone-based recips)。


端到端语音处理工具包(End-to-End Speech Processing Toolkit,ESPNet)与Kaldi之间联系很紧密,ESPNet将Kaldi用来进行特征提取与数据预处理。ESPNet一般将Chainer[15]或PyTorch[16]用作后端来训练语言模型,虽然主要用Python编写,但与Kaldi风格相同,高级工作流程采用实用脚本程序(bash scripts)编写。虽然这样便于系统组件的解耦,但同时也缺乏拥有静态类型的面向对象的编程语言所具有的类型安全、可靠性高和交互界面直观等优点。ESPNet具有同时拥有基于CTC的和基于注意力的解码译码器以及结合这两个标准的混合模型的特点。


OpenSeq2Seq与ESPNet类似,都具有基于CTC和拥有编码器解码器模型的特点,且都是用Python编写的,都使用TensorFlow作为后端而不使用PyTorch。若要处理高级工作流,OpenSeq2Seq同样依赖于调用Perl和Python脚本的实用脚本程序。OpenSeq2Seq系统的一个值得注意的特点是它支持混合精度训练。而且,ESPNet和OpenSeq2Seq支持文本到语音模型(Text-To-Speech,TTS)。


表1描述了这几个开源语音识别系统的具体情况。如表所示,wav2letter++是唯一一个完全使用C++编写的系统,它事实上可以很简单的和现存的用任何语言编写的应用程序整合到一起。由于它使用的C++语言具有静态变量且面向对象,所以它可以更好地适应大规模开发需求。在第四章中,我们可以看到它在与其他系统相对比时同样具有最大效率。与他形成对比的是类似Python这样的动态类型语言虽然可以提高原型设计的速度,但强制静态类型的缺失总是会妨碍大规模开发。 enter image description here

表1 主要开源语音识别系统




4.实验

在这一章我们将通过对比研究讨论ESPNet、Kaldi、OpenSeq2Seq和wav2letter++之间的表现差距,通过利用华尔街日报(WSJ)数据库中的大量词汇对自动语音识别系统进行工作评估。我们会测量训练中的平均历元时间以及平均语音解码延迟。来实验的机器硬件配置如下:每台机器配置装有八个NVIDIA Tesla V100 Tensor Core GPU的NVIDIA SXM2 模块和16GB内存,每个计算节点拥有两个Intel Xeon E5-2698 v4 CPU,总共40个核心,80个硬件线程,工作频率2.20GHz。所有机器通过100Gbps无线带宽网络进行连接。



4.1训练

我们通过扩展网络参数和增加GPU使用数量评估训练时间。我们考虑两种神经网络结构:循环结构网络,拥有三千万个参数;还有纯卷积模式,拥有一亿个参数。两种网络结构分别在图4的上下两幅图中做出了具体描述。


对于OpenSeq2Seq,我们同时考虑float32和混合精度float16训练。对于两种网络,我们使用40维log-mel滤波器组作为输入以及CTC作为标准(基于CPU的实现,CPU-based implementation)。


对于Kaldi,由于CTC训练标准在标准Kaldi菜单(recipes)中不可用,我们使用LF-MMI[19]标准。 所有模型都使用带动量(momentun)SGD进行训练。 我们使用的批次大小为每个GPU处理4条语音。每次运行限制每个GPU最多使用5个CPU核心。 图3可以提供关于训练管道主要组件的更多细节,图中展示单个GPU运行情况下在一个完整的历元时间内,对每个批次所消耗的时间进行的平均处理。


对于只有三千万个参数的更小的模型来说,就算是在单个GPU上运行wav2letter++也比第二优秀的系统快15%以上。需要注意的是由于我们使用的是8GPU设备,当我们需要进行16、32甚至64GPU实验的时候,需要引入多节点通信。但ESPNet并不支持多节点训练开箱即用(out-of-the-box)。我们通过使用PyTorch的DistributedDataParallel模式和NCCL2后端对它进行扩展。ESPNet依赖于对输入特征的预先计算,而wav2letter++和OpenSeq2Seq则由于对灵活性的需求而选择在程序运行过程中计算特征。在一些情况下,混合精度训练可以将OpenSeq2Seq的历元时间降低1.5倍以上,这项优化在未来也可以被运用在wav2letter++上。由于Kaldi的菜单在进行LF-MMI时无法同步SGD上传数据的梯度,导致每次历元花费的时间慢了20倍以上。(The Kaldi recipe for LF-MMI does not synchronize gradients for each SGD update; the per-epoch time is still more than 20x slower.)由于使用了不同的标准(LF-MMI)和优化算法导致难以进行比较,我们并没有把Kaldi包含进表4中。 enter image description here

图3 训练循环中主要步骤消耗毫秒数。



4.2解码

wav2letter++包含一个用C++实现的单通柱状搜索解码器(详见2.5节)。我们将此解码器与OpenSeq2Seq和ESPNet中可获得的其他柱状搜索解码器相比较。不把Kaldi引入比较主要是因为它内置了的基于WFST的解码器并不支持CTC解码。我们利用在LibriSpeech上通过Wave2Letter+训练的完全优化的OpenSeq2Seq模型产生完全相同的,经过预先计算的数据并传输给两个解码器,这样我们就可以得到在相同模型情况下的独立的实验结果数据。由于ESPNet并不支持N元语言模型解码,我们使用的4元LibriSpeech语言模型主要用来给OpenSeq2Seq与wav2letter++提供数据。在表2中,我们主要汇报了基于LibriSpeech dev-clean的单线程解码的解码时间与峰值内存使用,验证其误码率是否低于5%并记录每个框架最低可达到的误码率。我们对超参数进行了严格的调整这样报告就可以反映在报告误码率下最大可能达到的速度。最终结果显示,mav2letter++不仅比类似的解码器表现优秀一个数量级以上,还可以大量节约内存资源。

enter image description here

表2 基于LibriSpeech dev~clean的解码表现   enter image description here

图4 训练时间对比图。上方图是一个三千万参数RNN[12], 下方图是一个一亿参数CNN[13]。




5.结论

本论文主要介绍了wav2letter:一个用于开发端到端语音识别器的高速简单系统。其框架完全通过C++实现,这使得它不仅可以高效训练模型还可以进行实时解码。我们的初步实践与其他语音框架相比展现了极大的前景,而且wav2letter++可以在未来的进一步更新中持续优化。由于它简单且可扩展的界面,wav2letter++很适合成为端到端语音识别的快速研究平台。与此同时,我们依然保留了对基于Python的ASR系统进行优化的可能性,以使其缩小与wav2letter++的差距。




  .

参考文献

[1] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget, Ondrej Glembek, Nagendra Goel, Mirko Han- nemann, Petr Motlicek, Yanmin Qian, Petr Schwarz, et al., “The kaldi speech recognition toolkit,” in IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society, 2011, number EPFL-CONF-192584.

[2] Shinji Watanabe, Takaaki Hori, Shigeki Karita, Tomoki Hayashi, Jiro Nishitoba, Yuya Unno, Nelson En- rique Yalta Soplin, Jahn Heymann, Matthew Wiesner, Nanxin Chen, et al., “Espnet: End-to-end speech processing toolkit,” arXiv preprint arXiv:1804.00015, 2018

[3] Oleksii Kuchaiev, Boris Ginsburg, Igor Gitman, Vi- taly Lavrukhin, Carl Case, and Paulius Micikevicius, “Openseq2seq: extensible toolkit for distributed and mixed precision training of sequence-to-sequence mod- els,” arXiv preprint arXiv:1805.10387, 2018.

[4] Yajie Miao, Mohammad Gowayyed, and Florian Metze, “Eesen: End-to-end speech recognition using deep rnn models and wfst-based decoding,” in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 167–174.

[5] James Malcolm, Pavan Yalamanchili, Chris McClana- han, Vishwanath Venugopalakrishnan, Krunal Patel, and John Melonakos, “Arrayfire: a gpu acceleration plat- form,” 2012.

[6] Matteo Frigo and Steven G. Johnson, “The design and implementation of FFTW3,” Proceedings of the IEEE, vol. 93, no. 2, pp. 216–231, 2005, Special issue on “Pro- gram Generation, Optimization, and Platform Adapta- tion”.

[7] Alex Graves, Santiago Ferna ́ndez, Faustino Gomez, and Ju ̈rgen Schmidhuber, “Connectionist temporal classifi- cation: labelling unsegmented sequence data with recur- rent neural networks,” in Proceedings of the 23rd inter- national conference on Machine learning. ACM, 2006, pp. 369–376.

[8] Ronan Collobert, Christian Puhrsch, and Gabriel Synnaeve, “Wav2letter: an end-to-end convnet- based speech recognition system,” CoRR, vol. abs/1609.03193, 2016.

[9] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Ben- gio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014.

[10] Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, and Yoshua Bengio, “Attention-based models for speech recognition,” in Advances in neural information processing systems, 2015, pp. 577–585.

[11] Sharan Chetlur, Cliff Woolley, Philippe Vandermersch, Jonathan Cohen, John Tran, Bryan Catanzaro, and Evan Shelhamer, “cudnn: Efficient primitives for deep learn- ing,” arXiv preprint arXiv:1410.0759, 2014.

[12] Awni Hannun, Carl Case, Jared Casper, Bryan Catan- zaro, Greg Diamos, Erich Elsen, Ryan Prenger, San- jeev Satheesh, Shubho Sengupta, Adam Coates, et al., “Deep speech: Scaling up end-to-end speech recogni- tion,” arXiv preprint arXiv:1412.5567, 2014.

[13] Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Col- lobert, “Letter-based speech recognition with gated con- vnets,” CoRR, vol. abs/1712.09444, 2017.

[14] Kenneth Heafield, “Kenlm: Faster and smaller language model queries,” in Proceedings of the Sixth Workshop on Statistical Machine Translation. Association for Com- putational Linguistics, 2011, pp. 187–197.

[15] Seiya Tokui, Kenta Oono, Shohei Hido, and Justin Clay- ton, “Chainer: a next-generation open source frame- work for deep learning,” in Proceedings of workshop on machine learning systems (LearningSys) in the twenty- ninth annual conference on neural information process- ing systems (NIPS), 2015, vol. 5, pp. 1–6.

[16] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer, “Au- tomatic differentiation in pytorch,” 2017.

[17] Mart ́ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, San- jay Ghemawat, Geoffrey Irving, Michael Isard, et al., “Tensorflow: a system for large-scale machine learn- ing.,” in OSDI, 2016, vol. 16, pp. 265–283.

[18] Douglas B Paul and Janet M Baker, “The design for the wall street journal-based csr corpus,” in Proceedings of the workshop on Speech and Natural Language. Associ- ation for Computational Linguistics, 1992, pp. 357–362.

[19] Daniel Povey, Vijayaditya Peddinti, Daniel Galvez, Pe- gah Ghahremani, Vimal Manohar, Xingyu Na, Yim- ing Wang, and Sanjeev Khudanpur, “Purely sequence- trained neural networks for asr based on lattice-free mmi.,” in Interspeech, 2016, pp. 2751–2755.

适用于小型企业的客户服务通信

我们生活在客户时代,体验至高无上。事实上,今天的买家很可能会选择一家提供优质服务的公司,即使它的成本更高。

这对小企业来说是个好消息;在价格方面,您可能无法与大公司竞争,但您与客户的距离比一些大型商店所希望的要近得多。但取悦顾客并不总是在公园里散步。即使是最好的小企业今天也可以利用优势,因为每个人都在呼吁提升他们的客户服务游戏。

enter image description here

这就是我们创建 SparkleComm统一通信系统的原因。它是一个精简的工具包,具有提升客户体验所需的所有功能。

让我们看看SparkleComm统一通信如何为您的小型企业节省时间、金钱和客户!

SparkleComm统一通信帮助小型企业的 4 种方式

  1. 取悦更多客户

借助SparkleComm的软电话功能,您可以通过可自定义的语音菜单和呼叫路由减少等待时间并提高首次呼叫解决率。您的服务团队可以在办公桌、计算机甚至移动设备上接听电话。此外,您可以直接从应用程序向客户发送短信和传真:当今世界掌握在客户的手中。第一次提供一流的体验比以往任何时候都更重要,SparkleComm可以提供帮助!

  1. 加强团队协作

告别长长的电子邮件线程!

使用SparkleComm即时通讯,跟上工作从未如此简单。那是因为您的所有团队都在同一个应用程序中生活和工作!

我们的SparkleComm即时通讯功能具有许多强大的功能,可让您的团队保持正轨,例如:

1:1 和群发消息

共享和存储文件

固定重要的对话以备后用

设置任务和创建日历邀请

将客人添加到群聊中,以便与客户和利益相关者轻松交流

  1. 挖掘数据以做出更好的决策

数据是一个美好的东西。与依靠直觉不同,数据是一种更智能、风险更低的方式来做出有关您的业务的重大决策。此外,调查这些数字有助于在雪崩之前预防问题。

这就是为什么SparkleComm呼叫中心是其中的标准配置。这是一套精益求精的工具,可帮助您获得有关客户服务旅程每一步的重要见解。你会得到:

座席和呼叫队列绩效报告

业务线分析

服务质量报告

借助SparkleComm呼叫中心的实时报告,您可以就人员配备计划、座席表现和呼叫解决方案等做出更好的决策。

  1. 完成更多工作

没有人比小企业主更了解预算紧张。这就是为什么SparkleComm统一通信不会给您带来额外的零花钱的原因。您将获得SparkleComm统一通信的核心功能,强大的商务电话团队消息传递视频会议,以及让您的客户服务与众不同的实时报告。没有多余的装饰,没有大惊小怪。只是一套易于使用和理解的负担得起的工具。

拥有SparkleComm统一通信应用程序中的所有功能意味着您的团队在应用程序之间的切换更少,这意味着更高效的工作一整天!

 SparkleComm的这些新功能将永远改变您的混合劳动力

混合工作让员工在工作方式上拥有更多控制权和灵活性,从而改善了许多员工的生活。混合工作也可能永远改变我们开会的方式。

有些人在办公室工作,有些人在家里或其他地方工作,会议意味着坐在同一张桌子上的日子已经一去不复返了。如今,混合会议也很常见,有些人亲自参加,有些人通过视频参加。

 SparkleComm视频会议专为这些场景量身定制,提供无缝、集成的会议体验,易于在任何规模的会议室中安装和使用,无论您是面对面还是远程,都能提供出色的体验。

enter image description here

随着混合会议数量的增加,对能够使体验更好的创新功能的需求也在增加。以下是  SparkleComm视频会议的 8项新功能和更新,它们将真正提升您的混合会议水平。

  1. 幻灯片视图

与面对面会议相比,查看会议室中正在发生的事情或其他参与者的反应的能力有限,这使得通过视频加入会议的体验不那么吸引人。

我们新的幻灯片视图通过显示其他会议参与者而不仅仅是主持人,为屏幕带来更多动作。激活幻灯片视图后,屏幕底部或顶部会显示其他与会者,允许远程与会者看到和听到会议中的每个人。

  2. E2EE 房间支持 

更多的混合会议意味着更多的场景可以虚拟地讨论重要且通常是机密的信息——这意味着安全必须成为这些会议执行方式的重要考虑因素。

这就是为什么我们很高兴为 SparkleComm用户提供视频会议隐私的黄金标准。端到端加密意味着数据在端点之间的整个过程中都经过加密,除了会议参与者之外,没有人可以访问该信息。 

现在, SparkleComm视频会议支持动态端到端加密,允许用户在 SparkleComm视频会议期间随时开启这种增强保护。

  3. 隐藏式字幕

无论您在哪里参加会议,如果您无法听到或理解正在发生的事情,就很难从会议中获得很多东西。 

借助隐藏式字幕,用户可以打开屏幕字幕,因此无论会议参与者是否需要额外的语言帮助、听力受损,或者只是想能够实时阅读所讲的内容,都可以轻松跟进。

  4.HDMI分享

无论是状态更新、想法还是反馈,会议都是关于共享的。借助新的 HDMI 共享功能,您可以轻松地将笔记本电脑中的演示文稿或内容共享到会议室。 

只需将  SparkleComm HDMI 插入任何笔记本电脑,即可立即与所有参与者共享您的屏幕。 

  5. 近距离分享手机

随着人们在手机上进行的工作越来越多,我们也让会议期间的无线共享变得即时而轻松。 

如果您希望整个会议都看到您的手机上的某些内容,现在您可以从  SparkleComm视频会议移动应用程序启用近距离共享并将您的手机镜像到会议室。

  6. 房间激活码

如此多的视频会议面临的一个挑战是设置和配置每个会议室的所有技术提升,但我们让这部分变得更加容易。

现在,无需使用管理员凭据为每个新会议室注册一个会议室许可证,只需点击几个按钮即可。管理员可以为每个房间提供激活码并远程打开房间,从而减轻 IT 的负担。

  7.查看聊天

通常,主要演示只是会议活动的一部分。对于虚拟参与者,聊天框通常会充满其他问题、评论、共享链接等。 

由于能够在任何会议室会议中查看聊天对话,室内参与者现在也可以参与该对话。这只是我们确保同样丰富的 SparkleComm会议体验的另一种方式——无论您从哪里加入。 

  8. 共享房间摄像头

曾经有过头脑风暴会议,您想将相机对准一些便签纸吗?或者如何使用相机聚焦房间中的画架,以便远程参与者可以看得更清楚? 

 SparkleComm用户很快就能以全屏模式共享相机。就像屏幕共享一样,您可以最大化会议室摄像头,为参与者占据整个屏幕,以便他们更近距离地了解正在发生的事情。 

  为混合世界打造的 SparkleComm会议解决方案

会议与以往不同,要在混合世界中成功召开会议需要新的工具和功能,让每个人都参与其中。 SparkleComm视频会议具有更简单的设置和新功能,使共享和参与混合会议变得无缝且引人入胜,是让团队聚集在一起的必备工具。

 SparkleComm VoIP 电话技术的简要介绍

VoIP 技术今天已成为事实上的标准,正在为未来更高的杠杆率铺平道路。它是在 1990 年代的某个地方推出的,直到今天仍在继续它的火花。它力求成为 21 世纪最具影响力和压倒性的技术之一。如今,VoIP 因其被称为商业组织骨干的能力而成为烫手山芋。现在预计未来四年将有9.8%的增长。从以前的 VoIP 技术开始,不断改变技术面貌可以算作web RTC  现在被添加到等式中,移动已经增长,语音继续增长。

自 2008 年以来,手机就像细菌一样涌现。当个人电脑衰退时,他们被证明是世界的食客。另一个增加到这个移动领域或反之亦然的维度是 VoIP 技术的诀窍,它可以极大地轻松地嵌入到微型设备中。截至 2017 年的统计数据,VoIP 以 6% 的复合年增长率(CAGR)增长到 827 亿美元。关于时间跨度短,VoIP 对迄今为止的进步感到惊叹。

enter image description here

早期的 VoIP 缺少某些功能。例如,它缺乏共同的协议标准,并且可以在同一网络上调用。不同平台上的互操作性也不存在。但是随着后来 SIP 的引入,这项技术完全有可能让用户无忧无虑地在不同的平台上操作它。

过去五年,随着满足业务和用户需求的 VoIP 提供商和服务提供商的激增,VoIP 技术有了巨大的发展。VoIP 在未来将通过不同的方式整合以发挥优势。例如 SparkleComm VoIP 转换为所谓的基于云电话的系统,称为统一通信系统。它提供更低的维护、更低的前期成本和更低的硬件成本。

在 SparkleComm在线应用程序中捕获的社交媒体和 VoIP 的融合通过称为聊天机器人的服务扩大了 VoIP 技术的未来范围。物联网 (IOT) 与 SparkleComm VoIP 的结合将证明通过分布式网络提高自动化的生产力。其应用示例可能包括自动更新 SparkleComm VoIP 分机上员工状态的 GPS 信息,可以将文本消息放入 SparkleComm VoIP 邮箱。现在, SparkleCommVoIP 以其尖端的可操作性成功地吸引了企业和用户。

当前的 VoIP 趋势和产品包含高水平的综合业务后端分析。随着逐渐转向云服务,它在绩效和管理方面提供了大量分析,将业务转变为更好的通信部门版本。早些时候,通信双方必须使用相同的软件,但从 2016 年起, SparkleComm等平台通过使用单独的 URL 进行视频会议或其他通信。未开通账号或下载过APP的用户,也可以一键畅享交流。 SparkleComm 软电话是主要的 VoIP 设备。组织采用了新的自带设备文化。VoIP 在 统一通信中的影响已显示出技术进步的指数级增长。由于高度定制化, SparkleComm VoIP 的成本更低是毋庸置疑的。向云的过渡和配备的手机的使用已经做到了这一点。

随着VoIP技术标准的飞跃,它肯定会彻底嵌入到真实版本的虚拟世界中。

通过呼叫中心自动化提高座席生产力的 7 种方法

在一天中的某个时间自动锁门的智能安全系统,根据您之前的使用历史减少能源消耗的能源监控系统,甚至可以让您通过声音控制微波炉和烤箱的智能插头声音——几十年前听起来像科幻小说的东西现在已经成为我们生活的一部分。人工智能 (AI) 和自动化正在改变我们的生活方式并简化我们的日常任务,使我们能够关注真正重要的事情。

但这对呼叫中心意味着什么?自动化呼叫中心任务是为了节省座席的时间和精力,让他们专注于客户。由于座席在日常任务上花费的时间更少,他们可以为客户提供更好的服务并建立深厚的关系,从而提高保留率和忠诚度。

enter image description here

下面,您可以找到七个示例,说明呼叫中心自动化如何提高座席生产力并增强座席和客户体验。

  1. 将呼叫路由到最合适的代理/部门。

交互式语音响应(IVR) 系统是呼叫中心最流行的自动化形式。SparkleComm 呼叫中心系统中的IVR 是一种自动化的商务电话系统功能,它通过在菜单中为他们提供一些选项来收集呼叫者的信息,并根据他们的选择将呼叫路由到最合适的座席或部门。

多年来,IVR 的名声一直很差,客户非常不满,服务负责人也承认某些 IVR 系统损害了客户体验。这是由于规避和不明确的电话菜单和断开的流程导致客户陷入永无止境的选择循环。然而,新一代人工智能驱动的 IVR 为该行业带来了新的活力,使公司能够实施语音助手、预测分析和生物识别认证等新技术,从而在导航菜单的同时增强客户体验。

从传统的“一键销售”到更现代的菜单选项(例如请求回电或获取自助更新),SparkleComm呼叫中心 IVR 系统现在可以为客户提供更愉快的体验,同时让座席能够专注于复杂的问题,减少转移到代理的呼叫数量,并对呼叫中心绩效指标产生积极影响。

2.利用自助服务渠道。

提高呼叫中心生产力的最佳方法之一是将呼叫者转移到其他渠道。虽然一些客户仍然希望与人工代理交谈,但大多数客户(尤其是年轻一代)更喜欢自己解决简单的查询。致电客户支持通常与较长的等待时间和呼叫队列相关联,他们觉得如果他们自己寻找答案会更容易和更快。

实施自助服务选项(电子邮件、聊天、短信或虚拟代理)将减少呼叫量并提高代理工作效率。除了腾出座席来处理更重要的问题外,座席还可以一次与一位以上的客户互动(即一位在电话上,一位在聊天中),并在空闲时间回复聊天和电子邮件,从而最大限度地提高生产力。

  1. 自动化重复的手动任务。

代理有很多事情要处理。为什么不自动化一些更重复的手动任务呢?这不仅可以腾出代理来处理更重要的问题,而且还可以显著减少错误并确保您的业务工具中的信息始终是最新的。使用提供自动化任务的SparkleComm呼叫中心软件简化呼叫中心运营并提高座席生产力和团队绩效,例如:

每次未接来电时在SparkleComm呼叫中心系统中创建一个案例

利用SparkleComm通话结束后的通话记录和录音。

在 CRM 上更新客户信息。

利用SparkleComm主动发送客户订单更新消息。

  1. 提高首次呼叫解决率。

首次呼叫解决(FCR) 意味着在客户第一次呼叫时就充分解决他们的问题。FCR 对座席和团队的生产力有很大影响,因为在第一次联系时问题得到解决的呼叫者不太可能就同一问题回电(这会降低呼叫量——让座席能够处理更紧迫的问题)并且不太可能被转移或上报给经理(这样他们就不会在同一问题上束缚其他团队成员)。

FCR 受到无法访问客户信息和系统数据的负面影响。当座席无法访问客户的历史记录(即支持票证、购买的项目、案例和通话记录)或座席忘记将信息输入业务工具(或'不是一个自动化的过程),以及当代理无法访问有关产品/服务的准确信息时(通过知识库、培训或访问经理)。在这些情况下,座席不太可能在第一次尝试时就解决客户的问题,而更有可能必须转接电话或回电客户。

  1. 向座席提供上下文相关信息。

没有比不断地搜索多个系统、给工程师发电子邮件、打电话给经理或让同事找到一个常见问题的答案更能降低生产力的事情了。为了解决这个问题,公司正在利用人工智能驱动的知识库,结合虚拟座席助手,为座席提供上下文和相关信息,帮助他们更快、更轻松地解决客户查询。

例如,如果客户致电询问有关故障排除的问题,座席可以在知识库中键入问题描述并立即定向到产品文档。此外,如果知识库在公司网站上并且可供客户访问,座席可以在通话期间尝试引导他们,这样他们下次有问题时就可以先在那里搜索,从而减少通话次数。

6.优化劳动力管理和规划。

呼叫量波动可能是呼叫中心生产力的致命弱点。您无法 100% 准确地知道在一天、一周或一个月中的某个时间,呼叫中心有多少电话打来。但是您可以根据历史数据、市场洞察力和其他可用信息预测您需要多少代理来处理预期的交互量。

为传入的查询配备正确数量的座席不仅对于回答客户的期望至关重要,而且还可以确保座席保持参与并对其工作感到满意。快乐的座席与客户建立积极的互动。

SparkleComm呼叫中心工具有助于优化员工调度,减少分配座席轮班所花费的时间,并通过确保正确的座席、具有正确的技能和培训,在您需要的时候轮班。

  1. 改善内部沟通。

一家成功公司的决定性因素是其员工的合作程度。然而,部门之间的沟通并不总是那么容易,特别是在呼叫中心,会导致平均等待时间增加,因为座席经常不得不让客户等待联系销售、计费或技术部门。

让客户暂停或转接电话不仅会导致客户沮丧,还会降低座席和团队层面的生产力。利用内部通信系统,一线座席可以轻松地向技术团队、经理或同事询问问题的答案,因此他们不必转接电话。

SparkleComm通过将统一通信(UC)呼叫中心集成,组织可以打破团队之间的障碍,推动轻松沟通,促进以客户为中心的文化,并提高整体绩效。

最后,客户希望他们与公司的互动轻松、快速和愉快。他们不在乎您是否使用哪个软件,或者您是否实施了自动化流程。但他们会注意到您的代理是否需要很长时间才能找到他们问题的答案,或者提供的信息是否在不同渠道中不一致。SparkleComm呼叫中心系统的自动化减轻了座席的负担,减少了错误并简化了流程,因此他们可以更多地专注于与客户建立有价值的关系,而不是遵循规则和流程。