小米AI实验室八篇论文被顶级国际会议 ICASSP 2023录用

发布时间：2023-03-03 10:20:35 所属栏目：数码来源：

导读：全球语音声学顶级会议ICASSP 2023公布了论文入选名单，小米AI实验室8篇学术论文被接收。

ICASSP（International Conference on Acoustics, Speech and Signal Processing）即国际声学、语音与信号处理会议，是IEE

全球语音声学顶级会议ICASSP 2023公布了论文入选名单，小米AI实验室8篇学术论文被接收。

ICASSP（International Conference on Acoustics, Speech and Signal Processing）即国际声学、语音与信号处理会议，是IEEE主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级会议，在当时的国际上同样享有盛誉，并具有相当广泛的学术影响力。

01

【业务应用】

小爱翻译实时字幕：它用于在小爱翻译实时字幕与同声翻译研发过程中测评质量。

小爱同声传译：双人对话，边说边译，面对面跨语言沟通无障碍，能轻松应对全球多个国家的不同英文口音。

其中AL表示Wait-k模型的延迟，NE表示Re-trans模型的刷新率，BLEU分数是译文质量的自动评价指标（越大质量越高），AP作为人工评价指标用于评估译文的可接受度（越大质量越高）。我们惊讶地发现，随着翻译延迟或刷新率的降低，人工评分下降率仅为13~14%，远低于BLEU分数的下降幅度。这表明整句翻译测试确实低估了AI同传模型的能力。

02

端到端语音翻译（End-to-End Speech Translation）近期取得了突破性进展，当训练数据达到一定规模时，端到端语音翻译的质量已经可以媲美级联（先做语音识别，再做机器翻译）的方法。这些进展激发了研究人员对多语言端到端语音翻译和端到端语音同传的兴趣。

本文从多语言端到端语音翻译与端到端语音同传结合方面展开，提出用于联合同步训练策略的双解码器框架和单解码器统一这两个多语言端到端语音同传的模型变体框架。该框架可以实时地将一种源语言对应的语音同时翻译成多种目标语言的文本，主要验证了其优于双语语音同传的方法，同时为相关研究团体提供一个很有潜力的研究方向。

使用gentle和Laser对齐工具构建一个多路对齐的多语言端到端ST测试集，用于评估我们所提出的方法。实验结果表明当使用同步训练策略时，所提出的两个模型框架均显著优于双语的语音同传模型；另外，在单解码器统一框架上的异步训练策略又进一步带来了提升。这与多语言翻译模型上的结论一致，不同语种之间有相互促进作用。

03

▍Delay-penalized transducer for low-latency streaming ASR

Wei Kang，Zengwei Yao，Fangjun Kuang，Liyong Guo，Xiaoyu Yang，Long Lin，Piotr Żelasko，Daniel Povey

【论文简介】

端到端流式语音识别任务中，一般认为模型只能看到有限的上下文信息，所以总是会带来一些识别的时延。尽管已经存在一些方法可以降低这个时延，但是它们通常需要依赖于额外获取的时间对齐数据。

本论文中，我们提出一个简单的方法用于惩罚 Transducer 模型的时延，可以调节流式模型在准确率和时延之间的 trade-off。具体而言，在利用动态规划算法计算 Transducer 目标函数之前，我们在非 blank 的 log-probabilities 上加一个常数 λ 乘以 (T/2 - t)，其中 T 是帧数，t 是当前帧索引。实验结果表明，在流式 Conformer 模型和 LSTM 模型上，该方法可以在降低可接受的准确率情况下，有效降低识别时延。我们的方法取得了与 FastEmit 相似的准确率-时延 trade-off，但是具备更强的理论可解释性：其相当于惩罚整个 Transducer lattice 的平均时延。lattice的平均时延。这一结果表明，fastemit可以用于预测未来几年的气候变化趋势。”

（编辑：驾考网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!