整体来说,智能语⾳技术在⼯业界的落地不断加速,来⾃业务和技术两个⽅向的合⼒共同作⽤牵引和驱动应⽤落地。
从应⽤场景的牵引看,⼀⽅⾯如短中⻓视频业务,在全球仍保持着较⾼的增⻓速度,视频内容创作者和内容消费者活跃度很⾼;另⼀⽅⾯,疫情令居家办公和远程协作的需求增⻓,智能语⾳技术能在视频会议中提供通信增强和语⾳识别等关键能⼒,为参会者提供更佳的会议体验;以智能汽⻋和虚拟现实 VR/AR 为代表的新场景不断出现,需要更⽅便、更低延迟、更沉浸式的语⾳交互体验。
从核⼼技术的驱动看,基础模型改进和⾃监督技术不断提升着模型性能上限,同时多模态技术融合使得技术⽅案的能⼒越来越强,可⽀持更复杂的场景并带来更好的体验。
商业化难点主要在于商业模式选择
马泽君认为,现阶段,智能语音商业化的难点主要是商业模式探索和路线选择的问题,具体包括如何更好地满⾜需求,控制成本以及保证交付质量。
⼀⽅⾯,AI 商业模式探索需要始终围绕需求展开,提升模型效果和在真实场景中解决用户或客户的问题不能等同。解决实际问题需要 AI 研发⼈员深⼊业务场景,理解需求和条件限制,找到合理的产品技术⽅案,并不断思考和抽象功能和技术,沉淀通⽤的技术解决⽅案,探索验证可规模化的标准产品,降低定制周期和代价。
另⼀⽅⾯,AI 技术研发成本⾮常⾼,如何通过优化算法低对领域数据依赖,建设⾃动化平台降低⼈⼒消耗和提升研发流程效率对成本控制⾮常关键。
最后还要重视交付质量和售后服务。只有同时做好上述三个环节,才能完成从需求到交付到服务的整个链路,从而奠定规模商业化的基础。
端到端和预训练等技术仍然值得关注
-
端到端序列建模技术
(1)准确率和推理速度更上⼀层楼的端到端技术值得期待,其中对⻬机制(alignmentmechanism)是端到端序列建模的关键。字节跳动 AILAB 正在探索的连续整合发放 CIF 模型(Continuous Integrate-and-Fire)是一种创新的序列端到端建模对齐机制,具有软对齐、计算代价低和容易扩展的特性。
(2)在端侧设备上的端到端语⾳识别和合成技术落地值得关注,特别是轻量级、低功耗、⾼准确度和定制灵活的端到端语⾳识别和合成技术。
(3)端到端语⾳识别技术⽅向的热词定制和领域⾃适应技术⾮常可能有重⼤进展。