微软上线口语评测功能:基于Azure云构建 帮助语言学习
副标题[/!--empirenews.page--]
访问: 阿里云年中大促 点击领取最高12000元红包 天翼云“年中上云节”全场0.6折起 8888元礼包全场可用 5月20日,在2020微软Build开发者大会上,微软上线了语音评测功能,该功能基于Azure语音服务Speech-to-text(语音转文本)构建。用户可以上传跟读文本和音频对发音人的语音从准确度,流利度和完整度进行评测。在教育领域,尤其是口语学习方面,因具有高识别准确率、拟专家打分的高一致性,可以让口语学习的教和学更加高效方便。 近日,微软亚太研发集团智能语音团队接受线上采访,对微软智能语音评测技术的优势和应用场景等内容进行了详细介绍。微软亚太研发集团云计算与人工智能事业部产品总监丁秉公、微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎参与了本次采访。 语音评测的四个维度:专业性、实时性、稳定性、可定制性 微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎表示,目前语音评测市场需求的考量方向主要有四个维度:
对于专业性,微软语音评测的每个语言从10万小时以上的母语大数据中学习当地语言纯正口音发音,针对各年龄段多维度精准打分,从文章——句子——词——音素四个环节,层层评估,拟专家团打分一致性高。 马莉莎提到,语音评测的专业性考量对比的是和母语专家评测的一致性。业内通用皮尔森相关系数来反映两个序列线性相关程度的统计量。范围在-1到1之间,1表示完全相关,-1表示完全相反,0表示乱序无关,数值越大表示相关度越高。微软语音评测在一致性上达到了0.75,与母语专家水平接近。 对于实时性,微软语音评测支持音频上传流式处理,也就是边朗读边处理,读完立即反馈评估结果。 对于稳定性,微软语音评测基于NLP模型构建模糊匹配文本,针对垂直领域的特定场景的容错率有良好的包容性,漏读、错读、重复读不影响打分有效性与准确性。 对于可定制性,ASR基础模型与微软在语音领域的全面技术能力,可以实现个性化评分标准,可适配口音、适配噪音环境以及适配年龄层等。 据了解,微软语音评测除了支持英语评测外,还可扩展支持全球 40 多个国家和地区的语言评测,广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。 最大的技术难点在于多点平衡 语音评测能力,在教育领域主要的受众人群包括老师、学生,通常被广泛应用于教师评估、作业练习和语言学习场景中。那么,对于口语学习,教育用户的痛点是什么?语音评测最大的技术难点又是什么? 对此,马莉莎表示,对于学生来说,他们的痛点在于非母语口语学习。学生们在学习新语言的过程中,如何及时准确地给学生的发音进行反馈,让学生随时随地更方便地联系对于提升口语学习的有效性至关重要。 对于学校和教育机构来说,他们的痛点在于老师的资源有限,如何把现有的优质教师资源拓展到一个稳定的教学系统里。因此,老师需要这样一个能力,不仅能模拟母语专家打分,还能够学习到老师们的评测方法,让老师们可以使用评测高效地一对多给学生提供在线和线下的指导和帮助。 教育用户的这些痛点,对语音评测技术提出了更高的要求。马莉莎认为,语音评测最大的技术难点在于语音识别技术本身,首先是多语言的理解和识别,不同的打分场景,包括噪声环境、不同年龄段学生的发音情况等都要进一步优化。 其次就是要达到包容性和鲁棒性(注:robust,技术术语,此处可理解为稳健性或抗变性)的平衡。既要模型做得好、识别好,还要能够动态、实时构建,对大模型达到高实时地调用,而这些需求加起来就是难上加难了。
据悉,积极探索数字化转型和新教育模式的好未来,也是微软语音评测功能的客户之一。好未来AI科学家胡翔宇表示:
基于Azure云构建的一种能力:算法、数据、算力 微软亚太研发集团云计算与人工智能事业部产品总监丁秉公介绍,一般来说,我们看AI技术主要看三个方面:算法、数据、算力。从这三个方面来说,微软的语音评测功能有自己独特的优势。
实际上,微软语音评测不是一个具体的产品,而是基于Azure云构建的一种能力。即以微软Azure为平台,将微软在人工智能领域30年的研究成果,开放API给合作伙伴、独立软件开发商、系统集成商,为他们提供认知服务之上的能力,从而进一步做出适合各自领域的方案。 (编辑:东莞站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |