这一次，微软要用科技的力量帮助视障群体成就不凡

2019-10-15 17:38:14 [ 中关村在线原创 ] 作者：徐鹏

科技推动着社会生产力向前迈进，如何让每个人生活得幸福、有尊严成为了每一家全球科技领导企业必备的社会责任。更强的计算能力、更大的存储空间、更快的网络传输打破着一个又一个的技术纪录，而使得人们收获科技的温度则需要企业在科技向善的道路上默默耕耘。自进入中国市场以来，微软始终在全力支持中国公益事业和非营利组织的发展，拥有一颗公益的同理心，正在帮助这家科技巨头在中国书写着新的“纪录”。

红丹丹，一家致力于通过视觉讲述为视障群体提供无障碍文化产品服务的助盲公益机构。2014年起，该机构开始与微软合作，借助Azure智能云平台的核心技术和存储功能，建立云端“心目图书馆”，让视障人士可以随时随地收听和下载有声读物。目前，心目图书馆已覆盖全国105所视障人士学校，晓晓合成有声书也于10月15日上传至心目图书馆，用户可在心目图书馆的微信小程序里收听。

“很多人会提出这样的疑问，市面上很多有声书，为什么我们给视障人士朋友单独做有声书？首先，我们会根据学校孩子和老师的需求来做。对于视障人士孩子来说，更多的需求是学习类的，或者成长类的，这种书在市场上是很难找到有声版甚至是电子版的。此外，我们还会根据青年人的学习需求，比如说要参加法律考试或者公务员考试，市面上很难买到这类有声教材，我们就会通过技术手段以最快速度完成这样的转换，形成有声书。”红丹丹视障文化服务中心执行主任曾鑫说。

以往，传统100页的纸制书，要为视障人士订做成400-500页的内容，不仅翻阅起来费时费力，制作成本也高达百元，如果再制作成有声读物，最快要花费志愿者三个月的时间才能完成一本，还要反复校对，再算上各方的协调成本，阻碍重重。将文字刊物放到云端结合AI技术之后，几分钟内即可生成一本有声书，内容包括新闻、情感故事、声音助理、客服等场景。

“通过TTS合成方式，可以7乘24小时合成，输入文字声音就出来了，只要有文本内容，就可以源源不断的输出有声内容，打破了有声内容生产的壁垒。”微软亚洲互联网工程院人工智能语音组资深产品总监丁秉公谈到，“我们觉得做这个事情对视障人士来说特别有意义，虽然他们可以在市面上听到一些有声书，但数量远少于文本数量，如果能够自动化的把文本转化成有声（读物），可以极大丰富视障人士有声阅读的来源。”

当然，要想把语音技术和盲文书籍结合起来绝非易事。例如在内容合成时对上下文、篇章的理解，人在阅读前会根据文章的题目、对话、结构对整体内容的情感做出判断，而机器做起来却困难重重，需要对微笑、窃喜、大笑等不同的细微情感通过语音的方式展现出来，使其变得非常自然近乎于人的声音。

同时，与红丹丹的合作也让微软有更多的机会深入了解视障人士的需求，像视障人士在阅读或者听的时候，听的语速跟正常值有所差异，可能是四倍到八倍的速度，这样微软就可以把这种理解融入到产品的功能设计中，让TTS快速、高质量的读懂文本。

作为微软首个基于深度神经网络做的声音，微软智能女声晓晓正式立项于去年11月，基于此前的技术积累在Azure云平台之上为用户提供了标准的语音合成API调用接口，可满足用户实时调用语音的需求，能够直接应用于智能助理、智能客服、智能汽车、智能朗读等领域。此前，微软曾与央视、小米等在新春祝福语音合成、小米9王源定制声音等方面进行合作。

微软亚洲互联网工程院语音组产品经理、微软人工智能女声晓晓语音产品负责人刘越颖介绍称，微软会借助人工打标记的方式辅助合成系统实现不同的声音类型识别，后续随着技术的不断完善，会实现AI通过对上下文的理解自行甄别不同的情绪，自动分配标签。为了做到高质量的合成效果，微软分别针对实时和非实时开发了两套API，前者是毫秒级响应，能在数百毫秒内给出反馈，多用于智能对话、智能助理等场景，后者可将人力三小时的录音时长缩短至十几分钟。

“（晓晓）更像是人读的，更温暖，不像冷冰冰的机器的声音，会增加孩子们阅读的兴趣，我觉得从阅读兴趣和效率来说都有显著的提高。”对于微软人工智能女声晓晓语音的应用效果，曾鑫很满意，“我们接触了很多的视障人士朋友，会用各种各样的合成语音，大家都觉得目前在使用的语音听起来很自然，比起其他语音库更好一些，虽然不是尽善尽美，但是我们觉得它更像是人在读。”这种自然不止是流利通顺，还体现在换气、停顿和韵律。

这些细微差异从文字细节可见一斑。很多人在阅读时都会碰到中英混合文本，当两个不同语种的词合在一起，用传统的合成方式很容易听出是不同的两个人说的。不过微软运用深度神经网络来混合计算的时候，就可以让这种合成无缝切换。

据了解，在中国组建的微软语音合成团队已支持着全球49个国家和地区的语音服务，做到了“中国智造，慧及全球”，可以为中国企业出海提供强有力的支持，并且具有严格的用户隐私数据保护政策。丁秉公谈到，近年来，微软在机器翻译、语音识别和机器阅读理解等人工智能领域都获得了极大的技术突破，在自然语言理解和语音方面达到与人类接近的水平，“这是一套整体的AI解决方案落地”。

借助微软的技术赋能，视障人士除了可以获得更优质的生活体验，也为他们带来了更广阔的发展空间，帮助更多的人实现自我价值。“我们现在打算转换一位老师的声音，她是一位完全视障人士，是首位获得播音主持上岗证的朋友，她的声音很好，立志在视障人士就业方面开拓一条新途径，比如网络播音、有声小说等等。”曾鑫讲述道，“我们会把她的声音做成样本，给更多的视障人士学生读，她的感染力和榜样作用可以激励更多孩子努力学习，可以像她一样追求自己的梦想。另外也会有很多大众朋友喜欢她的声音，她的声音就有了市场价值，微软正在帮助残障人士有更好的发展。”

由此来看，微软语音服务同样可以扩大到更广的范畴，即为了信息无障碍而服务，而视障群体只是其中的重要一环。无论是服务于老年人群体，还是开车、做饭这样的多任务场景，人们在生活和工作中或多或少都会遇到手势操作不便的情况，此时无障碍的语音功能无疑会成为交互行为的良好扩展。

“我们和红丹丹合作有十多年的时间，就像是朋友一样在共同成长。红丹丹对我们的帮助很大，一直帮助微软在做公益的时候，可以找到正确的方向。”微软大中华区公益事务总监王岭感触颇深。

自微软亚洲研究院于1998年成立以来，就与公益组织结下了不解之缘。1998年，微软提供技术和平台，包括在线客服，开始扶持帮助残障人士就业的企业稳定壮大起来；2010年起，微软启动了非营利组织信息日活动，在国内倡导把技术和公益相结合，分享各个公益伙伴的优秀实践；2011年6月，微软在全球公布了“Tech for Good”的理念，倡导用技术来致力于善行，用技术解决棘手的社会问题，这一理念一直指导着微软在全球的公益活动；2012年，微软通过“创新未来”论坛，号召青年人用技术解决棘手的社会问题；2013年，微软研究院和联大特殊教育学院开发出手语翻译，用体感技术把手语翻译成文字。

2014年，微软和红丹丹建立心目图书馆，与中国发展研究基金会开展“智能村小”项目，利用Azure、Office 365和体感技术打造了一套智能远程实时教育系统；2015年，微软骇客马拉松上诞生了一款利用微软人脸识别API寻找儿童的应用程序，拉开了微软与国内最大的公益寻人网站“宝贝回家”的合作序幕；同年，中国发展研究基金会委托微软构建阳光校餐数据平台，为数以千万计的全国学生营养午餐项目进行评估；2016年，微软提出“云惠天下”的理念，提出云技术和公益组织相互结合，并且发布了支持AI辅助视觉的智能眼镜；2017年，微软又提出AI for Earth（地球人工智能）的计划；2018年，微软号召百家公益组织推动“AI for Good”人工智能向善，同年语音团队通过讲话人自适应技术，对听障人士不标准的发音进行识别，转换成文字并翻译为其他语言，让听障朋友可以用各种语言无障碍交流。2019年，微软对红丹丹的心目图书馆进行了再次升级。

这一次，微软要用科技的力量帮助视障群体成就不凡
2019微软骇客松“红丹丹”项目成员

一路走来，微软始终在借助科技的力量消弭着全球的数字鸿沟，将技术门槛做低，实现技术的普及化。“我们的语音技术，包括TTS技术、ASR自动语音识别技术，只要能够帮助到每个人我们都会去做，这里面有很多比如帮助渐冻症患者保存他们的声音、帮助有阅读障碍的人读书、帮助有听障的人，调整他们说话的声音，我们能做到的会越来越多。”就像丁秉公所说的，“我们希望以各种各样的形式帮助到世界上的每一个人，微软所说的‘每个人’意味着所有的人，包括普通人，也包括一些有障碍的人，微软的愿景就是帮助世界上每个组织和个人成就不凡。”