封面新闻记者 邵萌
北京冬奥会正如火如荼进行,然而,通过画面、解说等形式欣赏赛事直播,对听障人群来说却是件困难的事。据全国第二次残疾人抽样调查数据,中国有超过2700万名残疾性听力障碍人士。如何让“无声世界”淋漓尽致感受北京冬奥会的赛事盛况?采用我国首个超大规模智能信息模型和虚拟数字人技术,为听障人士打造了“冬奥手语播报数字人”。
封面新闻记者注意到,大屏幕上,一位身着红色西装,扎着丸子头的女性数字人手指翻飞,根据主持人的语音将冬奥赛事同步播报。
据悉,“冬奥手语播报数字人”系统基于“悟道2.0”大规模智能模型,由北京市科委、中关村管委会支持,智谱AI、凌云光和北京广播电视台联合打造。智谱AI高级副总裁左家平表示,“悟道2.0”类似于一个存储了1.75万亿条知识的大脑。基于这个虚拟数字型的大脑,研发出了我国首个原创虚拟学生“华智冰”,在此基础上,又打造出“冬奥手语播报数字人”。
左家平称,“冬奥手语播报数字人”系统完成了《国家通用手语词典》收录的8214条通用手语的采集和录制,并且语法都以听障群体习惯打法为准,以确保更好地服务听障人群。由于当前国内缺少较完善的手语语料数据,研发人员邀请超过40余位聋人老师及手语专家进行手语文本转写和技术指导,并进行大范围听障群体评测,最终构建了符合国家通用手语规范的国内最大规模多模态手语语料库,词汇及语句总规模超10万。
除了丰富的语料库之外,如何让手语速度在跟得上播报速度的同时,实现高精度、高自然度的手语动作姿态是一大问题。冬奥手语播报数字人项目技术负责人杜冀中介绍,系统以超大规模预训练模型为核心技术,通过语义蒸馏及手语翻译快编模型,实现对新闻播报语音进行精简,并翻译成符合手语习惯的语序。研发团队还自主搭建了多模态肢体动作、表情、手指同步采集系统。通过采集多模态动作捕捉数据,运用跨模态拟人生成算法对超写实数字人进行自然、流畅的驱动和渲染,实现对文本内容的手语播报。
据悉,除了便捷听障人士收看赛事专题报道,手语播报数字人的推广将加速国家通用手语推广落地,推动国家通用手语标准普及。技术团队透露,后期该数字人有望在电视台、机场、银行等场景推广,为残疾人平等参与社会生活创造无障碍环境,让科技更有温度。