(资料图片)
巴塞罗那超级计算中心-国家超级计算中心(BSC-CNS)和加泰罗尼亚理工大学(UPC)的研究人员开发了一种工具,用于研究自动手语翻译,该工具使用人工智能来打破一些常见的沟通障碍由聋人和听障人士使用。
尽管Alexa和Siri等语音识别技术取得了进步,但手语仍未包含在这些越来越多地出现在许多家庭日常生活中的应用程序中。这给依赖手语作为首选交流方式的人们与技术交互和访问专为口语设计的数字服务设置了障碍。
这种新的开源软件的开发是朝着使所有人都能无障碍地进行通信迈出的重要一步。为此,BSC和UPC的研究人员结合了计算机视觉、自然语言处理和机器学习技术来推进自动手语翻译的研究,这是一个复杂的问题,部分原因是世界上手语的多样性和数量众多。
该系统仍处于试验阶段,使用名为Transformers的机器学习模型,该模型是ChatGPT等其他人工智能工具的基础,可将视频格式的整个手语句子转换为文本格式的口语。它目前专注于美国手语(ASL),但只要所有必要的数据都可用,它就可以适应任何其他语言,即,有一个包含平行数据的语料库,其中每个手语句子(视频格式)都有一个相应的口语翻译(文本格式)。
“开发的新工具是BSC和UPC之前发布的名为How2Sign的出版物的扩展,其中需要训练模型的数据(超过80小时的视频,美国手语翻译员翻译视频教程,如烹饪食谱或DIYtricks)已发布。有了这些数据,该团队开发了一种新的开源软件,能够学习视频和文本之间的映射,”BSC和UPC的研究员LaiaTarrés说,他将新模型的发布介绍给恰逢全球无障碍意识日的庆祝活动。
迈向真正的应用
研究人员表示,这项新工作是朝着正确方向迈出的一步,但他们也强调,仍有很大的改进空间。这些是第一批结果,目前还不允许创建具体的应用程序来为用户提供服务。目的是继续努力改进该工具并获得真正的应用,以促进为聋人和重听人创造无障碍技术。
该项目已经在马德里的FundaciónTelefónica空间展出,作为“代码和算法。计算世界中的感知”展览的一部分,BSC的显着存在汇集了与人工智能相关的不同项目。它也将很快在巴塞罗那当代文化中心(CCCB)展出,作为将于10月开幕的人工智能大型展览的一部分。
“这种用于自动手语翻译的开放工具是对专注于可访问性的科学界的宝贵贡献,它的发布代表着朝着为所有人创造更具包容性和可访问性的技术迈出的重要一步,”Tarrés总结道。