康奈尔大学的一名研究人员开发了一种声纳眼镜,可以在不说话的情况下“听到”你的声音。当您无声地命令它暂停或跳过音乐曲目、无需触摸手机即可输入密码或无需键盘即可在 CAD 模型上工作时,眼镜附件使用微型麦克风和扬声器读取您所说的话。

研究人员制造了声纳眼镜可以跟踪面部运动以进行无声交流

康奈尔博士 学生 Ruidong Zhang 开发了该系统,该系统建立在团队使用无线耳塞创建的类似项目的基础上——以及之前依赖摄像头的模型。眼镜形状因素消除了面对相机或将东西放在耳朵里的需要。“大多数无声语音识别技术仅限于一组选定的预定命令,并且需要用户面对或佩戴相机,这既不实用也不可行,”康奈尔大学信息科学助理教授 Cheng Zhang 说。“我们正在将声纳移动到身体上。”

研究人员表示,该系统只需要几分钟的训练数据(例如,阅读一系列数字)就可以学习用户的语音模式。然后,一旦它准备好工作,它就会在你的脸上发送和接收声波,感知嘴巴的运动,同时使用深度学习算法实时分析回声剖面,“准确率约为 95%”。

该系统在将数据处理(无线)卸载到您的智能手机的同时执行此操作,从而使配件保持小巧且不引人注目。当前版本的声学传感电池续航时间约为 10 小时。此外,没有数据会离开您的手机,从而消除了隐私问题。“我们对这个系统感到非常兴奋,因为它确实在性能和隐私方面推动了该领域的发展,”Cheng Zhang 说。“它体积小、功耗低且对隐私敏感,这些都是在现实世界中部署新的可穿戴技术的重要特征。”

在考虑潜在的现实世界用途时,隐私也会发挥作用。例如,张瑞东建议在安静的图书馆中使用它来控制音乐播放控件(免提和免视),或者在标准选项无法使用的嘈杂音乐会上口述信息。也许它最令人兴奋的前景是有某种语言障碍的人使用它来无声地将对话输入语音合成器,然后语音合成器会大声说出这些话。

如果事情按计划进行,总有一天你可以拿到手。康奈尔大学未来交互智能计算机接口 (SciFi) 实验室的团队正在探索使用康奈尔大学资助计划将该技术商业化。他们还在研究智能眼镜应用,以追踪面部、眼睛和上半身的运动。“我们认为玻璃将成为了解人类日常活动的重要个人计算平台,”Cheng Zhang 说。