人工智能可以从大脑活动中解码单词和句子,其准确度令人惊讶——但仍然有限。仅使用几秒钟的大脑活动数据,人工智能就可以猜测一个人听到的内容。研究人员在一项初步研究中发现,它在73%的时间内列出了其前10种可能性中的正确答案。

人工智能可以以惊人的准确性从大脑活动中解码语音

人工智能的“性能超出了许多人在现阶段的想象”,都柏林三一学院的计算机科学家GiovanniDiLiberto说,他没有参与这项研究。

研究人员于8月25日在arXiv.org上报告说,由Facebook的母公司Meta开发的人工智能最终可用于帮助世界各地成千上万无法通过语音、打字或手势进行交流的人。这包括许多处于最低意识、锁定状态或“植物人状态”的患者——现在通常被称为反应迟钝的觉醒综合症(SN:2/8/19)。

大多数帮助此类患者交流的现有技术都需要进行冒险的脑部手术来植入电极。这种新方法“可以提供一条可行的途径来帮助有沟通障碍的患者……而无需使用侵入性方法,”目前在巴黎高等师范学院担任元人工智能研究员的神经科学家Jean-RémiKing说。

King和他的同事训练了一种计算工具来检测来自53种语言的56,000小时语音录音中的单词和句子。该工具,也称为语言模型,学会了如何在细粒度层面(比如字母或音节)和更广泛的层面(例如单词或句子)识别语言的特定特征。

该团队将具有这种语言模型的AI应用于来自四个机构的数据库,其中包括来自169名志愿者的大脑活动。在这些数据库中,参与者听取了欧内斯特·海明威的《老人与海》和刘易斯·卡罗尔的《爱丽丝梦游仙境》中的各种故事和句子,同时使用脑磁图或脑电图扫描人们的大脑。这些技术测量大脑信号的磁或电成分。

然后,借助一种有助于解释实际大脑之间物理差异的计算方法,该团队尝试使用每个人仅三秒钟的大脑活动数据来解码参与者听到的内容。该团队指示AI将故事录音中的语音与AI计算出的与人们听到的内容相对应的大脑活动模式对齐。然后,在给出1000多种可能性的情况下,它会预测该人在那段短时间内可能听到的内容。

研究人员发现,使用脑磁图或MEG,正确答案出现在AI的前10个猜测中的概率高达73%。使用脑电图,该值下降到不超过30%。“[MEG]的性能非常好,”DiLiberto说,但他对其实际应用不太乐观。“我们能用它做什么?没有什么。绝对没有。”

他说,原因是MEG需要一台笨重且昂贵的机器。将这项技术引入临床需要科学创新,使机器更便宜、更易于使用。

了解本研究中“解码”的真正含义也很重要,密歇根大学安娜堡分校的语言学家乔纳森·布伦南(JonathanBrennan)说。这个词通常用来描述直接从源头破译信息的过程——在这种情况下,是来自大脑活动的语音。但人工智能之所以能做到这一点,只是因为它获得了一个有限的可能正确答案列表来进行猜测。

“对于语言,如果我们想扩展到实际使用,那不会削减它,因为语言是无限的,”布伦南说。

更重要的是,DiLiberto说,人工智能解码了参与者被动收听音频的信息,这与非语言患者没有直接关系。为了让它成为一种有意义的交流工具,科学家们需要学习如何从大脑活动中解密这些患者想要说的话,包括饥饿、不适或简单的“是”或“否”的表达。

金表示,这项新研究是“语音感知的解码,而不是生成”。尽管语音制作是最终目标,但就目前而言,“我们还有很长的路要走。”