专访嘉宾
高小榕
清华大学医学院生物医学工程系教授
(资料图片)
1986年获浙江大学学士学位。1989年获北京协和医科大学医学硕士。1992年获清华大学博士学位,之后在清华大学任教,先后担任讲师、副教授、教授、长聘教授。2004年入选清华大学“学术新人奖”。2019年中国心律学杰出贡献奖。中国生物医学工程学会医学神经工程分会候任主委。
从事脑机接口研究20余年,提出并实现了基于稳态诱发电位的脑机接口技术,并引起国内外多方面的重视,该技术表现为传输率高和可识别目标多,成为脑机接口主要范式之一。已发表学术论文百余篇,Google学术学术检索引用次数超13600次,2014年~2021年连续八年入选爱思唯尔中国高引学者榜,微软学术脑机接口领域全球影响力排名第11名。
请简单介绍一下您目前正在从事的研究。
高小榕:脑机接口的研究一直是我主要的研究方向。我们清华大学神经工程实验室做脑电图的研究已有30多年,到1998年真正开始做脑机接口的研究。当时个人计算机(personal computer,PC)非常火热,我们想解决残疾人如何使用个人电脑的问题,于是开始设计基于眼脑协同的鼠标,也就是不用手而只需要用眼和脑电图就可以操控鼠标,这也是我们做脑机接口研究的初衷。
这项研究最终于1999年发表了第一篇文章,2000年开始申请专利,2006年美国专利成功申请下来,此后我们基本上一直在做脑机接口相关的工作。我们主要从事的是视觉脑机接口,使用的技术叫稳态视觉诱发电位的脑机接口技术。
基于脑电稳态诱发响应的控制装置专利信息
什么是基于稳态诱发电位的脑机接口技术?它的优点有哪些?
高小榕:在从事脑机接口之前我们做过视觉诱发电位的研究,后来就叫脑机接口。当时我们做这个项目时还不知道这个技术叫脑机接口,即使到2006年申请美国专利的时候,也没用BCI(Brain Computer Interface,脑机接口)这个词,因为脑机接口对当时的广大研究者来说,都是很陌生的一个词,我们用“感觉相关的脑电活动”这样一个词来申请的专利,所以即使现在多数做脑机接口研究的人员做专利检索的时候,都查不到我们这个专利。
什么是稳态视觉优化电位呢?如果我们给视觉一个固定频率的刺激,在大脑就能检测到跟频率相关的信号,比如给一个7赫兹的刺激,我们就能在大脑检测出7赫兹、14赫兹、21赫兹这样跟7赫兹相关频率的脑电信号。如果脑电的检测转换为频率分析,一下子降低了信号检测的难度。但是要实现脑机接口,上述7赫兹可以代表一个按键,不同的频率同样可以分别代表不同的按键。当时我们用6个频率分别代表上下左右,其中各有2个频率代表左键和右键,所以用6个频率就可以实现对鼠标的操作,这就是最初的稳态视觉诱发电位脑机接口。
我们从事的稳态视觉诱发电位脑机接口属于无创脑机接口。实际上脑机接口方法有几十种,但最终流行下来的无创主流范式大概只有三个:一是稳态视觉诱发电位SSVEP脑机接口,二是想象运动MI脑机接口,还有一个P300信号的脑机接口。在这三个主流范式里,SSVEP是速度最快、目标数最多、具有响应特点的脑机接口,在传输率上是最快的,这是它的优势。这就是稳态视觉诱发电位脑机接口研究的特点。
您的团队研发了一系列视觉脑机接口系统,为什么选择视觉作为研究BCI的方向?
高小榕:因为我们之前一直做视觉诱发电位的临床方面的研究,所以我们对视觉比较熟悉。此外,人类收到的大部分信息主要还是来自视觉,只有大概10%以上源于听觉和体感。在脑区的功能分布上,大脑枕区是视觉专属的区域,颞区、顶区和前额也都与视觉相关,与视觉功能相关的脑区占大脑85%的区域。所以当我们在大脑中提取信号时,视觉信号会更强,以视觉相关的这些研究可能会更方便。
其次,大脑有选择注意性,所以靠眼动就可以很快切换注意的选择。如果要做听觉或体感,注意的选择切换就会要弱一些。而我们又专门有眼动来负责视觉的注意,所以做视觉时很容易让人专注,提高响应强度。即使眼球不能动的这些人,通过注意力调制的脑机接口,我们都可以把视觉脑机接口检测出来。而且在视觉诱发的时候,无创检测非常容易,信噪比比听觉要高得多。这是为什么选择视觉诱发电位的脑机接口的原因。
目前的BCI最高通讯速率为5bit/s,人类语言交互速率为40bit/s,BCI需要多久才可以达到人类语言交互的速率,甚至超越人类?摩尔定律适用于BCI吗?
高小榕:做脑机接口的时候,我们把大脑模拟成一个信道,信道的输入是我们的意念和想法,输出的是我们对计算机的控制,我们的意念在大脑里产生响应,这些响应被计算机检测出来就可以实现输出,所以它是通讯系统的输出。
脑机接口通讯速率大概是在2005年是第一次被报道出来,美国科学家Wolpaw在2000年的综述里给出了脑机接口的信息传输率(Information Transfer Rate,ITR)公式,到2005年才有第一篇文章给出具体数值,当时报道的传输速率是1-2 bit/min,当时用的单位是bit/min,比现在的bit/s要低60倍。
DOI: 10.1109/TRE.2000.847807
2005年以后,随着技术的逐步进步,通讯速率增长的斜率大概是每10年翻四番,我把这种增长比喻成一个脑机摩尔定律,实际上它也依赖于摩尔定律。我们之所以能有这种增长,是因为计算机处理的速度在增加。随着计算机性能的提高,我们能够检测更低的信号,但脑机接口的增长速度要比计算机的摩尔定律慢,计算机每18个月翻一番,我们大概是三年多才翻一番。
现在脑机接口的传输速度已经达到5 bit/s,如果打英文字符,我们有32个键,32=25,也就是5个bit,假设一秒钟打一次,大概是5bit/s,这个速率大概是手机触屏速度的一半。但这个速度还将继续增长,估计再过20年,应该能够达到语言的通讯速率(40bit/s),这是我期望的交流速度。如果再比这个再快,我们就可以用脑机接口实现比语言更快的交流,这是我们的愿景。
如何解决BCI的两难问题——有创BCI存在感染风险,而无创BCI感知脑电信号的能力太弱?
高小榕:这个问题确实是存在的,可以将它比喻成爬珠峰,爬珠峰有两条路线,一个是南坡,一个是北坡,这是两个完全不同的技术路线,但这两个都有各自的特点和特色。如果以通讯速率来评价我们攀登珠峰的高度的话,实际上无创脑机接口报道的速率比有创接口报道出的速率要高一点。无创技术在大人群、大样本测试出的是每秒5个bit;斯坦福大学报道出的有创方法能够达到大概2~3个bit。
我们常将大脑信号的检测比喻成要听礼堂内讲话,一种方法是把麦克风放进礼堂内,一种方法是在礼堂周围布满麦克风。我们在礼堂外面听不到里面的信息,是因为有墙相隔,如果在墙上打一些洞,把麦克风装在墙洞上,我们也能够听到信息。所以现在我们提出了一个概念叫微创无植入,用微创的办法改造大脑颅骨,这是介于有创和无创之间的道路,它和无创一样都没有植入,依然能够把信息获取出来。
实际上脑机接口要把电极植入大脑里是非常困难的,面临着三座大山。
第一座大山叫物理的山,我们现在都是以硅为核心做处理,硅是世界上最硬的材料,而脑是人体里最软的组织(除去作为液体的血液),这两者的硬度如果用物理上的杨式模量来说的话,相差106~108个量级。我们需要找到一个能够把一根针立在豆腐上的方法。
第二座山叫做生物兼容性。我们把一个物体植入人体组织里,人的免疫系统会发生排斥,从而引起感染的风险。
第三座山是信息的山,将接口植入脑内以后,收到的信息量是非常巨大的,如何将海量的信息解读出来同样是一大难题。
所以,我们面临的问题是怎么翻越这三座大山,用什么办法来翻越,而有创和无创的方法是两个不同的技术路线。
现在还绝对不能说谁优谁劣。由于马斯克选择的是有创的办法,有些人就存在误区,认为有创的办法一定是脑机接口的正确路线。但是我认为无创和有创是两个完全不同的技术思路,都可以实现脑机接口的研究,特别是我们要想在一些功能增强方面,不是给病人植入,而是给正常人实现功能增强,可能无创的办法比有创的办法更被大家所接受。有创BCI和无创BCI两者平行向前发展,不太可能出现谁最终占优取代了另一种的情况。
到现在南坡和北坡这两个技术路线还没有关联,但是我们快爬到珠穆朗玛峰峰顶的时候,南坡和北坡的这两个登山路线可能会出现融合趋势,尽管现在还没有。
您觉得最后站在峰顶的会是哪一种?
高小榕:站在峰顶的一定是以无创为主,它更适用于大人群。如果有两种方法,一个在大脑外面随时可以摘下来,一个是在脑子里面,使用之后不能摘下来,并且这两个的使用性能是一模一样,大家肯定选择在外面的。如果性能差10倍、100倍性能,人家可能都还会选择放在外面,只有出现极大的差异,才可能有这样的动力,将外物植入大脑里。
实际上还存在一些伦理问题。打个比方,把一个手机塞到大脑里,如果想切换供应商或者换手机,我们就无法做到,会存在一些我们无法预测和改变的问题。
目前的BCI都是单向通讯,实现双向脑机通讯的瓶颈是什么?什么时候可以实现双向脑机通讯?
高小榕:最开始应用的脑机接口是写入的,比如电子耳蜗就是一个脑机接口,在听力障碍的人群中,把电信号直接写到大脑里。但现在主要用的是单向读出的方式,是因为会受到伦理的限制。当我们读出东西时,人是主动的,产生的信号对外可控;而写进去的信号是不可控的,如果有黑客或通过其他手段在信息里加入一些声音到电子耳蜗,这就能够控制你能够听到哪些不能听到哪些,这是很危险的。
对于双向脑机接口,我一直说写入型的脑机接口的研究要非常慎重,只有在极其特殊的情况下是需要的。多数情况下只需要人能够主动控制这种读出的脑机接口。在进行写入之前,必须具有可擦除技术,写进去之后能够把它擦除掉,才能够进行写入研究。要先有橡皮,而不是先有铅笔,否则在大脑里进行是有伦理风险的。所以更多的还是受到伦理的限制,从技术角度来说并不是特别难了解。
BCI可以增强人体机能,包括运动功能、感知功能、认知功能等。其中认知功能的增强,它可以超越目前人类的认知吗?会不会达到我们人类无法企及的高度?
高小榕:增强分成两大类,如果将正常人的功能比作100%,而像渐冻症患者、听障人士他们是低于100%,帮他们增强功能,这是医学康复问题,我们可以实现运动功能增强、感知功能增强、认知功能增强等等。但是如果对于已经是100%的正常人,帮他成为在视觉、听觉、智力等方面远超普通人的“超人”,这就会失去社会的公正性,要受到伦理的限制。特别是如果这种技术被少数人垄断,那就更危险了。对100%的普通人,除非在特殊情况下,比如在极端特殊的情况下,在战场上我们想做一个超级战士,能够实现一些特殊的功能,这是可能有局部的应用场合的。但总体来说,应该受到限制。
但所有的功能增强都可以超越人类,这是肯定的。
BCI可以帮助AI打造一个以人为中心的智能体系,这种智能体系对于人的存在形态会产生怎么样的影响?
高小榕:AI的目的是为人服务,这点是大家一定要非常明确的。
中国有句话叫“仁者见仁,智者见智”,常规理解是每个人有自己的不同看法,但用字面含义延伸一下,AI是帮助我们“见智”的事,但是我们“见仁”的事,我一直把它称为价值问题,AI是解决不了的。我们要把人的价值、人的“智”赋予AI,这个系统才是“仁智双全”的系统,否则不具备人道德的仁义性能,这个“智”是危险的。
未来所有的智能系统必须有人能够控制它的开关,或者能够把人的意愿和价值理念传递给它,这个智能系统才能在社会上运行。
是给智能体系加上了道德规范吗?
高小榕:我们都说想把道德规则写入程序里,也就是道德物化,但实际上在人类中间还没有一个完全能够写成条文的道德体系,如果人聪明到能把所有的道德体系都写成条文,就不会有战争和一些不合理的事情了。最终还是需要人来做判断。
您在NeuS新脑论坛中提到了元宇宙概念,元宇宙和BCI都是近期广受关注的话题,它们之间存在什么联系?有人说BCI是元宇宙的终极形态,对此您怎么看?
高小榕:元宇宙的出现是因为我们在技术上实现了近眼显示。
我将显示技术分成三大类,一类叫远身显示,即离我们的身体非常远,跟人的身体没有接触。从露天电影的屏幕再到电视屏幕,这种量级都是远身显示。第二类是近身显示。从远身显示到近身显示、可触显示走了大概几十年。我们现在的屏幕包括电脑屏幕、iPad屏幕、手机屏幕都是近身显示,在我们的视觉手可触及的范围之内。现在又出现了叫近眼显示技术,这又是一个新时代的开始。这项技术能够把显示做到眼前,直接戴在眼睛上就可以呈虚像显示。
上世纪70年代以前都是远身显示,70年代到现在的50年里是近身显示蓬勃发展的时期,近身显示还是基于键盘、鼠标这些可触摸的操作,但是近眼显示技术由于不能在眼睛上进行触碰,如何进行操作、交互是一个很大的问题。现在,在操作过程中唯一能够支持近眼显示的现有技术只有脑机接口,或者眼动的交互模式。
从交互角度来说,元宇宙是需要近眼显示技术的。元宇宙只是近眼显示的一个应用方面,近眼显示技术会比元宇宙的应用范围大得多。
在元宇宙里,我们要集成什么样的技术?我认为是 “四联”技术,元宇宙必须实现“四联”才能够让人家感觉到它的优越性。
第一个联叫互联,即信息必须能够互通。
第二个联叫价联,就是价值连接,在我这里显示好的东西在另外一个人那边也应该显示是好的,才可能实现价值供需平衡,价联的基础技术就是区块链技术。
第三个联叫境联。视觉的境界、听觉的境界、触觉的境界、嗅觉的境界,将人的这些感官连接起来。比如说,两个互联的人,在不知道对方物理空间位置的前提下,在元宇宙里双方见到的大海、海里的鱼应该有相似的特征。这是环境的连接,境联基于VR(Virtual Reality,虚拟现实技术)和AR(Augmented Reality,增强现实技术)技术。
光有了这三个联还不够,还要有灵联,也就是我们的灵魂、思想,能够通过这个技术很快地传递。比如说我高兴了,在你那显示出来的我的数字替身也应该表现出高兴,这种情绪和灵魂的连接能够让对方感觉到。灵联技术的技术基础是脑机接口,但它可能比脑机接口更宽泛一些,它的核心是要从大脑提取信号,把我的喜怒哀乐分析出来传递给你,我想说的话也可以传递给你,这叫灵魂的连接。
这样元宇宙才丰满起来,才是达到让人可以接受的一个状态。所以我认为元宇宙必须具备这“四联”。现在的元宇宙只有三联,就已经碰到了很多的问题,比如如何进行交互、交流。元宇宙最终形态是什么样的现在还很难说,但至少需要这四个点才能够实现元宇宙技术,否则肯定会被抛弃。
嘉宾:高小榕 | 采访、校对:Gliese
排版:Sheryl | 插画:Ines、N3 Design