我和机器人居然成了homoAR

我是作者艾韬,现任深圳市易瞳科技的CTO。我毕业于多伦多大学,拥有计算机工程专业的学位。多年来,我一直跟随着“世界穿戴电脑之父” Steve Mann教授的步伐,专注于智能眼镜的基础研究。 在不久之前,围绕AI下围棋的一则新闻引起了全球轰动,第一次有围棋AI战胜了职业选手。然而,就像当年被“深蓝”打败的国际象棋大师Garry Kasparov所说的那样,围棋AI战胜职业选手,并不意味着电脑在象棋领域取代了人类。AI再聪明,它也取代不了人。我深信,未来最终取代人脑的不是电脑,而是“人脑+电脑”。下一位象棋或围棋大师,既不是人也不是电脑,而是最懂得如何使用计算机分析棋局的人。我是一个Cyborg(赛博格),我相信计算机,并且能和计算机兼容,这就是我们这个人机共生体所实现的不是AI,而是HI。 在我的上一篇概念篇文章《神奇的虚实世界:关于你可能还不那么了解的智能眼镜》中,我向大家介绍了智能眼镜的一些概念,基本上囊括了所有重要的知识点。智能眼镜的形态是我现在正在做的事情。但我认为,比“做什么(What)”和“怎么做(How)”更为重要的是“为什么(Why)”。这是一个框架,也代表了一个愿景,更甚至是一个核心。 因此,今天我要向大家介绍的是Humanistic Intelligence(HI),由穿戴电脑之父Steve Mann教授于上世纪90年代提出。在电子科大的陈东义老师(国内最早研究穿戴电脑的学者)的笔下,HI被翻译成了“人文智能”。HI是上世纪顶尖学者的心血结晶,在过去的30多年里,智能眼镜的发展方向都以HI为指导思想。实现HI中的“人机共生”,正是我们做智能眼镜的初衷。 前年底,当我即将离开实验室的时候,实验室的名称已经从之前的“EyeTap Personal Imaging Lab(ePI Lab)”改为了“HI Lab”。去年底,我回实验室拜访教授时,他让我注意到了这一点,并向我解释了这个名称的含义。他强调,我们的目标不仅是制造智能眼镜,更是探索“为什么”的问题,这才是促使我们不断学习和提高的动力。 所以,重点不是眼镜的形态或功能,而是我们设计眼镜的目的。我们应该意识到,眼镜不仅可以帮助人们看到更多的事情,更可以通过HI的理念,让人们以一种更加有意义的方式去理解这个世界。在我们实验室的宣传视频中,我向多伦多大学的新生们介绍了我对HI的理解。在介绍从实验室中走出来的各个黑科技创业公司的同时,我也简要地介绍了我对HI的理解。在此之前,你们可以先看一下下面这段小视频。该视频中有翻译字幕,我将其放在了文末,如果不想观看视频,你们可以去看看字幕。 嘿,小毛衣真的不错。好了,言归正传。传统的“人机交互(HCI)”把人和计算机分开成了两个孤立的个体,它们通过各种输入/输出(I/O)设备进行交互沟通。然而,HI认为人类与计算机之间存在连续性,计算机和人脑可以被看作是一个整体,一起合作完成任务。我喜欢将HI定义成“一种重视人的因素的计算机技术”,它要求计算机技术要更好地适应人类,让人们更加舒适和愉悦地使用技术。 我认为HI的目标是让智能眼镜变得更加人性化,以帮助人们更好地与外界交流和理解信息。常见的做法是通过智能眼镜给人们反馈信息,让他们更好地了解自己的身体和环境,并提供必要的辅助和支持,让人们生活更加健康且更加方便。 总之,我相信HI的愿景是为人类创造更好的未来,让人与计算机在一个更加和谐的环境中共生并协作。下面是视频的字幕翻译:平面的交互方式对我们来说已经是家常便饭了。我们习惯使用鼠标、键盘、耳机和触摸屏来进行交互,从而传递信息。但是,HI的“人机共生”将计算机和人类视作一个整体,这个体系中计算机是人类的第二个大脑,通过辅助带着它工作的人学习并改变这个世界。因此,正如视频中所提到的,你可能觉得你在玩电脑,但实际上电脑也在“玩弄”着你。 接下来,我想和大家简单讨论一篇论文的内容。这篇论文发表于1998年IEEE期刊的封面文章中,比较系统地阐述了HI的各个方面,同时也清楚地描述了HI是如何指导智能眼镜的研发的。需要注意的是,由于我的水平有限,以下内容只是一个小工程师对一个大师思想的理解并表述,并非原著。因此,这就像我经过一段时间的消化后从肚子中吐出的半消化物,大家在品尝时要注意,对于专业的人士,建议直接查阅原文链接。HI所描述的是一种零距离的人机关系,因此要实现HI需要人与机器的紧密结合。在所有的人机交互中,智能眼镜可以将需要传递的信息量最大化。从大的方向来说,实现HI所需的系统有三种运行模式。 第一种模式是“恒定模式”,这种系统必须在持续运行(Operating)且不变化(Constant)的情况下运行。这意味着系统必须持续检测环境,并对任何变化做出快速而准确的响应。例如,在使用智能眼镜时,我们需要持续地检测设备周围环境的变化,例如头部的运动、姿态变化等,以便系统能够及时更新信息。这种模式要求系统对数据处理速度要求极高。 第二种模式是“事件驱动模式”,这种系统只有在特定的事件触发后才会运行。与恒定模式不同的是,事件驱动模式的系统通常会在完成一项任务后自动关闭,以节省能源。与智能眼镜相比,这种模式通常应用于其他类型的计算机系统,例如家电设备,只有在特定的动作触发时才运行。 第三种模式是“交互式模式”,这种模式是最灵活的,因为它要求系统能够根据用户的交互响应和变化。这种模式通常要求系统和用户保持即时、高质量的交互,例如在使用智能眼镜时,我们可以通过眨眼或口头指令来控制设备的动作。这种模式需要系统具有高度的智能和灵敏度,以便准确地识别和响应用户的指令。 综上所述,HI实现需要智能系统对人机交互的不同运行模式有深入的理解和把握。这样,才能有效地实现人类和计算机之间的完美合作。恒定模式(Operationally Constant,OC)是一个非常重要的系统模式,它可以保证系统即使在睡眠状态下也不会完全断电。我使用手机时深刻意识到OC的重要性,因为没电的手机就失去了OC,这无疑是非常令人崩溃的。除此之外,系统还必须是恒定的、持续可交互的(Interactionally Constant,IC),也就是说,它必须随时待命状态。从本质上讲,IC意味着OC,但OC并不一定代表着IC。这也是为什么苹果公司推出了iWatch的原因,因为手机虽然持续运行,但不可持续交互,无法实现IC,为了缩短“交互距离”,手机需要再多一块手表。通常情况下,人们并不总是能明确意识到恒定模式的重要性,因此大多数电子设备的“交互距离”都非常大。作为HI的基本运行模式,恒定模式是实现智能眼镜的第一步。有恒定模式的人机交互如下图所示,人与机器互相通信,共同完成任务。传统的人机交互观点通常把计算作为最主要的任务,而实现HI的观点则是把计算融入更重要的人类任务中。其次是实现第二种运行模式,即增强模式。在增强模式下,人们在使用计算机的同时还会去完成其他的事情。通常情况下,这个“其他的事情”才是人机共同体的主要任务。例如,当我们使用导航系统时,首先要开车或步行前进,不能一直盯着屏幕。因此,路径图要显示在一个方便的位置,并加上语音辅助。其次,计算机提供的所谓最短路径并不总是最优的,我们仍需要依靠我们自己的判断力来做出选择。 在实现增强模式时,需要考虑人的注意力和计算资源的有限性。因此,我们需要在计算机提供的信息和人类任务之间找到一个平衡点。例如,在智能眼镜中,显示的信息不能太多,否则会使人分散注意力。 需要注意的是,从技术角度讲,增强模式可以通过头戴式设备实现,但并不是所有人都适合使用这种设备。因此,在实现HI时,我们需要根据不同人群的需求和能力来选择合适的设备和模式,以达到最优的人机交互效果。作为一种HI模式,增强模式实际上将计算机与人类任务有机地融合在一起。这种模式下,计算机并不是最主要的任务,而是通过为人类提供辅助来达成目标。比如说,我要去接我的女性朋友,如果我不会开车,那么我就需要一个实现增强模式的系统来不断更新并重新规划路径,以保证路线的最优性。这个系统能让我在同时接受来自物理世界和数字世界的信息,同时在两个世界中与它们进行交互。 在实现增强模式后,还可以通过介导模式将人机更紧密地结合起来。也就是说,计算机不再是一个较被动地给出信息的工具,而是可以进一步通过介导来帮助我们主动构建信息。实现这种模式需要计算机具备向我们介绍物理世界和数字世界的能力,并且能利用我们的想象和推理能力来更好地适应我们的需求和任务。 通过这样的介导模式,我们就可以更加高效地利用计算机来辅助我们完成任务。不管是增强模式还是介导模式,都可以让计算机更加符合我们自身的需求,更好地和我们交互。这正是HI的最终目的之一。当计算机实现了介导模式时,它对人的输入和输出就能够无缝地连接在一起,就像人类的感知和运动那样。实际上,我们所谓的介导模式就是计算机对人的一种封装,既可以让人从现实中脱离出去,也能使人以更强的感官去感受现实。以智能眼镜为例,增强模式的智能眼镜可以让佩戴者同时看到自然光和数字光,而介导模式的智能眼镜能通过传感器采集自然光,并对数字化过后的光做出必要的调整,最后再将数字化的光通过设备还原出来。这种方式可以让佩戴者感觉自己看到的世界发生了微妙的变化,然而实际变化的只是他的感官,现实本身并没有改变。如下图所示,这种封装可以增强人的能力,并让我们更好地适应周围环境。 在实现介导模式时,我们需要在计算机输出的信息里面融入物理世界的因素。这个过程需要计算机具备一定的语义、推理和想象能力,才能够更好地适应我们的需求和任务。在这个过程中,计算机将会自动地为我们进行一些操作,并进行一定程度的自我学习和自我适应。当我们的需求和目标发生改变时,计算机也能及时地对我们的需求进行理解和适应,从而更好地为我们服务。 需要注意的是,虽然介导模式可以增强我们的能力,但是它并不会改变我们的自然和习惯。我们应该保持平衡,既要利用计算机来提高工作效率,也要注意不要依赖计算机,而是要发挥我们自身的思考能力和判断力,以实现最优的人机交互效果。对于我来说,HI的三个模式可以在一个系统中同时存在,并且这三个模式在数字化处理中都十分重要。对于人的感官来说,听觉和视觉信号都可以被数字化。然而,相比听觉,视觉信号传递的信息量更大,因此未来计算机交互的发展必然以视觉为主导。 在实现智能眼镜的三种概念(VR,AR和MR)中,虚拟现实、增强现实和介导现实的实现都必须集成这三个模式。如下图所示,当我们结合这三个模式并进行相互转换时,才能获得一个完整的HI示意图。需要注意的是,在实现这些技术时,我们应该根据不同的需求和场景来选择合适的模式,以便实现最佳的人机交互效果。 总之,HI的三种模式为计算机与人的互动提供了重要的框架,在未来的计算机交互技术中将发挥越来越关键的作用。我们需要不断地探索新的技术和方法,以实现更加智能化、人性化的计算机交互体验。当然,在进行科普时,有些细节可能不会讲到十分详细。关于系统运行中的六个基本信号流程及其作用本质,我在这里就不再赘述了。如果你能够到这里并且对这些内容感兴趣,我建议你去下载教授的原著,原著中将对下图所示的完整HI进行详细的阐述。 值得注意的是,HI的三种模式和六个基本信号流程是相辅相成的。只有当这些内容有机地结合在一起时,才能真正实现人机交互的最佳体验。因此,在使用计算机和其他智能设备时,我们不仅需要了解每个模式和信号流程的基本概念和作用,还需要掌握它们的应用场景和相互之间的联系。 总之,研究HI的三种模式和六个基本信号流程对于推进计算机科技和人机交互体验的发展至关重要。在未来的科技发展中,我相信HI将会发挥越来越重要的作用,为我们带来更加便捷、智能的计算机交互体验。最后,我想附上原著的链接和视频字幕,供大家了解更多关于HI的内容。 HI代表着Humanistic Intelligence,它是我们实验室进行各种工作的指导思想。有人问我对人工智能的看法,我认为人工智能虽然很酷,但是它毕竟是冰冷的。而在我看来,HI则是有心灵的人工智能,它的目的是为了改良一个物种。 当我们使用智能设备时,常常需要与设备进行交互。如果这种交互能够更加自然、舒适、人性化,那么我们的使用体验就会更加优质。HI的目标就是实现这样一种人机交互的最佳状态,让人与设备之间的交互更加贴近生活,更加具有人性化。 为了实现这一目标,HI把人的感知、理解、思考和表达作为人机交互的核心,将交互分为三种模式:感知-思考-动作、表达-思考-动作、和执行-反思-反馈。在这三种模式的基础上,HI还设计了六种基本信号流程,这些信号流程对于人机交互起着至关重要的作用。 总之,对于那些关心人机交互体验和智能设备发展的人来说,了解HI的概念和实现原理是非常有必要的。我相信,在未来不久的将来,我们将会看到更多基于HI技术的优秀产品和应用,这些产品和应用将会给我们的生活带来更多的便利和愉悦。我认为,HI的目标是改良人类,而不是创造一个新的物种。在HI的反馈环节中,人和计算机实际上是一个整体,相互合作实现最佳的人机交互体验。 在研究穿戴式电脑时,我们遵循的是人机共生的理念,这种理念将人和计算机看做一个整体,相互配合,共同完成各种任务。 我认为,当我们在使用计算机时,我们就像在和计算机一起玩游戏。而计算机也在“玩弄”我们,因为它们通过了解我们的行为和偏好来提供更好的用户体验。 过去,我们一直倡导培养STEM素养的人才,也就是具备科学、技术、工程和数学素养的人才。然而,这种培养方式忽视了对人的心灵培养的重要性。 教授Steve提出了DAST理论,即Digitally Augmented Social Interaction(数字增强社交互动)理论,这个理论是HI的核心,也是实现HI目标的重要手段。通过数字技术和人类社交互动的结合,我们可以实现更加自然、人性化的人机交互体验,让计算机更好地服务于人类。 总之,HI是一种从人性出发,以改良人类为目标的人工智能技术。在未来的发展中,HI将会给我们带来更加自然、人性化的人机交互体验,也将为我们的生活和工作带来更多便利和愉悦。我认为,全面教育应该包括设计、艺术、科学和技术,因为这些领域各自都有独特的贡献,可以帮助我们获得更全面、更丰富的知识和技能。 在HI实验中,我认为优秀的学生不仅需要编写没有BUG的软件,或者完成高速运算的硬件,还需要在这些领域中寻找自己真正喜欢和擅长的领域,从而让自己成为一个更全面、更出色的工程师。 我相信,在追求自己的兴趣和擅长领域的过程中,我能够找到我的契合点,并成为一个更有才华、更有创意的工程师。因此,我会在HI实验中尽心尽力,不断学习和探索,在实践中提高自己的技能,为HI的未来发展贡献力量。