商汤科技联合创始人王晓刚:大模型赋能智能汽车极致的驾乘体验

来源 | 财经网   

2023年11月23日 15:54  

本文7414字,约11分钟

11月22日,由《财经》杂志、财经网、《财经智库》联合主办的“《财经》年会2024:预测与战略”在北京举行。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在会上表示,大模型给智能汽车行业带来了巨大变革,一个是端到端的自动驾驶,另外一个是智能座舱形成了以大模型为基础的座舱大脑。驾驶和座舱将逐渐深度融合并将实现在同一颗芯片内,舱内外传感器与数据实现零拷贝和极低延时传输,最终在产品层面给消费者带来极致体验。

王晓刚指出,回顾过去几十年的发展,人工智能对算力的需求有巨大的提升。过去几十年里,我们都处在小模型的时代,样本很小、规模不大的模型参数远远大于样本和数据的供给量。但随着互联网时代的到来,我们有大量的数据,人工智能进入了大数据时代。在一个非常大量的数据的情况下,我们需要比较大的模型,有更多的参数更好地把数据的价值利用起来。

在他看来,大模型都是以巨大的算力为支撑。据其介绍,商汤对于大模型的布局在2018年就开始,当时提出在上海临港建立人工智能数据中心AIDC,并在这块累计投入超过了100亿人民币。商汤拥有的诸多行业高端芯片为公司从事大模型的研发提供了非常坚实的基础。按照明年的规划,商汤整体的算力还要增加2-3倍。“今天我们已经达到6500P的算力,到了明年我们要达到超过1万P。”

基于强大的软硬件基础设施,商汤能够支撑很多上层的大模型开发。商汤能够把4000块高端的GPU连接在一起进行高效的大模型训练,进行超过5000亿参数量规模的大模型的训练。在此基础上有了商汤日日新的大模型体系,包括语言大模型、文生图的大模型、多模态的大模型,也包括决策智能、AI for Science等。商汤也把基础设施开放给合作伙伴,今天商汤AI大装置可同时跑超过20个千亿规模的模型。

在王晓刚看来,大模型的出现,不仅仅可作为聊天和交互的工具,也成了一个强大的生产力的工具。商汤发现其大模型可以做到如工具的调用、智能体的交互、机器人的控制等。

近一年,商汤进行了一系列大模型的发布,在GPT4发布之前已经开源了30亿参数的多模态的大模型,也是当时业界开源里面最强的多模态模型。4月份发布了日日新大模型的体系,5月份的时候通才智能体取得了突破性进展,6月份语言大模型在各项评比中超越GPT3.5,6月份商汤发布了全球第一个在自动驾驶领域端到端的UniAD大模型,它统一了感知、决策、推理、规划一系列模块,在CVPR获得最佳优秀论文。商汤还将发布世界模型,用于自动驾驶环境的生成和模拟仿真等等。

具体在智能汽车领域,王晓刚认为,今天绝影智能汽车的核心业务就是驾舱云三位一体的发展,核心围绕通用人工智能、大模型。在自动驾驶领域,商汤现在已经进行量产落地的是L2+在高速领航,未来推广到城区的领航。城区的环境比高速复杂很多,在这种情况下要摆脱对高精度地图的依赖。“端到端的自动驾驶”用一个模型去驱动整个自动驾驶各个模块,实现完整的数据驱动,将是未来的发展趋势。

在大模型带来的巨大变革下,王晓刚认为智能驾驶未来技术路线的演进也逐渐清晰。过去的自动驾驶整个系统里面有感知、融合、定位、决策、规控等等很多模块,在所有这些模块里只有感知部分依赖于数据驱动,其他模块都是依靠手动的规则。UniAD的出现就实现了端到端的自动驾驶。

他进一步表示,当各个模块被一个神经网络串联进行数据驱动的时候,每个模块的性能将得到大幅提升。过去智能驾驶有各种传感器,包括激光雷达、摄像头等等,未来将以视觉为主,大幅降低成本。第二,摆脱对高精度地图的依赖,使自动驾驶实现的范围更广,成本更低,且不依赖于高精度地图的更新。第三,能够做到可解释性、安全可靠、可迭代性强。

王晓刚还在演讲中展示了一个最新的工作,首个应用于驾驶决策规划的智驾多模态大模型DriveMLM。通过输入各种类型的信息,模型可以给出自动驾驶做每一步决策和操作时背后的逻辑和推理的原因,即以自然语言的方式去解释自动驾驶的行为。这也就说明,今天自动驾驶对我们来说不是一个黑盒,而是清晰知晓其背后的逻辑。

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁 王晓刚

基于多模态大模型,他表示还可打造世界模型。“世界模型”可以通过大模型生成各种在自动驾驶场景下非常接近于真实的视频及各种传感器的输出。通过自动地产生模拟的环境等,对于自动驾驶技术的训练、测试、迭代都会有极大的推动作用。

除智能驾驶外,他还谈到,汽车板块语言模型的核心就是座舱大脑,将来基于此构建AI的操作系统,多模态的大模型可以把舱内外各种不同类型的传感器进行融合,全方位地感知乘客和驾驶员的需求。未来在座舱里面,从APP的自动触发去激活大模型,到大模型通过感知客户乘客的需求,主动进行场景的触发,提供主动的专业化的服务,将来车内大模型无处不在,形成非常好的跟用户交互的体验。

在大模型时代,智能汽车能够实现人车的交互、人机的共驾。我们期待在自动驾驶里面,大模型能够成为安全可靠的“老司机”,它能够去学习各种驾驶行为和驾驶风格,在座舱里,全方位地感知乘客和驾驶员的需求,成为暖心和懂我们的好管家。

以下为部分发言实录:

各位专家,各位嘉宾,下午好,这个论坛的主题是突破和应用,2023年通用人工智能和大模型是行业里最重要的突破之一,今天非常有幸和大家分享通用人工智能能够给智能汽车领域带来的一些变化和发展机遇。

回顾过去十年人工智能的发展,十年前它是以人工智能突破人的肉眼、人的认知的工业红线为起点。2014年商汤首次在面部识别领域,突破肉眼的识别率,诞生了商汤科技,从此以后一批AI的应用陆续落地。但它同时也有一个问题,在过程当中需要针对每一个任务,对模型进行针对性的训练。

今天你要问我这样的任务能不能完成,往往回答都是可以,但是我要重新采集训练样本,花比较长的时间再去开发AI的系统。过去的几年里我们做过一个统计,商汤这种商业化的模型输出超过3万多个,这里面也意味着比较多的定制化,能力受到限制。到了2022年底ChatGPT的出现,极大改变了人工智能的范式,基于一个非常强大的通用的基模型,可以完成很多通用的开放式的人工智能的任务,对于人工智能大规模的推广有非常重大的意义。

回顾一下过去几十年的发展,人工智能对算力的需求有巨大的提升。过去几十年里,可以说我们都处在小模型的时代,样本很小、规模不大的模型参数远远大于样本和数据的供给量。但是后面随着互联网时代的到来,我们有大量的数据,人工智能进入了大数据时代,这个阶段反了过来,我们是在一个非常大量的数据的情况下,我们需要用比较大的模型,有更多的参数更好地把数据的价值利用起来。

2012年AlexNet、深度学习的出现,对算力的需求带来了巨大的提升。从AlexNet到Transformer,算力需求增加了100倍,从Bert到GPT-4又有上千倍算力的增加。特斯拉今天有14000块GPU用于自动驾驶,到明年年初的时候它的算力规模会增加到10万块,谷歌、OpenAI背后亦都是以巨大算力作为支撑。

大模型的爆发始于2022年底,但商汤对于大模型的布局在2018年就开始。2018年总部移到上海的时候,我们提出这样一个诉求,在上海的临港建立人工智能的数据中心AIDC,那个时候大家不太能够理解作为一个算法的公司为什么有这样的投入去建立比较重的基础设施,我们累计这里面的投入超过了100亿人民币。商汤拥有的诸多行业高端芯片为公司从事大模型的研发提供了非常坚实的基础。按照明年的规划,商汤整体的算力还要增加2-3倍。“今天我们已经达到65000P的算力,到了明年我们也要超过1万P。”

基于强大的软硬件基础设施,商汤能够支撑很多上层的大模型开发。商汤能够把4000块高端的GPU连接在一起进行高效的大模型训练,进行超过5000亿参数量规模的大模型的训练。在此基础上有了商汤日日新的大模型体系,包括语言大模型、文生图的大模型、多模态的大模型,也包括决策智能、AI for Science等。商汤也把基础设施开放给合作伙伴,今天商汤AI大装置可同时跑超过20个千亿规模的模型。

2019年,商汤发布了首个10亿参数的感知大模型,2022年发布了彼时世界上最强的320亿参数的感知大模型。此外商汤生成式的大模型包括语言大模型、文生图的大模型、多模态的大模型,包括决策智能、AI for Science等,所有这些都是基于软硬件基础设施的。过去几个月我们有超过500人的研发团队聚焦在大模型的研发,超过10亿参数规模的模型在我们的设施上跑过了超过1000次,百亿参数量规模的模型我们的训练次数超过100次。正是针对这些中等或小一点的模型反复的训练、试错,在这个过程中积累了大量的know how,帮助我们针对千亿规模的参数有比较好的成功的训练。

今天看到大模型的出现,不仅仅作为聊天和交互的工具,也成了一个强大的生产力的工具。大模型可以做到工具的调用、智能体的交互、机器人的控制……。今年5月份,我们基于语言大模型发布了通才智能体,这个通才智能体可以比较好地做决策和任务中长短期的规划。因为之前大家有一个认知,认为人工智能能够比较好地完成一些规则比较清晰的任务,比如围棋Alpha Go。但对于开放式的任务,对它的挑战性就比较高。对于我们的通才智能体,我们做了这样一个实践,在《我的世界》的游戏里面,有262个开放式的任务。游戏中需要从非常原子级的元素组合成物体,组成建筑物,从而构建整个世界,这里面有262个开放式的任务,过去的几年里如DeepMind、OpenAI用强化学习完成这些任务的时候总共只解锁了78个任务。商汤基于语言大模型实现对262个任务的全部解锁,为将来机器人、自动驾驶等提供了非常广阔的空间,能够看到大模型与决策任务的规划展现出来的强大实力。今天我们的模型真正地成为AI操作系统AI的大脑,它能够调用其他的工具、函数、第三方插件,包括代码的生成。

给大家举一些例子。第一块展示了多模态的大模型,之前我们用比较多的视觉模型的时候只能完成几个特定的视觉任务,今天我们有了多模态的大模型,我们可以针对图像、视频定义任何的任务,问它任何的问题,它都能够给我们丰富的答案。比如这是一些交通的场景、自动驾驶的场景,自动驾驶面临着非常复杂的场景要做出决策和判断,这里面大模型就能够帮助自动驾驶的系统做出合理的决策,区分不同的场景。在这张图里面,结合这个图片中间白色的小轿车周围的环境,给出它应该有的驾驶的决策并作出解释。我们的模型给出的反馈,前方有红灯,有行人在穿行,前方有车辆在同行,左右有静止的车辆,后面有救护车的出现,应该做出避让救护车,让救护车先行。在这样的场景中,我们算法最终给出的建议是向左侧变道,让出当前的车道。在这样一个复杂的环境当中,有很多种因素构成的情况下,我们的大模型会给到自动驾驶系统一个比较合理的决策。这些很难用基于现有的手动规则,去书写自动驾驶的决策逻辑,对它们来说是很难完成的。又比如,问去黄石东路应该怎么走?根据图片,现在是白天,前方有车辆的行驶,周围有蓝色、白色的路标,根据路标信息去黄石东路的时候应该保持左侧车道的行驶。在没有高精度地图的时候,人可以经过视觉的输入作出判断,今天有了大模型的出现,也可以在没有高精度地图的指引下能够帮助我们做出这样的判断。

近一年,商汤发布了一系列大模型,在GPT4(多模态大模型)发布之前我们在今年3月已经开源了30亿参数的多模态的大模型,也是当时业界开源里面最强的多模态模型。今年4月份发布了日日新大模型的体系,5月份的时候通才智能体取得了突破性进展,6月份语言大模型在各项评比中超越GPT3.5,6月份我们也发布了全球第一个在自动驾驶领域端到端的UniAD大模型,它统一了感知、决策、推理、规划一系列核心要素,实现了第一个大模型,在CVPR获得最佳优秀论文,这是CVPR近三十年第一个以自动驾驶为题材的最佳论文,也是从1万篇候选当中选出来的。今年我们也会发布我们的世界模型,用于自动驾驶环境的生成和模拟仿真等等。

回到智能汽车这个领域,今天的绝影智能汽车的核心业务就是驾舱云三位一体的发展,核心围绕通用人工智能、大模型。在自动驾驶领域,商汤现在已经进行量产落地的是L2+在高速领航,未来推广到城区的领航。城区的环境比高速复杂很多,在这种情况下且要摆脱对高精度地图的依赖,端到端的自动驾驶,用一个模型去完成整个自动驾驶各个模块,实现完整的数据驱动,将是未来的发展趋势。我们会基于UniAD工作基础上实现端到端自动驾驶模型的量产,今年9月份特斯拉宣布了它未来的自动驾驶也是基于端到端的模型完成的。在智能座舱领域,商汤要打造智能座舱的大脑,因为现有的智能座舱是由各个供应商提供一些单点的AI功能,由主机厂基于一些规则形成产品智能座舱的体验,整个体验是比较呆板的,人们把这个叫做假AI。有了大模型以后,它可以自动调动智能座舱里面各个AI的单点功能,座舱里面的几十个APP,包括座舱里的各种硬件,能够形成一个完整的智能座舱的体验。这些背后都离不开AI的云服务,无论是驾驶还是座舱都需要数据的闭环,包括大模型的训练,特斯拉有自己的AIDC数据中心,到明年的时候特斯拉自己的算力就超过1万P。国内这些车厂很难建设这样规模的基础设施,而且需要提前布局。我们会把商汤的大装置这样的基础设施开放给车厂和生态合作伙伴。

这里给大家展示的是大模型整体的研发体系,从模型的训练到模型推理的部署、云和端的结合,我们需要大幅的降低推理的成本。在此基础上有大模型的体系,包括数据的平台、数据生产的管线,无论是通用的大模型还是行业的大模型,非常重要的就是数据的收集、数据的清理,这样的话我们可以提供一整套深入到行业里面的数据生产管线。再往上就是各种串联层包括函数的调用、沙盒的环境、知识融合、安全和价值观的对齐、MOE混合专家系统等等,再往上去支持自动驾驶、智能座舱、车路协同的应用。我们会把整个这套体系开放给我们的客户我们的合作伙伴。

在智能座舱领域,我们的语言模型的核心就是座舱的大脑,将来基于此构建AI的操作系统,我们的多模态的大模型可以把舱内外各种不同类型的传感器进行融合,全方位地感知乘客和驾驶员的需求。另外我们有长短期的记忆模块,乘客的个人偏好、纪念日、日程安排都以外挂文档的形式跟大模型有这样的结合,这样的话我们的模型就能实现千人千面。在此基础上我们通过AIGC内容生成模型产生虚拟助手,产生千人千面的各种应用,还能够通过语言大模型智能化的控制车辆的各种状态,从而实现智能座舱一个整体的方案。

基于这套架构,在过去的几个月里开发了一系列在智能座舱里面的应用,给我们的乘客带来全新的体验。这里面应用很多,我就举一个例子,比如健康问诊。因为我们在车舱里面有很多传感器,我们能够主动获得个人的健康指标,比如血压、心跳等等。但是在大模型出现之前这些指标只是能够存放在那里,比较难发挥它的价值,今天我们有了大模型之后就可以根据这些指标的变化,主动触发跟乘客跟驾驶员的交互,我们检测到健康出现状况的时候可以提供健康的咨询,也可以提供紧急的AIE-Call进行救援呼叫,也可以实现自动驾驶接管,把车停到比较安全的地方。

这个大模型的出现实现了跟乘客、驾驶员主动的互动。未来在座舱里面从APP的主动触发去激活大模型,到大模型通过感知客户乘客的需求,主动进行场景的触发,提供主动的专业化的服务,将来车内大模型无处不在,形成非常好的跟用户交互的体验。

智能驾驶未来技术的路线也逐渐清晰。过去智能驾驶有各种传感器,包括激光雷达、摄像头等等,未来是比较清晰的,以视觉为主,大幅降低成本。第二是数据的驱动,在过去的自动驾驶整个系统里面有感知、融合、定位、决策、规控等等很多模块,在所有这些模块里只有感知部分依赖于神经网络,依赖于数据驱动,其他模块都是依靠手动的规则,今天有了UniAD的出现就实现了端到端的自动驾驶,一个神经网络完成了所有的模块,一旦所有的模块都能用神经网络实现的话,就能够实现数据的驱动,因为以往都是靠工程师编写各种规则和补丁,解决自动驾驶里面的各种corner case,现在可以通过数据的方式神经网络进行驱动。

今天可以看到各个模块当被一个网络串联起来的时候进行数据驱动的时候,每个模块的性能我们看到了大幅的提升,未来,第一纯视觉会降低成本,第二,摆脱我们对高精度地图的依赖,使自动驾驶实现的范围更广,成本更低,且不依赖于高精度地图的更新,第三,能够做到可解释性、安全可靠、可迭代性强。这里面展示了我们最新的一个工作,基于多模态的大模型DriveMLM,多模态大模型应用于自动驾驶。通过输入各种类型的信息,我们的模型还可以给出自动驾驶做每一步决策和操作时背后的逻辑和推理的原因是什么,就是右边展示的以自然语言的方式去解释自动驾驶的行为。这也就说明,今天自动驾驶对我们来说不是一个黑盒,有背后的逻辑。此外,基于多模态大模型,还可建立我们的世界模型。“世界模型”可以通过大模型生成各种在自动驾驶场景下非常接近于真实的视频、各种传感器的输出,因为未来端到端的自动驾驶的方案非常依赖于数据的驱动、数据的训练,今天我们能够自动地产生,还有模拟的环境,对于训练、测试都会有极大的推动作用,这也是我们最新的成果。

未来,大模型给智能汽车带来了非常大的行业变革,一个是端到端的自动驾驶,另外一个是智能座舱里面形成以大模型为基础的座舱的大脑,最后我们的驾驶和座舱逐渐深度融合,它们会实现在同一颗芯片里面,舱内外的传感器和数据能够实现零拷贝、极低延时的传输,能够给我们在产品层面带来极致的体验。所以大模型时代对于智能汽车这样一个场景,能够实现人车的交互、人机的共驾。我们期待在自动驾驶里面大模型能够成为安全可靠的“老司机”,它能够去学习各种驾驶行为和驾驶风格,在座舱里面就能够成为暖心和懂我们的好管家。给智能汽车的行业带来了深刻的变化,我们特别期待未来几年里通过通用人工智能对我们这个行业带来更大的改变。