GPT能为自动驾驶带来什么？_新浪财经

摘要：2023年，生成式大模型ChatGPT的出现给沉寂许久的AI市场添了一把猛烈的火，业界甚至有人将其比喻成“AI的iPhone时刻”。从ChatGPT诞生起，业内就在探讨它将如何与智能驾驶相结合，近日，毫末将这种设想变成了落地的产品。 4月11日，毫末智行在北京举办了第八届毫末AI DAY，发布了自动驾驶生成式大模型产品DriveGPT。图片来源：毫末智行 DriveGPT如何改

2023年，生成式大模型ChatGPT的出现给沉寂许久的AI市场添了一把猛烈的火，业界甚至有人将其比喻成“AI的iPhone时刻”。

从ChatGPT诞生起，业内就在探讨它将如何与智能驾驶相结合，近日，毫末将这种设想变成了落地的产品。

4月11日，毫末智行在北京举办了第八届毫末AI DAY，发布了自动驾驶生成式大模型产品DriveGPT。

图片来源：毫末智行

DriveGPT如何改变自动驾驶？

自动驾驶行业发展到现在，面临的一个非常大的技术问题在于Corner case（长尾难题）。

从技术的角度看，以往自动驾驶系统认知环境主要靠人工手写规则，但自然界中的场景无穷无尽，相应的规则也没有穷尽，自动驾驶技术的发展非常受限。

为解决这个问题，业内一直在用机器学习替代传统的规则式部分，力求实现端到端的自动驾驶：输入感知数据——机器学习输出规划决策数据。

毫末认为，生成式大模型GPT可以帮助解决认知决策问题，最终实现端到端的自动驾驶。

什么是GPT？

GPT的定义是生成式预训练Transformer大模型，用语言学的逻辑理解，输入一个词，GPT会根据现实中的分布推测下一个该出现的单词是什么，每生成完一个，会把过去的东西加上，当做新的输入猜测下一个是什么，这种生成式模型就可以生成对话。

以中文自然语言为例，单字或单词就是Token，把Token输入到模型，输出就是下一个字词的概率。

而DriveGPT实际上指的是自动驾驶界的生成式预训练大模型，将场景Token化，毫末将其称之为Drive Languag。

Drive Language将驾驶空间进行离散化处理，每一个Token都是场景的一小部分。目前毫末拥有50万个左右的Token词表空间。如果输入一连串过去已经发生的场景Token序列，模型就可以根据历史，生成未来所有可能的场景。

具体解释，只要输入目前的驾驶环境，包括车辆本身的状态、周围障碍物的状态、道路环境等，DriveGPT就会生成未来可能发生的一系列交通状态，就像多个平行宇宙，并根据每一种状态做出不同的决策：前面车辆变道时需要怎么做，不变道时需要怎么做。并且，这种决策会形成完整的证据链。

图片来源：毫末智行

概括来说，毫末认为，DriveGPT雪湖·海若三个能力：

1.可以按概率生成很多个场景序列，每个场景都是一个全局的场景，每个场景序列都是未来有可能发生的一种实际情况。

2.在所有场景序列都产生的情况下，能把场景中最关注的自车行为轨迹量化出来，也就是生成场景的同时，便会产生自车未来的轨迹信息。

3.有了这段轨迹之后，DriveGPT雪湖·海若还能在生成场景序列、轨迹的同时，输出整个决策逻辑链。

在模型优化方面，DriveGPT雪湖·海若主要是通过引入真实人驾接管数据建立RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化。

此外，还具有场景识别的能力，在毫末智行演示的场景中，普通的解决方案标注一张图片需要大约5远，DriveGPT雪湖·海若只需要0.5元，这个能力将会向行业伙伴开放。

图片来源：毫末智行

另外一点，由于DriveGPT的决策具有完整的逻辑推理链，它也可以提升人机共驾的体验。通过DriveGPT技术，未来人机交互界面（HMI）可以告诉驾驶者，它为什么做出这样的决策，在某种程度上它可以提升用户对自动驾驶系统的信任感。

毫末智行技术副总裁艾锐表示，目前毫末还没有做这样的系统，但理论上看，HMI可以通过语音的方式与驾驶者交流。“我可以把它理解为一个导航意图，你想选一个更快的路还是选一个收费更少的路。从这个角度来说，我觉得DriveGPT后面的想像空间很大。它能实时接收人的反馈之后，也许在大家使用自动驾驶的时候，就不是默默地坐在那里看着了，会有一个更深度的交互。”艾锐说。

毫末如何实现DriveGPT

大模型训练并不是一个简单的事情，毫末也解释了DriveGPT背后需要的能力。

最基础的当然是算力，模型参数规模达到 1200 亿，需要非常强大的算力支持。今年1月，毫末和火山引擎共同发布了其自建智算中心，毫末雪湖·绿洲MANA OASIS。OASIS的算力高达67亿亿次/秒，存储带宽2T/秒，通信带宽达到800G/秒。

还需要训练和推理框架的支持。因此，毫末也做了以下三方面的升级。

1.训练稳定性的保障和升级。

毫末在大模型训练框架的基础上，与火山引擎共同建立了全套训练保障框架，通过训练保障框架，毫末实现了异常任务分钟级捕获和恢复能力，可以保证千卡任务连续训练数月没有任何非正常中断。

2. 弹性调度资源的升级。

由于每天不同时段回传的数据量差异巨大，需要训练平台具备弹性调度能力，自适应数据规模大小。毫末将增量学习技术推广到大模型训练，构建了一个大模型持续学习系统，研发了任务级弹性伸缩调度器，分钟级调度资源，集群计算资源利用率达到95%。

3.吞吐效率的升级。

在传统的训练框架中，算子流程很长，毫末通过引入火山引擎提供的Lego算之库实现算子融合，使端到端吞吐提升84%。

此外，还有一个基础能力就是数据，毕竟DriveGPT雪湖·海若需要引入真实的人驾接管数据来优化模型。

在数据来源方面，毫末公布了智能驾驶产品最新的进展：