GPT之于自动驾驶意味着什么?
文丨智驾网 黄华丹
ChatGPT带火了AI,当GPT遇到自动驾驶,又会发生怎样的化学反应?
GPT全称Generative Pre-trained Transformer,即生成式预训练Transformer。简单概括即是一种基于互联网可用数据训练的文本生成深度学习模型。
4月11日,在第八届毫末AI DAY上,毫末CEO顾维灏正式发布了基于GPT技术的DriveGPT,中文名雪湖·海若。
DriveGPT能做到什么?又是如何构建的?顾维灏在AI DAY上都做了详细解读。AI DAY还展示了毫末自动驾驶数据体系MANA的升级情况,主要是其在视觉感知能力上的进展。
01.
什么是DriveGPT?能实现什么?
顾维灏首先讲解了GPT的原理,生成式预训练Transformer模型本质上是在求解下一个词出现的概率,每一次调用都是从概率分布中抽样并生成一个词,这样不断地循环,就能生成一连串的字符,用于各种下游任务。
以中文自然语言为例,单字或单词就是Token,中文的Token词表有5万个左右。把Token输入到模型,输出就是下一个字词的概率,这种概率分布体现的是语言中的知识和逻辑,大模型在输出下一个字词时就是根据语言知识和逻辑进行推理的结果,就像根据一部侦探小说的复杂线索来推理凶手是谁。而作为适用于自动驾驶训练的大模型,DriveGPT雪湖·海若三个能力:
1.可以按概率生成很多个这样的场景序列,每个场景都是一个全局的场景,每个场景序列都是未来有可能发生的一种实际情况。
2.是在所有场景序列都产生的情况下,能把场景中最关注的自车行为轨迹给量化出来,也就是生成场景的便会产生自车未来的轨迹信息。
3.有了这段轨迹之后,DriveGPT雪湖·海若还能在生成场景序列、轨迹的输出整个决策逻辑链。
也就是说,利用DriveGPT雪湖·海若,在一个统一的生成式框架下,就能做到将规划、决策与推理等多个任务全部完成。具体来看,DriveGPT雪湖·海若的设计是将场景Token化,毫末将其称为Drive Language。
Drive Language将驾驶空间进行离散化处理,每一个Token都表征场景的一小部分。目前毫末拥有50万个左右的Token词表空间。如果输入一连串过去已经发生的场景Token序列,模型就可以根据历史,生成未来所有可能的场景。也就是说,DriveGPT雪湖·海若同样像是一部推理机器,告诉它过去发生了什么,它就能按概率推理出未来的多个可能。
一连串Token拼在一起就是一个完整的驾驶场景时间序列,包括了未来某个时刻整个交通环境的状态以及自车的状态。
有了Drive Language,就可以对DriveGPT进行训练了。
毫末对DriveGPT的训练过程根据驾驶数据以及之前定义的驾驶尝试做一个大规模的预训练。通过在使用过程中接管或者不接管的场景,对预训练的结果进行打分和排序,训练反馈模型。也就是说利用正确的人类开法来替代错误的自动驾驶开法。
后续就是用强化学习的思路不断优化迭代模型。
在预训练模型上,毫末采用Decode-only结构的GPT模型,每一个Token用于描述某时刻的场景状态,包括障碍物的状态、自车状态、车道线情况等等。毫末的预训练模型拥有1200亿个参数,使用4000万量产车的驾驶数据,本身就能够对各种场景做生成式任务。
这些生成结果会按照人类偏好进行调优,在安全、高效、舒适等维度上做出取舍。毫末会用部分经过筛选的人类接管数据,大概5万个Clips去做反馈模型的训练,不断优化预训练模型。在输出决策逻辑链时,DriveGPT雪湖·海若利用了prompt提示语技术。输入端给到模型一个提示,告诉它“要去哪、慢一点还是快一点、并且让它一步步推理”,经过这种提示后,它就会朝着期望的方向去生成结果,并且每个结果都带有决策逻辑链。每个结果也会有未来出现的可能性。这样我们就可以选择未来出现可能性最大,最有逻辑的链条驾驶策略。可以用一个形象的示例来解释DriveGPT雪湖·海若的推理能力。假设提示模型要“抵达某个目标点”,DriveGPT雪湖·海若会生成很多个可能的开法,有的激进,会连续变道超车,快速抵达目标点,有的稳重,跟车行驶到终点。这时如果提示语里没有其他额外指示,DriveGPT雪湖·海若就会按照反馈训练时的调优效果,最终给到一个更符合大部分人驾驶偏好的效果。
02.
实现DriveGPT毫末做了什么?
DriveGPT雪湖·海若的训练和落地,离不开算力的支持。
今年1月,毫末就和火山引擎共同发布了其自建智算中心,毫末雪湖·绿洲MANA OASIS。OASIS的算力高达67亿亿次/秒,存储带宽2T/秒,通信带宽达到800G/秒。光有算力还不够,还需要训练和推理框架的支持。毫末也做了以下三方面的升级。
一是训练稳定性的保障和升级。大模型训练是一个十分艰巨的任务,随着数据规模、集群规模、训练时间的数量级增长,系统稳定性方面微小的问题也会被无限放大,如果不加处理,训练任务就会经常出错导致非正常中断,浪费前期投入的大量资源。
毫末在大模型训练框架的基础上,与火山引擎共同建立了全套训练保障框架,通过训练保障框架,毫末实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数月没有任何非正常中断,有效地保障了DriveGPT雪湖·海若大模型训练的稳定性。
二是弹性调度资源的升级。毫末拥有量产车带来的海量真实数据,可自动化的利用回传数据不断的学习真实世界。由于每天不同时段回传的数据量差异巨大,需要训练平台具备弹性调度能力,自适应数据规模大小。
毫末将增量学习技术推广到大模型训练,构建了一个大模型持续学习系统,研发了任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%。
三是吞吐效率的升级。在训练效率上,毫末在Transformer的大矩阵计算上,通过对内外循环的数据拆分、尽量保持数据在SRAM中来提升计算的效率。在传统的训练框架中,算子流程很长,毫末通过引入火山引擎提供的Lego算之库实现算子融合,使端到端吞吐提升84%。
有了算力和这三方面的升级,毫末可对DriveGPT雪湖·海若进行更好的训练迭代升级。
03.
MANA大升级,摄像头代替超声波雷达
毫末在2021年12月的第四届AI DAY上发布自动驾驶数据智能体系MANA,经过一年多时间的应用迭代,现在MANA迎来了全面的升级。
据顾维灏介绍,本次升级主要包括:
1.感知和认知相关大模型能力统一整合到DriveGPT。
2.计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS当中。
3.增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本。
4.针对多种芯片和多种车型的快速交付难题,优化了异构部署工具和车型适配工具。
前文我们已经详细介绍了DriveGPT相关的内容,以下主要来看MANA在视觉感知上的进展。
顾维灏表示,视觉感知任务的核心目的都是恢复真实世界的动静态信息和纹理分布。因此毫末对视觉自监督大模型做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个训练目标里面,使其能从容应对各种具体任务。目前毫末视觉自监督大模型的数据集超过400万Clips,感知性能提升20%。在泊车场景下,毫末做到了用鱼眼相机纯视觉测距达到泊车要求,可做到在15米范围内达测量精度30cm,2米内精度高于10cm。用纯视觉代替超声波雷达,进一步降低整体方案的成本。在纯视觉三维重建方面,通过视觉自监督大模型技术,毫末不依赖激光雷达,就能将收集的大量量产回传视频转化为可用于BEV模型训练的带3D标注的真值数据。
通过对NeRF的升级,毫末表示可以做到重建误差小于10
【本文来自易车号作者智驾网,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
要增加ChatGPT的训练数据,可以采取以下几个步骤:
1. 收集现有的聊天对话数据:可以从各种渠道收集现有的聊天对话数据,例如在线论坛、社交媒体、客服聊天记录等。这些数据应当包含用户的问题或对话的上下文以及机器人的回答。
2. 清理和预处理数据:对于收集到的数据,需要进行清理和预处理工作。这包括去除噪声数据、标准化文本格式、去除敏感信息等。数据清理和预处理可以保证训练数据的质量。
3. 人工标注数据:为了提高训练数据的质量,可以选择将数据进行人工标注。人工标注可以确保数据中的问题和回答准确无误,并且可以标注出对话中的实体、意图等信息。人工标注的过程需要依赖专业人员进行,并且需要建立一套标注规范。
4. 使用迁移学习:如果你有一些已经存在的对话数据,可以考虑将其与ChatGPT的预训练数据进行混合,然后进行微调。这样做可以迅速扩充训练数据集,并且可以在特定领域或任务中表现更好。
5. 生成虚拟对话数据:如果现有的数据量有限,可以利用ChatGPT自身进行数据生成。可以通过引入一定的随机性或使用强化学习方法来生成机器人的回答。这种方法可以生成无限数量的对话数据,但需要对生成的数据进行筛选和过滤,以确保其质量。
6. 多样性和均衡性:在增加训练数据时,需要确保数据具有多样性和均衡性。这意味着要包含各种不同类型的问题和对话场景,以确保模型可以应对各种情况。
7. 数据增强技术:可以应用数据增强技术来扩充训练数据。可以通过同义词替换、句子重组、词语插入等方式来生成新样本。这些技术可以增加数据的多样性,并提高模型的泛化能力。
在增加ChatGPT的训练数据时,需要注意数据质量和多样性,并进行适当的预处理和清理工作。数据标注和迁移学习也可以提升模型的性能。
原料/工具:ChatGPT、手机或电脑
第一步:下载多御浏览器,安卓端或PC端都可以第二步:打开多御浏览器,左边工具栏点击Chatgpt,直接点击即可使用第三步:输入问题,例如“帮我写一封邮件,以**为主题”,或者输入“我想给某某发一封关于**(邮件主题)的邮件,我该如何写”之类的问题,稍等片刻即可获得答案
第四步:例如我输入:我希望某个新闻媒体就我受到职场性骚扰而帮我发声,我该怎么写邮件告诉他们?第五步:再例如我输入:我想给国内某个网站发送一封邮件,主题是我希望她们收录我写的文章,请问我该怎么写?
chatGPT念“柴特鸡皮题”,GPT全称Generative Pre- -trained Transformer,是一种预训练语言模型,这种模型读的越多,也就懂的越多。Chat是聊天的意思,顾名思义,ChatGPT的核心是GPT模型,只不过加上了一个能跟人聊天的对话框。
2023年2月7日,微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必应)和Edge浏览器。微软CEO表示,“搜索引擎迎来了新时代”。
2023年2月8日凌晨,在华盛顿雷德蒙德举行的新闻发布会上,微软宣布将OpenAI传闻已久的GPT-4模型集成到Bing及Edge浏览器中。chatGPT的规范使用
2023年2月,媒体报道,欧盟负责内部市场的委员蒂埃里·布雷东日前就“聊天生成预训练转换器”发表评论说,这类人工智能技术可能为商业和民生带来巨大的机遇。
但同时也伴随着风险,因此欧盟正在考虑设立规章制度,以规范其使用,确保向用户提供高质量、有价值的信息和数据。
以下是一些GPT-4 API全面开放后可能的影响:1. 提升AI技术应用范围
GPT-4 API的全面开放将提供更广泛的访问和使用机会,使更多的人和组织能够利用强大的自然语言处理技术。这将促进各行各业的AI应用,如智能客服、虚拟助手、机器翻译、内容生成等。2. 提高生产力和效率
GPT-4 API的开放将帮助自动化和加速许多重复性的工作和任务。它可以用于生成文档、回答常见问题、分析数据等,从而提高生产力和工作效率,使人们能够将更多时间和精力用于创造性的任务和决策。3. 促进创新和创业
GPT-4 API的全面开放将降低创新门槛,使更多的创业者和开发者能够利用该技术开展新的应用和服务。这将带来更多创新的可能性,推动科技研究和商业发展。4. 拓宽技术鸿沟
虽然GPT-4 API的开放有助于推广AI技术的应用,但也可能进一步加剧技术鸿沟。那些无法访问或无法利用该API的地区或组织将无法充分受益于该技术,可能会导致信息和资源的不平等。5. 隐私与伦理挑战
开放GPT-4 API也带来了隐私和伦理方面的挑战。这种强大的自然语言处理技术可能会引发深层次的隐私问题,如个人信息保护、虚假信息传播等。对这些问题的解决需要加强相关政策、法律和伦理准则的制定和实施。这只是一些可能的影响,由于技术和社会的复杂性,实际影响可能超出上述范围。全面开放GPT-4 API的潜在影响需要在技术、法律、伦理和社会等多个层面上认真考虑和管理,以确保其利大于弊并推动可持续发展。
GPT之于自动驾驶意味着什么?
文丨智驾网 黄华丹
ChatGPT带火了AI,当GPT遇到自动驾驶,又会发生怎样的化学反应?
GPT全称Generative Pre-trained Transformer,即生成式预训练Transformer。简单概括即是一种基于互联网可用数据训练的文本生成深度学习模型。
4月11日,在第八届毫末AI DAY上,毫末CEO顾维灏正式发布了基于GPT技术的DriveGPT,中文名雪湖·海若。
DriveGPT能做到什么?又是如何构建的?顾维灏在AI DAY上都做了详细解读。AI DAY还展示了毫末自动驾驶数据体系MANA的升级情况,主要是其在视觉感知能力上的进展。
01.
什么是DriveGPT?能实现什么?
顾维灏首先讲解了GPT的原理,生成式预训练Transformer模型本质上是在求解下一个词出现的概率,每一次调用都是从概率分布中抽样并生成一个词,这样不断地循环,就能生成一连串的字符,用于各种下游任务。
以中文自然语言为例,单字或单词就是Token,中文的Token词表有5万个左右。把Token输入到模型,输出就是下一个字词的概率,这种概率分布体现的是语言中的知识和逻辑,大模型在输出下一个字词时就是根据语言知识和逻辑进行推理的结果,就像根据一部侦探小说的复杂线索来推理凶手是谁。而作为适用于自动驾驶训练的大模型,DriveGPT雪湖·海若三个能力:
1.可以按概率生成很多个这样的场景序列,每个场景都是一个全局的场景,每个场景序列都是未来有可能发生的一种实际情况。
2.是在所有场景序列都产生的情况下,能把场景中最关注的自车行为轨迹给量化出来,也就是生成场景的便会产生自车未来的轨迹信息。
3.有了这段轨迹之后,DriveGPT雪湖·海若还能在生成场景序列、轨迹的输出整个决策逻辑链。
也就是说,利用DriveGPT雪湖·海若,在一个统一的生成式框架下,就能做到将规划、决策与推理等多个任务全部完成。具体来看,DriveGPT雪湖·海若的设计是将场景Token化,毫末将其称为Drive Language。
Drive Language将驾驶空间进行离散化处理,每一个Token都表征场景的一小部分。目前毫末拥有50万个左右的Token词表空间。如果输入一连串过去已经发生的场景Token序列,模型就可以根据历史,生成未来所有可能的场景。也就是说,DriveGPT雪湖·海若同样像是一部推理机器,告诉它过去发生了什么,它就能按概率推理出未来的多个可能。
一连串Token拼在一起就是一个完整的驾驶场景时间序列,包括了未来某个时刻整个交通环境的状态以及自车的状态。
有了Drive Language,就可以对DriveGPT进行训练了。
毫末对DriveGPT的训练过程根据驾驶数据以及之前定义的驾驶尝试做一个大规模的预训练。通过在使用过程中接管或者不接管的场景,对预训练的结果进行打分和排序,训练反馈模型。也就是说利用正确的人类开法来替代错误的自动驾驶开法。
后续就是用强化学习的思路不断优化迭代模型。
在预训练模型上,毫末采用Decode-only结构的GPT模型,每一个Token用于描述某时刻的场景状态,包括障碍物的状态、自车状态、车道线情况等等。毫末的预训练模型拥有1200亿个参数,使用4000万量产车的驾驶数据,本身就能够对各种场景做生成式任务。
这些生成结果会按照人类偏好进行调优,在安全、高效、舒适等维度上做出取舍。毫末会用部分经过筛选的人类接管数据,大概5万个Clips去做反馈模型的训练,不断优化预训练模型。在输出决策逻辑链时,DriveGPT雪湖·海若利用了prompt提示语技术。输入端给到模型一个提示,告诉它“要去哪、慢一点还是快一点、并且让它一步步推理”,经过这种提示后,它就会朝着期望的方向去生成结果,并且每个结果都带有决策逻辑链。每个结果也会有未来出现的可能性。这样我们就可以选择未来出现可能性最大,最有逻辑的链条驾驶策略。可以用一个形象的示例来解释DriveGPT雪湖·海若的推理能力。假设提示模型要“抵达某个目标点”,DriveGPT雪湖·海若会生成很多个可能的开法,有的激进,会连续变道超车,快速抵达目标点,有的稳重,跟车行驶到终点。这时如果提示语里没有其他额外指示,DriveGPT雪湖·海若就会按照反馈训练时的调优效果,最终给到一个更符合大部分人驾驶偏好的效果。
02.
实现DriveGPT毫末做了什么?
DriveGPT雪湖·海若的训练和落地,离不开算力的支持。
今年1月,毫末就和火山引擎共同发布了其自建智算中心,毫末雪湖·绿洲MANA OASIS。OASIS的算力高达67亿亿次/秒,存储带宽2T/秒,通信带宽达到800G/秒。光有算力还不够,还需要训练和推理框架的支持。毫末也做了以下三方面的升级。
一是训练稳定性的保障和升级。大模型训练是一个十分艰巨的任务,随着数据规模、集群规模、训练时间的数量级增长,系统稳定性方面微小的问题也会被无限放大,如果不加处理,训练任务就会经常出错导致非正常中断,浪费前期投入的大量资源。
毫末在大模型训练框架的基础上,与火山引擎共同建立了全套训练保障框架,通过训练保障框架,毫末实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数月没有任何非正常中断,有效地保障了DriveGPT雪湖·海若大模型训练的稳定性。
二是弹性调度资源的升级。毫末拥有量产车带来的海量真实数据,可自动化的利用回传数据不断的学习真实世界。由于每天不同时段回传的数据量差异巨大,需要训练平台具备弹性调度能力,自适应数据规模大小。
毫末将增量学习技术推广到大模型训练,构建了一个大模型持续学习系统,研发了任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%。
三是吞吐效率的升级。在训练效率上,毫末在Transformer的大矩阵计算上,通过对内外循环的数据拆分、尽量保持数据在SRAM中来提升计算的效率。在传统的训练框架中,算子流程很长,毫末通过引入火山引擎提供的Lego算之库实现算子融合,使端到端吞吐提升84%。
有了算力和这三方面的升级,毫末可对DriveGPT雪湖·海若进行更好的训练迭代升级。
03.
MANA大升级,摄像头代替超声波雷达
毫末在2021年12月的第四届AI DAY上发布自动驾驶数据智能体系MANA,经过一年多时间的应用迭代,现在MANA迎来了全面的升级。
据顾维灏介绍,本次升级主要包括:
1.感知和认知相关大模型能力统一整合到DriveGPT。
2.计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS当中。
3.增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本。
4.针对多种芯片和多种车型的快速交付难题,优化了异构部署工具和车型适配工具。
前文我们已经详细介绍了DriveGPT相关的内容,以下主要来看MANA在视觉感知上的进展。
顾维灏表示,视觉感知任务的核心目的都是恢复真实世界的动静态信息和纹理分布。因此毫末对视觉自监督大模型做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个训练目标里面,使其能从容应对各种具体任务。目前毫末视觉自监督大模型的数据集超过400万Clips,感知性能提升20%。在泊车场景下,毫末做到了用鱼眼相机纯视觉测距达到泊车要求,可做到在15米范围内达测量精度30cm,2米内精度高于10cm。用纯视觉代替超声波雷达,进一步降低整体方案的成本。在纯视觉三维重建方面,通过视觉自监督大模型技术,毫末不依赖激光雷达,就能将收集的大量量产回传视频转化为可用于BEV模型训练的带3D标注的真值数据。
通过对NeRF的升级,毫末表示可以做到重建误差小于10
【本文来自易车号作者智驾网,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
论文查重的目的就是为了检测出相似内容,然后以通过论文降重进行修改,达到合格比例。如果想快速降重,选择机器降重,如果想保证质量,那么人工降重必选。如果只是追求速度,那就直接选择机器降重,常用论文降重方法如下:人工降重方法:
1、变换表达。先理解原句的意思,用自己的话复述一遍。
2、词语替换,在变换表达方式的基础上结合同义词替换,效果更好。
3、变换句式,通过拆分合并语句的方式进行修改,把长句变短句,短句变长句。
4、图片法,针对专业性太强不好修改的语句或段落(比如计算机代码,法律条款,原理理论等),可以适当把文字写在图片上展现,但是这种方法不宜用的太多。知网查重系统不太合适,可以识别图片,公式,表格,其他查重系统可以适当使用。
5、翻译法,用百度翻译或谷歌翻译,中文翻译成英文,英文翻译成日语或其他语种,再从日语翻译成中文,这种看似不错,还得需要人工润色,感觉效果还是鸡肋,适当用用也无妨。
机器降重方法:
论文降重软件只是辅助手段,最后还得人工润色一下,完全降重有效的没有。
PaperBye论文查重系统里有自动降重功能,可以作为你查重后修改参考的一种辅助手段。关于效果,针对专业不同效果也不一样,比如理工科或专业术语比较多的,改的效果不太好。如果一些文课类文章,改好后语句还是蛮通顺的,效果没有人工修改好,但是可以给一些修改建议提示,也是不错的,主要看怎么使用。看看下面修改的例句,降重效果还算满意。最后提醒一句,软件论文降重,只是辅助,即使改也需要人工去复核修改一遍,因为毕竟是软件,有的表达上会欠缺妥当,需要人工润色。同时也不要过度依赖软件降重,目前还是没有人工一字一句修改的效果好,只能作为一种改重的辅助手段,不要期望过高。