理想社区_理想汽车

GPT大模型上车,是噱头还是硬科技?

有个理想_

2024年1月4日

许多升级了OTA 5.0的理想车主,在用过有了 Mind GPT 加持后的理想同学,纷纷调侃“这对其他车载助手简直就是降维打击”。但同样,也有未曾用过的用户,始终对其能力半信半疑。


从6月17日家庭科技日的首次亮相,到如今正式投入使用,短短的半年时间里,Mind GPT 不仅飞速成长,更已基于理想同学的应用场景,为其量身定制覆盖111个领域、超过1000种以上的专属能力。


同样在这半年的时间里,Mind GPT 不仅先后在C-Eval、CMMLU等权威评测榜单中夺冠,更在2023第十八届全国人机语音通讯学术会议举办的视觉语音识别竞赛CNVSRC中,斩获三项冠军。


今天,我们带你全面了解一个更懂汽车的大模型如何诞生。


01

从0到1,构建独属于理想汽车的大模型

“早在一年半以前,我们就开始探索较大规模语言模型在理想同学的应用。我们基于T5模型架构打造,参数量级在1B(10亿)左右,让理想同学拥有了智慧大脑。算法也在研究之初就考虑到了多模态的模型能力建设,涵盖了语音、视觉、文本等多种模态。


随着ChatGPT的的爆火,我们开始思考是否要自建参数规模与数据规模都更大的模型。基于T5大模型的理想同学已经很好用了,即便它的参数规模与数据体量没有GPT模型这么大,也基本能够满足用户的需求。但作为研发人员,我们清楚地知道它的能力上限:它只能理解单独的指令,对于复杂指令依旧力不从心,换句话说,它依然停留在一个传统的车载助手的层面。用户除了对它下指令,是无法跟它产生更多交互的,它还做不到真正的智能。


但多模态的认知大模型将让我们有机会从过去的‘收着做’转变为‘摊开做’的状态,让理想同学从机器转变为一个能思考、能互动、有温度的‘人’,一个数字的生命体。如果说之前我们纠结的是理想同学能力范围内的事有没有做好,现在我们关注的则是到底什么才是它的能力边界。”理想汽车AI首席科学家陈伟回忆。


今年4月份,陈伟带领的空间AI团队正式开启了对 Mind GPT 的自主打造,从功能、算法、工程层面去重塑理想汽车的AI底层。模型采用了自研的TaskFormer神经网络架构,基于用车、娱乐、出行等场景使用SFT、RLHF等技术进行了一系列的训练,让 Mind GPT 拥有了理解、生成、知识记忆及推理的三大能力。


基于知识增强的建模技术,Mind GPT 拥有了更高的知识准确性;作为大模型控制器调用外部工具,Mind GPT 可以持续拓宽大模型的能力覆盖;外接的搜索引擎,让未被系统掌握的最新资讯可以第一时间从网络获取;凭借自带的记忆网络功能,Mind GPT 可以基于历史对话记住个性化偏好和习惯。


“技术的每次跨越都会给人们带来惊喜,但如果没办法把它变成一个真正产生用户价值的产品,惊喜之后就只会剩下落寞。唯有好的产品,才能让技术走下高坛,真正成为生产力、创造力。


市场上各家所做的大模型,大都还仅停留在一些文字对话的层面,用户日常的使用频次很低,其炫技的色彩远远大于实用性。反观理想汽车,我们的AI绝不是为了刷存在感,研发团队的每个伙伴都始终在思考,到底什么是AI,它的价值能否赋能每个人?是否能为用户带来价值?为此,团队一直在与时间赛跑,不仅追求大模型技术的突破,更要让大模型与理想同学的使用场景深度结合起来,让理想同学拥有一个更聪明的大脑,成为一款全家人都能用、都爱用的产品。


整个团队不仅要从0到1完成大模型全链路技术的突破,也要0到1去研究如何将大模型的能力赋能理想同学,如何更好地服务移动的家。在保证已有功能持续提升的同时,快速拓展理想同学的能力边界,因此 Mind GPT 不是原有能力+新能力这样简单的1+1,而是要以大模型为基础做深度融合,做1+1大于2的事。” Mind GPT 算法负责人江博士说。


“ Mind GPT 研发及落地的这条路走的很艰难,我们在大模型基座及训练算法研发的同时,还要兼顾产品落地的各类场景体验,不仅要考虑算法的准确性问题,还要考虑工程的执行效率等因素。因此,我们内部一直‘以终为始’地进行工作。从研发早期,我们就建设了围绕车载场景的大模型评估体系以及内部的定期实车走查制度,持续用接近用户场景、可量化的目标设定,推动大模型快速迭代。


我们几乎每周就会有一次 Mind GPT 版本迭代,每周一次集成到理想同学做产品升级,每一次升级的背后都会涉及到和理想同学已有模块的联动、新策略的联调。要做到每一次的体验稳定提升我们都需要经过充分人工标注来做上线前的测试验证。


虽然过程很辛苦,但为了给用户带来颠覆性的体验,为了率先将大模型的能力融入到车端,整个团队每天都像打了鸡血一般,斗志满满。打造出超越用户需求的产品,见证一个新时代的开启,每个人都为参与其中而兴奋。”项目经理Baolan说。


02

从车载助手,到你车上的“贾维斯”

“在大模型的领域,无论对产品、对研发的伙伴而言,都是全新且陌生的。为了将 Mind GPT 更好地融入理想同学,我们的产品理念相较过往有了很大的改变。研发伙伴不断去盘点技术能够延伸和未来的发力方向,再由产品的伙伴以此倒推我们在哪些产品功能上可以做进一步的迭代和优化。也正因如此,才让OTA 5.0升级后的理想同学拥有了许多过去我们想都不敢想的能力。”江博士说。


Mind GPT 的思考方式与人类极为相似,除了具备强大的语言理解、知识问答和文本生成能力外,还具备非常强的逻辑推理、记忆网络和用户语言界面生成能力。


在 Mind GPT 的加持下,我们实现了对“理想同学”的理解与表达能力的全方位提升,让用户一次性拥有了用车助手、娱乐助手、出行助手与百科老师。


看过《钢铁侠》的人,都会对托尼史塔克的那位AI管家贾维斯印象深刻,而拥有了 Mind GPT 加持后的理想同学,已宛如贾维斯一般,尽管它依旧无法像人类一样拥有情感,但却总能根据用户的语音指令及当前情况,给出合理的建议,做出恰当的选择。在你跟它对话时,你甚至会恍惚它到底是真人还是机器。


作为用车助手,有关车辆操作、状态查询或故障诊断的任何问题,都可以由理想同学提供专业解答;而当家庭出游时,它又化身为出行助手,为家人提供出游灵感,规划行程,在新增的美团应用中搜寻吃喝玩乐好去处,其推荐地点和路线还可以直接进行导航;而日常使用时,理想同学则是了解最新资讯的娱乐助手,随时联网查询时事新闻、明星动态、热门影视和歌曲,并直接调用车端相关应用播放回答中所提及提到的影视和音乐;“无所不知”的理想同学更可成为全家人的百科老师,从孩子们的十万个为什么,到大人们好奇的不同事物,它都可以为你解读,它甚至可以帮你来指导孩子的作文、回答数学题。Mind GPT 的知识储备涵盖自然科学和历史文化全领域,并随着时间飞速成长。


如果你一直都有关注过大模型类的应用产品,那么文字的问答场景你可能已经不会感到太过新奇,但是这样的语音交互、与车机的深度联动,却绝对是头一例。


三个助手在一定程度上,分别对应了车机的三大功能:车控、娱乐和导航。在过去,车载助手所能做的只有执行单个指令,而有了 Mind GPT 加持后的理想同学,不仅可以一句话任务随意说,“打开车窗关闭空调导航去五道口打开座椅通风”类似复杂指令一气呵成,播放媒体库也能聊着来。当你想去远方游玩的时候还能帮你做出行建议,“我明天去哈尔滨我适合穿什么衣服;那我去哈尔滨有什么好吃又不贵的铁锅炖推荐;帮我推荐一个三天的行程”。


新增的AI任务大师功能,让理想同学还可以听懂复杂的功能组合,自动创建任务。“如果说助手类的功能还只是提升你生活的便利性,那AI任务大师则需要精确理解用户的需求,并联动车上的各个功能加以执行。用户的许多指令其实是比较含糊且复杂的,人能听懂,但即便是大模型也很难去理解。比如,语音说‘帮我创建一个当左转向时打开环视的任务’,Mind GPT 会理解为‘打开左转向灯’的条件下,‘打开全景环视’的结果。如果没有大模型的加持,这样的操作是不可实现的。我们针对这样一些常见的场景,做了许多系统性的调整与优化,让结果转化为用户真正需要的能力。”研发工程师龙哥说。


为了让 Mind GPT 输出的内容更契合用户的日常用车习惯,研发的伙伴们也进行了大量优化。研发工程师君宜介绍:“当前主流的大模型,采用的均为‘流式’逻辑,像打字机一样一段一段输出出来,但在车机端,这样的展示是不合适的,用户在开车时不可能逐字浏览。为此,我们的大模型也会结构化地输出内容,以适合车机端观看,如用户界面卡片、语音播报等,并通过大模型输出准确的指令去联动不同的车机应用。


以出行助手为例,当用户问北京有哪些好玩的景点?模型会给出具体的几个参考,比如,北京故宫、长城等等。大模型直接输出结构化的内容,呈现给用户的是有标题、有配图、有摘要的内容。当用户说导航去第二个的时候,系统会自动检索出对应的地址,开启导航。”


03

多元加持,实现用户体验质的飞跃

基于GPT的大模型,大都是基于海量文本训练的语言模型。因此,常规交互方式是,用户输入一段明确的文字指令,AI生成文字回复。但在理想同学身上,我们则将交互方式升级为语音叠加手势的多模态输入来与 Mind GPT 交互,不仅实现了“可见即可说”,也在一定程度上代表着理想汽车将基于 Mind GPT 的对话式语音交互,作为未来智能座舱交互发展趋势的判断。


大模型的应用还没有在三维空间多人场景下,进行复杂交互对话的先例,而我们通过结合 Mind GPT 持续优化多模态感知,在行业里率先迈出了第一步。


负责语音感知的周博说:“从语音转成文字再接入 Mind GPT ,看似只是一步转化,但这个过程其实非常复杂。除了方言和口音,我们还要面临从车载封闭域到开放域,从短语音向长语音,从朗读式向口语式,从单轮识别向结合上下文语境的多轮识别的难度升级。一旦最终理想同学给出的答案不是用户所需,那到底是语音识别的问题,还是大模型理解的问题?


另一方面,随着 Mind GPT 的加入,理想同学所能听懂的指令,已从一句话一个指令,到了多句话多个指令,换言之,用户是可以持续不断地跟它聊天的。但句子之间必定会有停顿,对话式交互没有直观的按钮来表示用户已完成语音输入,那遇到用户停顿时,理想同学是应该及时给出答案,还是再等等?一些品牌,会要求用户必须按着按键才能与车机对话,但在我们看来,这样不仅影响驾驶,也很难让车内的每个人都能轻松使用。同时,车内乘坐的往往又不止一人,他可能是在跟理想同学说话,也可能是在跟车内的其他人说话,到底哪句才是对理想同学发出的指令?这都会对我们的音频转为输入 Mind GPT 的有效的文字指令产生困扰。


为此,我们通过大量研发的投入,为理想同学自研了MSE-Net 2.0多语种多口音多任务端到端网络,让每个用户说的每一句话,都能被精准识别。即便是全开放的内容,经过我们的测试,音频转文字的识别准确率也能保持在94%左右,远超行业平均水平。


同时使用智能聆听以及多模态拒识,智能处理用户停顿,区分用户的交互对象,让 Mind GPT 正确完整的感知到用户的输入指令,不胡乱搭话。


OTA 5.0升级后的理想同学,还发生了一个显著变化,即日常性的任务指令无需再唤醒理想同学。我们梳理出车控、车设、导航、媒体等垂域中的高频意图,针对每个意图定义明确的指令说法,当用户说出的指令符合预定义范围和说法时,MSE-Net 2.0会自动识别并执行。用户的声音不需要上传云端,也不会被存储。”


另一方面,为了让大模型的训练能够高效进行,我们自主打造了LiPTM大模型训练系统,支撑起 Mind GPT 的大规模并行化训练,其训练效率远超行业最领先的开源解决方案;为了让大模型的线上推理能够实现高性能和高吞吐率,我们自研了LisaRT-LLM推理引擎,针对 Mind GPT 进行专项优化,推理性能和吞吐率超越第三方解决方案。


AI工程研发负责人刘工介绍:“在过去,当车上的乘员们与理想同学交互时,我们会逐一进行识别,A说话时,如果B也说话,那我们就先把B的音频缓存下来,等A说完,系统完成识别后,再去识别B。但随着 Mind GPT 的引入,我们可以去对车上六个座位的乘员进行同步识别,但随之而来的则是系统资源的占用增大六倍。如果只是文本交互的方式,对我们的挑战还不算大,像ChatGPT就通常会稍微延迟一会再输出文字,用户也会默认它在‘思考’。但当使用场景变到车上,如果用户说完了话,系统迟迟没有反馈,用户一定会觉得这个车载助手不好用、不智能。


为了不让性能和吞吐率成为我们大模型融入车机的瓶颈,我们为此专门打造了LisaRT-LLM推理引擎,释放硬件的更大潜力,以较低的系统资源占用实现更高的性能,使得的理想同学变得反应更灵敏、效率更高。最终,理想同学实现了700毫秒的响应速度,平均应用打开速度仅400毫秒,AI推理速度为30 Tokens/秒。”


如果说,ChatGPT是革命性的数据模型,改变了内容的生产方式,让人们看到了通用人工智能的希望,那 Mind GPT 则开启了大模型对汽车行业的改造,让每一个移动的家都拥有了AI的加持与助力。


凭借领先的多模态认知能力,Mind GPT 不仅让理想同学变得更聪明,高效识别并挖掘用户的需求,联动车机为用户提供无缝的服务体验,更将基于强大的数据分析能力与海量的数据,逐步实现对研发、运营、制造等不同领域的赋能,让每一个环节都被AI提效、提质。


在2030年成为全球领先的人工智能企业,我们的愿景正在一步步照进现实。

插入表情
已输入0字

110 条评论

游乐园爸比好帅

好用,再优化下就更好了

KaKaQiu

你们觉得好用吗?

蓝色鲸鱼

没啥用处吧

Kami1987

A汾阳市华祥保温防水

叽里咕噜623

从来没用过

加大加肥

太愿意接话了,每次说完指令半天不敢说话

老查理

实际用处不大,聊胜于无

杜府理想坐驾

666

可可东西里

实际用处不大

大花小翌

还行

阿丹丹

666好棒

艺心壹艺

牛了什么,我5.0 之前每天早晨说我要听早间新闻,它都可以播放喜马拉雅的。。。现在反而不可以了。。。。你们去试试吧。。。无语。。。

天天爱跳跳

牛呢

没有理想的闲鱼

感觉没什么用
页面加载中,请稍候...