1. 产品概述
1.1 产品介绍
理想汽车在ai板块主要包括智能座舱和智能驾驶两大ai应用落地方向:
- 智能座舱:使用五屏三维空间交互,针对对话、娱乐、服务三个方向进行智能化赋能。
- 智能驾驶:采用全场景端到端 + VLM 大模型架构。
1.2 核心技术
1.2.1 看得清、听得懂、超智能
- 看得清:采用全新舱内RGB、IR感知硬件和三维视觉算法,即使在地库或隧道等场景,理想同学也能准确执行家人的指令;
- 听得懂:通过全车多组双麦阵列式麦克风技术,实现更准确的空间声源定位,进而实现更准确的多语种、多方言、多任务的个性化语音感知能力;
- 超智能:以大模型 Mind GPT 为核心的新一代多模态人机交互技术,拥有超过111个领域和1000种以上专属能力,能够通过车内多模态传感器感知和理解车内信息。
1.2.2 端到端+VLM 快慢系统
“快慢系统”双轨并行策略下,快系统将采用第三代端到端技术,由单一模型直接输出行驶轨迹;慢系统则基于 VLM技术,为决策提供深度支持。
- 快系统将传感器采集的信息输入模型提取特征值,结合自车状态和导航信息进行解码,得到动态障碍物、道路结构、OCC 以及规划的行驶轨迹。这些输出结果一方面用于描绘环境并呈现给用户,另一方面分别进行监督训练和模仿强化学习,规划轨迹最终输出给控制模块;
- 慢系统将相机信息、导航信息进行视觉编码,输入解码器后回归输出,输出结果包括:对环境的理解、驾驶决策建议和参考轨迹,最终辅助快系统的驾驶策略。
2. 功能模块介绍
2.1 智能座舱功能模块
2.1.1 AI任务执行
使用一句话描述条件和预期结果,理想同学即可直接帮用户创建任务。任务可以联动座椅、空调、导航等常用功能,通过ai来规划执行任务要求。

交互流程:
- 用户唤醒理想同学;
- 用户通过语音输入任务的条件和预期结果。用户输入通常是非结构化的,所以需要对用户意图进行提取后转为结构化任务条件和预期结果。提取后的内容会在中控屏幕(靠左部分)显示,供用户核对修改;
- 用户可以试运行该任务,查看是否符合预期;
- 用户可以保存该任务,以便后续调用;
- 在结束一次语音输入后,理想同学处于待机状态,用户可以随时进行新的语音输入。
例如,用户语音输入:我想要车内温度低于22度的时候,帮我打开方向盘加热和座椅加热; —> 提取结构化信息:1)条件:主驾有人就座、车内前排温度低于22摄氏度、车内后排温度低于22摄氏度。2)执行任务:方向盘加热、主驾座椅加热、附加座椅加热、二排左侧座椅加热、二排右侧座椅加热、三排左侧座椅加热; —> 显示结构化信息,用户可以对信息进行修改;
2.1.2 AI绘画
一句话描述绘画创意想法,可生成多张绘画作品。支持油画,漫画,梵高,水彩等9种风格。用户可以选择保存到汽车或手机。

交互流程:
- 用户唤醒理想同学;
- 用户通过语音输入绘画创意想法提示词,AI根据用户所提供的输入进行图片生成;
- 生成的图片会在中控屏幕显示(靠右部分)
- 用户可选择保存到汽车或手机。
其他:
1. 用户可通过点击右下角“我的图集”查看历史保存在汽车上的图片(包含ai创作的);
2.用户可通过点击左下角魔法相机对创作的图片进行美化和编辑。
2.1.3 大模型助手
给予MindGPT开发的车载Chatbot,主要针对驾车场景,所以在旅行,车况,家庭等方向适配性更好。
该助手主要有四大使用场景:用车助手、出行助手、娱乐助手、百科“老师”。
1.用车助手:用户可以通过该助手查询车辆状态(空气质量、温度等),诊断车辆故障,处理简单日程(定闹钟等)

交互流程:
- 用户唤醒理想同学;
- 用户通过语音输入用车相关的问题;
- 理想同学输出流式文本回答。
2.出行助手:用户可以通过该助手查询旅游攻略等出行信息,并支持攻略参考链接跳转;支持一键导航到目的地打卡。

交互流程:
- 用户唤醒理想同学;
- 用户通过语音输入出行相关的问题;
- 理想同学输出流式文本回答;
- 用户可以点击回答到参考链接进行跳转;
- 用户在查看攻略后可以对中意的打卡点进行一键导航。
3.娱乐助手:支持影音、游戏等功能的查询或唤起,同时也支持多种外接设备。

交互流程:
- 用户唤醒理想同学;
- 用户通过语音输入娱乐相关的问题;
- 理想同学根据用户输入进行查询或对应功能唤起,并在中控屏幕显示结果;
4.百科“老师”:针对用户输入的知识性、常识性问题进行解答。

交互流程:
- 用户唤醒理想同学;
- 用户通过语音输入娱乐相关的问题;
- 理想同学输出流式文本回答。
2.1.4 智能交互
1.语音交互
- 支持简洁模式:从唤醒应答到执行回复都更简明扼要,更少打断听歌听书等原有娱乐活动,对话也更简单,更有效率;
- 支持多轮对话:理想同学唤醒后,支持无限多轮对话,多个指令不用重复唤醒;
- 支持方言交互:支持多种方言自动识别。
- 支持专属儿童交互:能够理解孩子不按常理的表达,认识小朋友,能叫出TA的名字(声纹识别功能需要主动开启);
- 支持低音量交互:能够听见轻声慢语的小声说,不会惊醒熟睡用户。
- 支持高噪音交互:车速超过120公里/小时、导航和媒体音量超过80%、车内多人交谈等嘈杂状况,理想同学也能精准识别。
2.手势交互
- 通过食指、拇指配合语音可以帮同排或前后排家人打开座椅加热、按摩等;
- 通过既定手势开关车窗、遮阳帘、后舱娱乐屏,选片、控制音量等。
3.多屏交互
- 多屏同播
- 独立声道
2.2 智能驾驶功能模块
2.2.1 全场景智能驾驶(NOA)
- 高速NOA:高速NOA覆盖全国高速公路、快速路和城市环线,安全接管达到干公里水平,且车辆可自主选择ETC或人工车道通过收费站,无需费力,高速城市无缝衔接;
- 城市NOA:全国都能开,不受城市范围和道路等级限制,且绕行更拟人,选路更精准,让每一次出行都更高效,更安稳。
2.2.2 全场景辅助驾驶(LCC)
- 避让绕行:能够精准识别行人、车辆、障碍物等,通过减速、转向等方式绕行;
- 红绿灯识别启停:识别全球范围内的各种红绿灯,自动启停,并进行红绿灯倒计时。

2.2.3 智能泊车
- 自动泊车:用户通过中控屏幕控制泊车,可以处理复杂路况;
- 离车泊入:用户提前下车,长按主驾门把手即可激活泊车功能;
- 代客泊车:辅助驾驶员按照学习路线行驶泊入车位。
Comments NOTHING