小鹏第二代VLA的技术虽然我没听懂，但实测看得懂啊！

瑞安爱车人 2026-03-08 养车有险 5595

辅助驾驶好不好用，还是要看实际表现，3月11日小鹏全国732家门店试驾开启！

小鹏第二代VLA来了，不是期货，不是画饼，月底推送！大众是首发客户，还有其它车企正在洽谈中！

搭载第二代VLA的Robotaxi测试车小鹏GX，已经在主驾无人、园区无图的情况下完成了：原地起步、自主行驶、靠边停车、接客起步、计费等全部的操作流程，今年会在广州给大家开放试驾。

5000公里智驾横穿中国也即将启动。

2026年，还会实现VLA+VLM驾舱一体、Max版本推送蒸馏版第二代VLA、Robotaxi开启运营。

全球路测即将开始，2027年开启全球交付。

第二代VLA上用到的技术咱们后面再讲，先看看实测吧，白天、黑天、雨天、小路、烂路、开门杀场景全都有，老司机看了都得直呼专业！

开门杀绕行：这个确实6！

不过我早就知道VLA可以应对类似场景，在第一代VLA上我就体验过了，路边静止车辆毫无征兆起步并一把拐进来，VLA直接从8km/h速度下的加速状态丝滑刹停，车内乘员完全不知道发生了什么，只有我内心感叹：可能我也不一定比它刹得平稳！

绕行事故车辆：这个确实6的飞起啊！请收下我的膝盖。

起伏烂路提前减速：

乡村小路避坑：

夜间识别黑衣路人：

夜间让行小动物：

夜间绕行桩桶：

窄路通行：

暴雨天气：

避让救护车：

查酒驾主动停车：

停车场漫游和城市漫游：

这些场景都能处理好已经很不错了，更加厉害的是通行效率还非常高，甚至用时比导航给出的还要短！

而且智驾舒适度远超传统L2级辅助驾驶。

还是全场景都能开，而且今年还会实现所有道路的体验都能像城市主路一样能做到99分那么好！

第二代VLA技术讲解

自动驾驶本质上是物理AI的问题，涉及到模型、算力、数据、本体。

物理世界比数字世界复杂度是指数级上升的，物理世界的输入信号是连续的、非结构化的，信息量大，而且不像文字一样可以去做分词和拆解。

为了处理连续信号和多模态的输入信号，小鹏设计了一套原生多模的信号处理单元，它能更高效、更原始的编码所有的信号，并且进入特别早期的融合，来避免单一模态带来的偏差。

物理世界比较复杂，需要一套特别长、特别快速的推理逻辑，这就需要视觉推理的思维链的技术，为了能够跑到实时，小鹏把视觉思维链的效率提升了32倍。而最后的输出是多模态的，能生成视频、声音、动作、行为，不仅仅是支撑第二代VLA的底层的基本底座，也是支撑小鹏去做世界模型、仿真、强化学习的基础框架。

这个多模态的模型，也是小鹏继续去做下一步，原生的舱驾一体、舱驾联动的基本框架。

小鹏自研了图灵芯片，根据目标场景和应用情况设计专门的底层硬件架构，同时也在上面打造了一套AI的编译器，让模型在上面跑得更加丝滑和高效，还根据芯片和编译器重新定义和设计了底座模型的基本结构。因此，模型在车端运行的效率提升了12倍，可以让模型跑到一个实时的帧率，摄像头多快模型就多快。

访存和计算是AI模型两个基本的操作，在说AI芯片效率的时候，计算的占用密度越高，就说明芯片的利用效率越高。经过芯片、模型结构的深度定制，编译器的联合优化，小鹏把硬件的利用效率从22.5%（通用芯片+开源模型），提升到82.5%（图灵芯片+图灵模型）。

有效算力是名义算力乘以芯片算力利用率，一颗图灵芯片名义算力大概是Orin X的三倍，经过了全场景的重构和优化之后，现在一颗图灵芯片的有效算力接近十颗Orin X的有效算力。

小鹏VLA会以更快的速度进化，从2025年初到2026年初，单颗GPU的训练效率提升1010%、单个任务的训练效率提升4360%、GPU硬件利用率提升125%，不停的在优化模型和训练过程中的容错性、稳定性、训练的效率（硬件利用率）和数据读取的有效效率。

训练过程当中，高质量的Token越多，模型的性能一般就会越强，泛化能力就会越强。现在在单次训练过程当中，云端的高质量数据达到了50PB左右的规模，这已经是正常训练一个基于语言的大模型的20倍左右的数据量。

同时因为输入的是高密度的摄像头和传感器数据，现在车上7颗摄像头，带来的高帧率、高分辨率的数据达到每秒53亿字节，是其它传感器正常的20~50倍左右。现在训练每版模型的整体的Token数量达到4万亿左右。这也是训练ChatGPT左右规模的训练数据的规模。

这说明物理世界确实比数字世界更加复杂，它的数据密度，对于算力的消耗，都要远远超过数字世界的，必须要有强大的算力和数据处理能力作为基础，才可能真正做好物理AI，去做好高阶自动驾驶。

仿真测试：小鹏的仿真场景从一年前的3万个，增加到50多万个，一天的仿真测试当量相当于人去跑3000万公里的测试数据。同时把世界模型应用于仿真测试里，同一个鬼探头场景，让世界模型生成不同的程度，并且让模型去测试。不同于传统的基于重建再去生成的方式的仿真，基于世界模型的方式可以更自然、更交互的去生成真实的使用场景，在不同的场景里面给它不同的条件，是会给你不同的结果的。正是有了这样极限的仿真测试的情况，才能保证大家拿到手的软件是一个足够安全，并且能够足够泛化的，否则是没有办法采集到那么多跟安全相关的训练和测试数据的。

把世界模型用于强化学习，做自我博弈，让世界模型根据第二代VLA输出的轨迹去重新生成它对这个世界的理解，两个过程是交互的，VLA输出一个动作，世界模型生成一个新的场景，再拿过来去做新的基础数据，再去输出下一帧，整个是一个交互，是一个活的过程。正是如此，才能做自我博弈，让模型在虚拟世界里，在世界模型里变得越来越强大。

而生成一个几秒钟的视频是解决不了问题的，因为很多物理世界的问题是需要非常长时间的推演、推理的，这就需要长时序推演。