说起AI感知物理世界这件事,大家可能觉得有点抽象。其实咱们可以想一个具体场景:你让AI帮你找一下昨天放在沙发上的钥匙,它现在能做到吗?大概率不行。它能跟你聊哲学、写代码、画一只会飞的猪,但就是没法告诉你钥匙在哪。这背后暴露了一个很扎心的事实:AI在数字世界里是天才,在物理世界里就是个刚学会走路的婴儿。
AI到底卡在哪了?
说白了,现在的AI就像个被关在图书馆里的学霸,读了一辈子书,但从来没出过门。它知道“下雨”这个词的定义,能写出关于雨的优美诗句,可它没法真正感受雨滴打在脸上的凉意,也没法判断窗外的雨到底有多大、什么时候该收衣服。这种“感知”的缺失,不是靠堆算力、多喂数据就能解决的。
咱们日常用的手机、摄像头,本质上是“记录”设备,不是“感知”设备。它们把光信号转成数字,但机器并不理解这些数字背后的物理含义。比如一张照片里有人微笑,AI能识别出“微笑”这个标签,但它不知道这个微笑是真心开心还是礼貌性假笑,更不知道这个人的情绪状态。这种“理解”的鸿沟,就是AI感知物理世界的最大障碍。
为什么手机厂商都在拼命搞影像?
你可能觉得手机影像就是拍得更清楚、夜景更亮、人像更美。但往深了想,影像其实是AI感知物理世界的“眼睛”。如果连眼睛都看不清、看不懂,那AI就别提什么走进现实了。
最近vivo在博鳌论坛上提了一个挺有意思的概念:把影像从“记录工具”升级为“感知系统”。他们内部甚至把“感知”列为跟影像同等重要的长期赛道,打算至少投十年。这背后的逻辑是:未来大模型会越来越同质化,开源速度越来越快,各家AI能力拉不开差距。但感知系统不一样——它采集的是真实物理世界的场景数据,每个品牌用户群体不同、使用场景不同,积累的数据就不同。这些数据才是真正的护城河。
举个例子,特斯拉的自动驾驶模型可以公开,但它的道路数据不会公开。模型可能被追上,场景数据才是别人拿不走的。手机厂商做感知,本质上也是在积累这种“物理世界的数据资产”。
那到底还要等多久?
这个问题没有标准答案,但可以分几个阶段来看。
短期(1-2年):咱们能看到一些“轻感知”的应用落地。比如手机自动识别你是在拍人还是拍风景,自动调整参数;或者相册里的AI能根据照片内容帮你整理回忆。这些其实已经在做了,vivo的X300系列上就有相机Agent,能自动判断拍摄场景给出建议。但这种感知是“被动”的,机器还是等用户按下快门才去分析。
中期(3-5年):真正的主动感知可能到来。比如你走进房间,手机自动感知光线、温度、空间布局,甚至通过摄像头捕捉你的表情和动作,判断你的情绪状态。这需要端侧算力和传感器的大幅升级,同时要解决隐私问题——这些数据必须本地处理,不能上传云端。vivo的规划里,2026年之后才会逐步实现这种实时环境感知能力。
长期(5-10年):AI才能真正走进物理世界,比如家庭机器人。它能帮你喂宠物、收衣服,甚至在你下班回家时感知你的疲惫,主动调暗灯光、放首舒缓的音乐。但这需要影像、声音、触觉等多模态感知的融合,还要有足够强的行动能力。vivo的机器人实验室还在早期阶段,没有原型机,他们计划从单一场景(比如宠物喂食)开始,一步步“沿途下蛋”。
所以,别指望明天就能让AI帮你找钥匙。但仔细想想,从AI只能打字聊天,到能看懂一张照片里的物体,再到能理解空间和情绪,这每一步其实都在加速。咱们现在正处在从“记录”到“感知”的转折点上,可能比想象的要快,但也别太乐观——毕竟,让机器真正“懂”这个世界,比让它“会”做什么难得多。