CES观察:AI无处不在但大语言模型的主要应用场景仍停留在聊天
发布时间:2024-09-08 21:33:42

  公海赌赌船官网2024年的电子春晚的CES落幕了,四天的展会吸引了超过13万观众的参与,恢复了疫情前的繁华。很多展台之前都排起等待参观的长龙,人头攒动。那些吸引最多人流的站台往往都有个明显的标签——AI。

  展会之前,Moor Insights & Strategy的资深分析师Anshel Sag就表示,“在去年的CES上,AI还没有权力开火,如果你认为AI是去年的浪潮的话,那今年它就是海啸。“

  AI确实如海啸般汹涌的卷过CES的会场。电脑厂商从联想到ROG,家电厂商从三星到海信,汽车厂商从奔驰到大众,几乎每家大企业的展台中都有一个或大或小的区域专门介绍AI方面的升级。

  然而实际体验下来,从电脑到到小家电之间,AI化的程度存在着不小的差异,但对于席卷全球的大语言模型而言,几乎所有的产品都只能算是浅尝辄止。只能说有了,但很难说它和产品已经有了比较成功的融合。

  这次腾讯科技将根据CES现场的观察和与厂商的交流,分别针对AIPC、手机端AI、AI上车、家电AI化和机器人这几个本届CES上AI相关性最高的领域逐一进行阐述。

  行业认为,2024年将成为AI PC年,从联想到Intel今年都在讲AI PC的故事。但在今年的CES上,我们看到的更多是像HP Spectre x360 14一样只是装载了AI芯片的PC;或者是如戴尔XPS 13、联想Yoga Pro 9等,在PC上多设置了一个直接唤起Windows Copilit的按键而已;走得最远的,是联想在端侧直接内置了AI NOW大模型能力的尝试。

  正如联想CEO杨元庆在CES过程中的采访中所说,当下的AIPC还处于AI Ready的阶段,也就是把硬件提升到支持大语言模型的阶段。而现实是,更好的产品AI化体验和AI应用的成熟的AI ON阶段还没有完全到来。

  在CES谷歌的展台上,到处都有AI的身影,但还是和半年前Palm 2发布会上所带来的惊喜差距不大。

  如魔法相机,用户可以移动照片里的对象或者更换环境光色;智能回复功能:你可以让AI替你回电话或者自动生成几种不同情绪和态度的回复文本。

  当有人问谷歌站台的工作人员“Bard现在有内置App吗?“以及”Bard能否关联到手机的本地信息?“时,得到的答案都是否定的。

  这也许是因为手机算力的限制。本届展会上谷歌用来展示其AI能力的设备主要是其最新的手机系列Pixel 8,它所搭载的Tensor G3虽然在AI能力上做了一些提升,但相对于竞品的苹果A14或骁龙Gen8 3在性能上仍有很大差距,预期能本地运作的大模型参数不会超过4B参数。

  至于几个月前Youtube AI就宣布的创作工具,我们在CES展会上能看到的仍然是只能作为视频演示的beta版本,且三项演示的功能分别为智能声音降噪、智能分辨音乐节奏点和智能字幕,确实有些新意不足。它的主要竞品剪映在至少一年前就上线了这三个功能中的两个。

  其他手机厂商在系统中展现的AI能力也都比较平庸,ROG Phone 8 Pro主推的AI功能也是AI自动生成壁纸,人工智能降噪这些不疼不痒的应用场景。

  在汽车领域,AI融合的阶段和PC相对类似:大模型上了车机,但主要的应用还是作为语音助手。它可以调用起地图、娱乐系统等车上应用,但这也是大模型上车之前那些NLP语音助手就已经拥有的能力。

  AI上车最简单粗暴,拿来主义的方式就是接入现有模型。这种模式的核心范例就是大众汽车,其最新的ID3、4、5系列将是第一款接入ChatGPT的汽车。宝马汽车也类似,只不过接入的是亚马逊的Alexa 大语言模型。

  除了简单的AI上车机之外,奔驰对AI的相对走得最远。它在CES最新发布的车机系统MBUX是基于MB.OS操作系统打造,具有四个“性格特征”:自然、预测、个性和同理心,可以和用户像朋友一样交流。

  虽然奔驰未透露该模型的合作方,但这些描述能让人首先想到Inflection AI(它是一家同样强调有同理心的AI助手的大模型公司,是OpenAI的主要竞争对手之一)。但奔驰并没有开放MBUX的实机测试,因此也无法评价它的实际体验到底如何。

  高通在它骁龙数字底盘概念车系统展现了AI与汽车定制化结合的更具体范例。这款系统提供了基于Llama2和Whisper的纯端侧大模型能力,除了一般的对话娱乐功能外,AI的定制化展现在它对车况的了解上:当你的汽车出故障的时候,它能语音告诉你故障显示的意思和准确原因,而且还会给你建议最近的维修店地址。

  但这一了解似乎主要出自于某种故障排查手册,而非对整车情况的实时监控。所以虽然进行了融合,但还只是最初步的融合,很难带来真正体验上的提升。

  在家电领域,AI和家电功能性的融合的点更多,整体逻辑也更成熟。但很主要来自对之前智能家具能力的升级,而非对新诞生的大模型的应用。原因其实很明确:对于一款主要功能并不是和用户聊天的家电产品来说,要用高成本的AI芯片来接入大语言模型实在太不经济。

  比如AI口号喊得最响,乃至打出了“AI for All”招牌的三星,在CES展出了AI融合明星产品BESPOKE冰箱:它的AI融合点在拥有一整套Family Hub智能系统,可以通过内置摄像头+图像识别AI冰箱内的物体,提醒用户食材数量大概还能食用多久, 还可以通过选择几种食材在社区中为你推荐相关菜谱。然而这些功能中能和AI挂钩的就只有图像识别部分。至于看起来很AI的对话功能则是通过它内置的语音助手Bixby完成的,这个系统初代版本可以追溯到2017年,和Siri、微软小冰的定位一致,是当时很流行的手机语言支持系统,在家具智能化的大潮之中逐渐普及到三星的家电用品上的。

  考虑到当下的家电芯片算力,也许它会在未来几年内与大语言模型产生结合,但在现下的版本中它应该还是由NLP专家模型主导,只能有效回答固定的命令。

  三星的另一款不那么受关注的产品更好的显示了AI处理能力与传感器融合的倾向:BESPOKE AI洗烘一体机,这台洗衣机可以根据其内置的重量、视觉、湿度传感器去判断需清洗衣物的质料、量和污浊程度,再将这些信息传输给AI系统用以调控水量、温度、清洗强度和时间。AI在这里和更多的传感器融合,获得了更全面的感知能力,进而能做到更复杂的控制。但和BESPOKE冰箱一样,它的对话和控制系统也不是基于大语言模型的。

  另一个AI化倾向明显的产品领域是电视。LG、三星、TCL、海信等电视品牌今年都推出了AI芯片驱动的电视。AI带来的一个主要能力是Upscale,也就是画质升格。LG,三星的电视今年都支持将4k画质提升到8k画质。这一功能对于目前在主推8k电视的高端电视品牌来讲确实很有价值,因为现有流媒体中8k片源非常稀少,买了8k电视也没有用武之地。这一最新的画质升格技术确实用到了深度学习和GAN神经网络,因此必须借助AI芯片才能达成。但它依然和大模型的关联也并不大。

  以上的这些产品都在应用层逻辑上找到了与AI能够结合的方向以及可适用的场景,但都还没在应用到大语言模型。

  在这次CES上,LG推出了Q9机器人,三星则针锋相对的升级了Ballie机器人,定位都在家庭私人助理。在两个厂商的讲解和展示中可以确认这些机器人都确实装载了大语言模型;他们能够完成相对复杂的交互,理解乃至通过感应系统预判用户的需求(比如你在健身时从站着变成横躺,那它就会把投影投向屋顶),并可以调用智能家居中的其他一切设备用最合适的方式来完成用户的需求。

  这可能就是家电厂商对AI智能化成本的解决方式:与其所有的产品都使用高成本的芯片,不如就做一个统合助理来调用所有智能家电产品。

  除此之外,据两家厂商宣称,它还可以通过学习用户的个人习惯和偏好,来更好地做出适合其情感或生活需求的判断,而这一功能目前连ChatGPT都还做不到。

  这两款机器人目前都是概念阶段,比如Ballie,从它2020年第一代展示到现在从没有任何发售的迹象,但它们展示出了是当AI Agent实体化后所能给我们生活带来的改变。

  这也是我们在这场展会中看到的最接近AI真正融入电子产品后的一种样态之一。

  在今年CES的机器人展区中的机器人很多,但并没有出现借由大模型训练的机器人。这本来是今年学术界的一个热门方向,如今年李飞飞团队带来的基于语言模型训练的机器人RT2,斯坦福大学另一组团队做出的火爆全网的AI机器人,都能自主学习,完成多任务。但可惜的是,他们应该都还在实验室里。

  在CES展区中,有来自Richtech Robotics的双臂机器人ADAM,这引来微软CEO Stella围观的开普勒人形机器人和宇树科技的H1人形机器人这样偏向传统意义的动力型 / 工业型机器人,虽然在灵活程度和机械协调性上表现的更加出色,但和这波AI浪潮的关联并不强。其智能处理要来自于编程或传统机器学习方法训练,而非大模型。

  毫无疑问,在本届CES上,AI与各种场景的融合都在加深,这种融合从各个方面都在提升着智能产品的能力。但带来AI浪潮的大语言模型在其中扮演的角色却并不那么重要,目前的阶段,只是将生成功能简单地平移到各个场景中去,而非深度融合。

  尽管如此,但本届CES毫无疑问是应用层面上将大语言模型从网页、手机上进入实体生活的第一次地集中展示,同时也给“生成AI 融合万物”的未来期许开了一个好头。从这些“实体化”了的AI中,我们能够一些未来潜在的趋势。

  在现有的大语言模型中,AI获得的信息大多来自预训练的文本或者图像。但在实际生活用例中,场景中的信息是较之图像、声音和文字更多元的,比如温度,重量等。部分传感器提供的是图像或图像信息的抽象(雷达),是可以被多模态模型直接应用的;而更多传感器提供的是多元环境数据信息,对整合文字、声音、图像、视频这四个最主要人类感知信息源的多模态模型提供盒更多了环境信息的补充。有了传感器的结合,AI才有了真正的环境理解能力和在场性。

  目前的大语言模型在这方面的实践还很初期,虽然它可以理解用户的部分意图并作出判断,但环境信息的接收有限,能将环境和应该做的操作联系起来的路径还没建立。这也是为什么它在当下和产品结合时更多让人感觉飘浮和分离的重要原因之一。

  从三星BESPOKEN洗衣机那里,我们可以想象当大语言能够真的依靠传感器在多模态的应用上取得进一步突破,我们将进入一个全新的智能化领域。

  在今年的CES上很多车机或者家电公司都强调要通过AI给用户带来更个人化的体验,不论是在情绪还是在生活偏好上的体验。但当下的AI个人化在很大程度上是基于AI对文字表达需求的理解上的,但很多人的偏好可能是通过行为,而非语言表达的。只有在具体的需求场景下,AI才有可能通过观察人类行为的信息并推断出相应的偏好。这是创造一个真正的理解你的个人AI助手的核心需求之一。为了达到这个目的,AI的发展会在后续持续向这种可能性进发。

  今年在CES上最火爆的AI产品就是Rabbit R1,它的底层逻辑就是通过AI Agent的能力将某一个应用或者设备变成所有应用的入口。

  这个逻辑其实和亚马逊的Alexa,上文提到的Ballie、Q9智能家居助手都很像,用一个AI系统调起所有自己支持的API(智能家居,车辆能力),并成为用户意图和多产品功能之间的中转站。

  在腾讯科技在CES期间对高通副总裁Zarid Asghar的专访中,他也认为AI在后续发展中会成为作为一切应用的入口,由此诞生出新一代的AI智能设备。

  Rabbit R1 正是走在这条路上,我们认为,这也将成为后续AI智能设备发展的的主流方向。

  大语言模型在语言交互、知识检索之外有一个很强的泛化能力,即统合信息进行预测。

  当这些信息是一些非语言,或者我们难以理解的语言时,预测在很大程度上就成为了翻译。比如很多科学家试图利用大语言模型理解鲸鱼、狐狸的语言并取得了一定的效果。

  今年的两个非常有创意的AI产品都是基于大语言模型这一能力的使用的。比如获得了CES今年创新大奖的Anura MagicMirror,它就是通过其情感技术DeepAffex识别并分析人的面部血流,将其转译为包括血压各种健康指数,并预测患病概率的产品。

  另一个更直接利用这种转译的产品是Cappella,其手机应用程序可以基于大模型“翻译”宝宝的哭声,告诉你他们是饿了、不舒服、累了还是需要换尿布。Cappella声称,利用人工智能和机器学习来解读婴儿的需求,其技术的准确率约为95%,而对于试图猜测婴儿需求的人类来说,准确率约30%。

  所以,其实除了聊天之外,大语言模型逻辑下的AI,还是有很多应用逻辑和场景有待发掘。期待在明年的CES上,会有更多企业能发现这些可能性,让AI真正进入数字设备中。


本文由:公海赌赌船家具有限公司提供