端侧大模型将商汤推向了关键时刻

作者｜鹿尧

前两天商汤在上海临港AIDC举办了一场大会，在大模型遍地、AI满天飞的当下，这次发布的日日新大模型5.0版本，以及配套或衍生的行业大模型和AI助手，仍然成为了行业焦点。

值得一提的是，这场发布会更像是一次关于行业技术的交流会，现场来给商汤站台的大厂非常多：华为、金山办公、小米、阅文等等，从业务介绍，到实战演练，透露出一家老牌科技公司的扎实和锐利。

众所周知，在万物都朝着智能化发展的时代，大模型凭借强大的表达和预测能力，涵盖自然语言处理、计算机视觉等多个领域，能够处理复杂的任务和数据。而以OpenAI作为代表的成功范例在全行业掀起的巨浪，更足以让人们相信大模型技术的可行性和市场潜力。

但随着技术的不断深入，不同场景对大模型的需求差异日益显现，人们发现，尤其是对手机、AR等终端、及汽车在内的智能体系来说，出于对轻量敏捷、安全稳定和成本等方面的考虑，传统的大模型似乎并不能满足他们的需求。

也就在这种情况下，端侧大模型逐渐成为新的行业趋势。

以手机为例，过去的一年里，国内外包括苹果、三星、华为、VIVO等大部分的手机厂商，都在研究一门新的学问：怎么将大模型落地到端侧？而他们之所以这么做，目的也很明确，既为了在行业瓶颈掌握市场突破的重要筹码，又为了满足用户AI需求，带来革新终端的使用体验。

这也是此次商汤发布会被讨论最多的点。据了解，商汤新推出的1.8B（18亿）参数规模的 SenseChat-Lite版本端侧⼤模型，在基准测试中，全面超越了MiniCPM-2B、Phi-2等所有开源的同量级的大模型，甚至越级比肩一些7B、13B的大模型，性能、指标非常硬核。

更直观的例子，是现场演示的SenseChat-Lite与GPT-4的一场拳皇比赛，就像商汤董事长兼CEO徐立说的那样，“天下武功，唯快不破。”在不同的适用场景下，小模型决策更快，不管拳是不是最优的，但都实实在在地打到了对手的身上。

有意思的是，发布会的第二天，商汤的股价即迎来开盘大涨，一度涨超36%，周涨超80%，创上市后单周最大涨幅。不少人认为，这可能就是市场给予这家公司最直接的肯定。

端侧大模型元年

在手机上使用AI大模型其实并不是新鲜事了。

ChatGPT上线之后，国内的科技互联网圈一度处在你追我赶的状态，不到一年的时间里，文心一言、通义千问、讯飞星火等等都接连推出App应用。彼时人们的关注点大多在于，哪款产品的回复准确率更高，以及它怎么实现可持续的商业化。

不难发现，当AI的概念总以第三方应用的形式被植入手机时，人们的关注点仍聚焦软件本身，但并不会因此对某款手机产生新的认知。

大模型可以被称为一种暴力美学，一般认为，目前主流云端大模型的参数量在千亿级别，算法性能随着训练时长和数据集的增加而增长。这些基于云端大模型的App，需要调用海量的服务算力来进行数据传输，成本和安全性是服务商不能回避的问题。

此前有手机厂商透露，调用一次云端大模型的平均成本在1.2分到1.5分人民币，假设每个品牌都有上亿的用户量，每人每天调用10次，那么积攒下来的算力成本是惊人的；如果按次数或月租向用户进行收费，在功能同质化的情况下，用户的使用意愿也会很难保证。

而用户更加关注的是，喂给的数据从何而来、用到哪里去，信息储存在云端是否可靠，会不会有更多风险？

这样一来，手机厂商开始研究起大模型，由此“AI手机”的概念再度火热。虽然彼时谁都不知道AI手机究竟是什么样，不过可以肯定，联网使用某款App获得的单一体验绝不是最终的答案。

为了解决大模型算力和用户数据安全的问题，手机厂商们选择将大模型部署在本地，利用芯片算力生成结果，不用联网也能使用。毕竟云端大模型的参数规模，内存、算力和功耗的需求都是一部手机满足不了的，端侧的大模型，参数可以压缩到数十亿到百亿左右，但性能上仍然抗打。

但事实上，这将是更大的挑战，和坐拥数千张顶级显卡的大模型公司相比，手机厂商走端侧路线，意味着要在更小的芯片空间里，做出不逊于超级大模型的产品。

理想状态，每款手机都将成为给每个人量身定制的私人AI助手。就像商汤发布会上徐立演示的，在完全断网的状态下，商汤端侧大模型输出一张请假条的速度，甚至比人们阅读的速度还快很多；模拟在飞行模式时，同样可以利用AI生成详细的工作纪要，且速度基本等同人眼实时的速度。

除此以外，商汤在端侧大模型的布局思路是多模态，也就意味着数据和信息可以来自不同的感官，生成结果除了文字，未来还可以是图片、视频等多种形式，这被他们称为“扩散模型”。

在徐立看来，端侧是行业应用铺开的关键，商汤的扩散模型实现业内最快的端侧推理速度，在高通旗舰平台上能够做到小于1.5秒。在端侧和云侧的对比扩图实验中发现，端侧连扩了三张图，云端还没有完成；端侧生成3个图，云端才完成1张图的扩图，此外还能够旋转扩图、任意比例扩图。

“端侧模型对于本地的处理有非常大的友好性。”徐立说，由于是直接在本地设备上运行，无需将数据发送到云端处理，这极大减少了数据传输和等待云端响应的时间。

从行业场景上看，目前商汤的端侧模型已经覆盖到日常对话、常识问答、文案生成、相册管理、图片生成等一系列功能，而这种低延迟性，使得端侧模型在未来处理实时性要求较高的任务时具有显著优势，例如自动驾驶、实时翻译等。

业内人士透露，作为国内最早做端侧大模型的技术公司，商汤在算法和模型方面具备深厚的技术积累，且能在硬件适配和芯片兼容等方面做出创新。

值得关注的是，其多模态端侧SDK不仅广泛适配至手机、电脑、VR、车载显示屏等多种硬件场景；还能够兼容众多芯片，还实现了全系列的高通8系列芯片兼容，包括7系列芯片，甚至扩展至MTK天玑芯片，这为大模型技术的落地应用提供了更广阔的空间。

市场需要怎样的端侧大模型解决方案？

王晓刚是商汤的首席科学家，也是旗下绝影汽车事业群的总裁，在他看来，今天大模型发展最重要的并不有多少家会留在市场，而是差异化在哪。“有哪些是有价值、但风险更高，别人没尝试过，没做出来的东西，这是商汤在发展大模型时的差异化思路。”

从去年开始，商汤与小米小爱建联，通过端侧的大模型来赋能小爱众多的终端用户。

据小米集团小爱的总经理王刚介绍，小爱同学现在的用户规模达到了1.3亿人，主要以手机为主，日交互次数超过2亿次，大模型在去年8月份首先在手机和音箱上开启内测，目前已积攒了900万的大模型用户，活跃用户次日留存更是增加了10%。

“小爱不只是语音助手，更是无所不在的AI智能助手。”大模型给小爱同学带来的3点升级，分别是对话能力、垂直领域专业的AI助手、NLP任务能力的提升。而在商汤大模型的加持下，小爱除了性能明显提升，在时间性能力上，结合搜索功能，能引入可靠信息来源，提升用户对内容真实性的信任程度。

对于特定的业务场景，技术团队对小爱升级的综合能力和细节处理有更高的要求，需满足时新性、品牌导向，且及时调整来适应产品的变化；同时，通过优化输出格式，达到简洁清晰、图文并茂的输出。简单来说，有了商汤大模型的加入，小爱正成为更成熟可靠，且更懂用户的智能助手。

去年9月，在大模型内测成功之后，小米硬件部门决定在终端和高端机器上全部用上大模型，手机和音响之外，汽车是另一个布局重点。

众所周知，今年小米su7发布的火热超出所有人预期，据王刚分享，“不同于生成图文，车上大模型是完全不一样的设计体验，因为驾驶员更专注前面的行驶场景，追求简洁交互，在这方面我们与商汤一起做车上大模型的适配。”

大模型的加入，让很多以往没有的车载功能实现从0到1，用户对车内小爱同学的关注也与日俱增。还有一个容易被忽视的点，如果说过去由于技术限制，大部分的车企都倾向模块化布局，那么商汤大模型能够带来的改变则是将这些一一打通，让汽车真正实现端侧整体的智能，这背后离不开它的兼容性和多模态特征。

当然，也有很多人提出，比如手机，受限于当前GPU和NPU的硬件能力，大部分的终端仅能运行数十亿级别轻量级模型，但是这些模型训练参数较小，一定程度上会影响结果的精准输出。同样的问题可以延伸到不同的终端场景，于是，为了平衡内存、执行速度、功耗的问题，很多厂商提出了“端云协同”的需求。

背后的逻辑在于，用云侧解决复杂的大算力、大参数模型、实效性低的问题，用端侧满足数据安全性高、实时反馈、断网条件下的需求。对于商汤来说，这的确是大模型与场景协同的一次挑战，按照徐立的说法，大部分推理如果能在端侧100%完成的就完成，如果要追求高性能，就可以用端云联动的模式。

实用的模型往往能满足不同行业的差异化需求，这也是商汤重要的研发理念之一。为了达到最佳的推理效果，适配不同的业务场景，同时降低推理成本，他们提出了“端云协同方案”，针对不同行业应用设置了不同的云端联动百分比。

此前，王晓刚曾与媒体交流，“每年有30亿部手机，PC出货量一年有2-3亿台规模，AI PC可以成为我们每个人的助手，汽车智能化也处在重要的发展机遇期。”与商汤在端侧大模型展开合作的，已经覆盖了国内绝大部分的手机厂商和知名车企。现在可能到了大模型商业化普及和应用的最关键时期。

为什么是商汤？

“并不感到意外。”当天发布会现场，有投资人这么表述，作为一家成立之初就紧密围绕AI作为主要业务的科技公司，多年的技术沉淀，让商汤具备更成熟的能力做好大模型。

从个人终端到企业客户的基础设施，行业对AI的需求是多样的。2019年，商汤首次发布10亿参数视觉大模型，2022年发布320亿参数视觉大模型，到去年确立以“大模型+大算力”的发展战略，再加上旗下多款AI产品，商量、秒画、如影、琼宇、格物的多元布局，以及刚刚推出的全面对标GPT-4Turbo的日日新5.0等一系列创新。

可以说，商汤在科技圈里从未缺席，而这些成果的背后是十年如一日的持续投入。

据了解，2018年前后，商汤开始每年数十亿投入到专为AI原生打造的智算云服务平台“SenseCore”商汤大装置，并建设上海临港智算中心。

截至目前，大装置的总算力规模突破性增长到12,000 petaFLOPS，上线GPU数量高达45,000块GPU，其中临港AIDC为8400 petaFLOPS，远远超出立项规划的3740 petaFLOPS算力总量。

在算力和数据规模支持下，日日新大模型得以持续优化，但商汤的大装置不仅仅是为了支持自身的大模型研发，还作为算力服务方，支持外部客户训练大模型和应用部署：帮助自动化数据标注提升效率百倍，推理部署提高推理效率100%以上，微调和增量训练降低成本至原1/10，并提供开源模型和开发者工具，从而提升开发者效率。

目前，SenseCore已经成为国内稀缺的AI基础设施，且实现了全国联网的统一调度，在上海、深圳、广州、福州、济南、重庆等地拓展了新的计算节点。如果AI真的是未来社会进步和产业革新的关键力量，某种程度上，这也体现了商汤大装置的特殊点，它投入了很大的资源进行基础设施建设，赋能自身的同时反哺行业，将能力标准化、基础设施化、服务化，降低了整个人工智能产业创新的门槛。

时至今日，AI仍然是一个长周期，高成本投入，回报慢的行业，反倒是需要更多的战略定力。在商汤的生成式AI已经转向收入的快速回报之际，就像王晓刚说的那样，在商汤的背后，积累了大量对模型对AI的know-how，这些业务与行业的经验，或许也正在给AI结合不同产业的商业化落地提供了更具想象力的参考。

玩酷网

端侧大模型将商汤推向了关键时刻

新眸