当下,下一代 AI 的发展似乎遭遇了难以逾越的瓶颈。去年 12 月,OpenAI 在 ChatGPT 两周年期间发布了多项更新,但备受期待的新一代大模型 GPT-5 却始终未露面。知情人士透露,GPT-5 的内部代号“Orion”虽已进行数月的后期训练,但仍未达到发布标准,短期内推出的可能性微乎其微。与此同时,Anthropic 等公司的下一代模型也面临类似困境。
大型模型的训练成本高昂,可能耗费数千万美元,且训练周期长达数月。除了 GPU 需求激增,电力供应也成了 AI 训练的一大瓶颈。此外,数据匮乏也成为生成式 AI 发展的重大挑战——我们正逐渐耗尽全球所有可访问的数据。
为了突破这些限制,研究人员开始探索新的方向。OpenAI 前首席科学家 Ilya Sutskever 表示:“2010 年代是扩展的时代,如今我们又回到了好奇与发现的时代。找到正确的扩展方向比以往任何时候都重要。”
生成式 AI 的新形态正在浮现
2024 年 8 月,谷歌的 Gemini 1.5 Pro 超越了 GPT-4o,标志着大模型竞赛的“逆袭”成功。谷歌的技术被认为最具颠覆性,重新回到了领先梯队。面对新一轮的理论升级,Anthropic 等公司迅速跟进,而 OpenAI 则推出了主打“复杂推理”的 o1 大模型,专注于解决复杂难题。
在国内,商汤科技也取得了重大突破,发布了“日日新”融合大模型,实现了原生融合模态训练的实质性进展。生成式 AI 爆发后,多模态大模型成为热门方向,但目前的多模态模型大多并非“完全体”。
模态融合(Multimodal Fusion)被认为是 AI 未来发展的必由之路。 谷歌认为,只有从头开始的多模态训练,才能构建出超越前代的先进模型。这意味着模型能够天生读取和输出不同模态的内容,并具备强大的多模态推理能力和跨模态迁移能力。
这是一个符合直觉的技术方向——只有让机器对物理世界中的多模态、多维度信息进行感知,才能发展出类似人类的分析、判断和决策能力。在新范式下,用户可以自然地与 AI 交流,输入语音、图片、文本甚至短视频,输出形式也更加自然。
商汤原生融合多模态模型的突破
商汤的原生融合多模态模型打破了大语言模型和多模态大模型分立的局面,真正实现了模型的统一。这一突破不仅推动了大模型进入多模态时代,还在视觉、语音、数学推理等方面实现了前所未有的能力,大幅提高了技术门槛。
得益于在计算机视觉领域超过十年的深耕,商汤在多模态时代的优势逐渐显现。商汤发布的“日日新”融合大模型交互版(SenseNova-5o)提供了实时音视频对话服务。测试显示,该模型反应迅速,与真人对话无异,能够记住长达 5 分钟的内容,支持多轮对话。
商汤“日日新”模型的实际表现
商汤的“日日新”模型在多个场景中表现出色:
- 娱乐场景:能够识别和理解跨文化传播中的幽默感,分析影视梗图并准确回答相关问题。
- 旅游场景:通过一张图片就能详细介绍文物的历史背景和制作工艺。
- 学习场景:能够分析数学题并提供清晰的解题思路,还能进行图表分析。
更低成本,已实现商业落地
商汤“日日新”融合大模型已向客户开放端到端 API 调用,同时交互版(SenseNova-5o)也已商用(限时免费)。SenseNova-5o 提供两种交互模式:
半双工模式:类似对讲机,支持平均 560 毫秒响应,支持 1200×800px 图像解析和不超过 30 秒的音频输入。
全双工模式:类似电话通信,实现流畅的语音 + 视频交互,接近人类面对面交流的体验。
权威测评显示,商汤“日日新”融合大模型在图文推理和语言等方面达到了业内最优水平。在 SuperCLUE 的《中文大模型基准测评 2024 年度报告》中,商汤“日日新”与 DeepSeek V3 并列国内第一。在 OpenCompass 的多模态评测中,商汤“日日新”也取得了第一名,领先 GPT-4o 和 Claude 3.5 Sonnet 等。
商汤表示,与分别训练语言大模型和多模态模型相比,训练“日日新”融合大模型的总体成本降低了 40%。
AI 扩展定律仍有潜力
中国在 AI 领域的快速发展正在赶超美国。商汤在模型算法、算力、行业经验和工程落地能力等方面具备绝对优势。商汤“日日新”融合大模型已落地于具身机器人、AI 眼镜、手机和教育等多个场景。
商汤科技联合创始人林达华表示:“多模态大模型应与广泛业务场景结合,解决复杂问题。” 他还指出,真实世界的数据远超互联网数据,多模态模型能够更好地利用这些数据。
商汤通过原生融合模态训练,为未来 AI 发展开辟了新的想象空间。未来,我们或许可以期待空间结构输入、机器人与 LLM 推理能力的高度结合,以及更多领域的拓展。