字节藏了一手“牌”
- 2025-07-13 00:13:59
- 570
出品|虎嗅黄青春频道
作者|商业消费主笔黄青春
头图|电影《Her》
字节跳动又盯上“情感大模型”了。
虎嗅获悉,字节跳动旗下火山方舟大模型平台将上线一批“情感大模型”,向企业提供API调用、AI对话解决方案(如客服、信息检索服务等);豆包则在自研新“情感大模型”——与年初接入DeepSeek时策略一样,字节跳动依然坚持“火山开放,豆包自研”的路线,兼顾生态与自有产品。
虎嗅就上述信息向字节方面求证,火山引擎相关负责人回应称,有关“情感大模型”信息不实,没有此模型计划。
简单来说,字节跳动之所以盯上“情感大模型”,源于其并非普通数据处理大模型,而是以“拟人化情感理解”为核心,即通过技术识别、理解来模拟人类情感——去年,HumeAI推出具有情商的对话式AI,已经能检测到用户53种情绪,未来电影《Her》中主人公迷恋上Samantha的剧情或将照进现实。
不止“聊天”,更懂“人心”
很多读者或许会好奇,“情感大模型”到底有什么特别之处?
区别于传统聊天机器人机械的交互,“情感大模型”不仅追求对话能力,更注重用户情感体验(如接近真人的语音、可打断对话等)——具体而言,“情感大模型”会通过分析用户的语调、停顿、表情理解情感,从而生成符合情绪的回应,即通过“理解情绪+精准回应”使交互更生动、真实。
简单概括就是:“情感大模型”不止“聊天”,更懂“人心”,更能“共情”。
可别小瞧了这个隐秘的新风口:
腾讯研究院《2024大模型十大趋势》报告显示,“情感大模型”的发展将引领AI陪伴市场的快速增长,预计在接下来的2-3年内,人机陪伴市场将迎来产品和用户数量的爆发式增长;
另据非凡产研数据,人工智能伴侣平台的月活跃用户数量2018-2023年间增长了30倍,全球市场规模预计将在2023-2030年间,从3000万美元飙升至1500亿美元,年均复合增长率达到236%。
“情感大模型”之所以突然成为市场关注的焦点,一个重要原因在于:它正推动AI从“工具属性”向“情感伴侣”延伸,从而打开全新的应用场景。
基于此,“情感大模型”的技术演化形成了两条路径:一是在通用大模型的基础上,通过增强多模态情感计算能力,催生出具有更好情感理解与响应能力的AI情感应用,如豆包实时语音大模型可实现端到端对话、低时延、接近真人交互。
二是专注于情感领域的生成式大模型,如HumeAI的移情语音界面(EVI)、祝语未来科技的AEGMV等,这也是字节正在布局的方向。
以Character.AI为例,不仅支持1对1聊天,还可以进行创作角色、发展剧情,甚至拉角色开“群聊派对”,其7月5日新发布的TalkingMachines(自回归扩散模型)可以实时进行AI角色视频互动——用户只需要输入一张图片和声音信号,该模型就能实现类似FaceTime的通话视觉互动。
与之对应,仅去年上半年,Character.AI在移动端累计下载量已突破3432万,网页端单月访问量高达3.1亿,在相关榜单仅次于ChatGPT。
一位大模型工程师向虎嗅解释,“情感大模型”多以Transformer为基础不断改善网络结构,采取全模态关联,中间不进行模型转换动作,而是通过小组件改善准确率。
基于这样的技术特点,企业要如何落地应用呢?
虎嗅了解到,“情感大模型”与传统大语言模型在参数量和算力上有差异,业内普遍做法是有更多NLP专家参与,采用通用加分散专家模式,相比传统模型在算力上有所节省,但对特殊数据要求高。
与之对应,情感模型领域多采用端到端形式,不能像正常架构那样转换数据,否则模型效果差——有鉴于此,为保证长时间生成领域效果,训练时所需算力比通用版本高30%-50%。
一位大模型创业者向虎嗅分析,“现阶段,国内外‘情感大模型’发展存在一定差距,国内大概比国外晚一年左右;也可以将‘情感大模型’视作通用大模型发展的一个节点,涉及到多模态多端学习和MoE架构(即混合专家模型,是一种新型的大模型架构,其核心思想是“术业有专攻”,通过多个“专家”模型共同协作来处理复杂的任务),国内在相关技术研究上已取得一定进展。”
聚焦到产品,开源证券研报指出,GPT-4o等多模态大模型正加速推进AI情感陪伴大模型落地,提供实用性Agent功能。
比如,国外Miko公司推出第一代AI伴侣,初步实现AI与IP联动;Curio于2023年12月推出针对3-12岁儿童的AI玩具,包括Gabbo、Grem和Grok三款产品。
至于国内,FoloToy联合火山引擎推出“显眼包”,跃然创新持续迭代BubblePal(截至2024年10月已销售数万台);Looi推出可移动手机支架形态的桌面机器人,具有调整情感反应和性格特征等功能;CASIO推出AI宠物机器人Moflin,提供情感治愈价值。
字节埋“伏笔”
面对这样的市场与技术趋势,字节跳动如何布局?
虎嗅了解到,字节跳动计划通过不同垂类大模型带动豆包月活在2025年实现翻倍。
与之匹配的动作包括:一方面,字节会围绕抖音等C端体系推进娱乐、社交、陪伴、游戏场景渗透;另一方面,字节跳动会进一步提升火山引擎在ToB领域的输出能力,为企业提供API调用、AI对话解决方案等服务,例如,为客服、销售、售后等岗位提供个性化服务,还能与智能家居、音箱、耳机(比如OlaFriend智能体耳机主打卖点就是接入豆包AI大模型)等硬件结合,未来能在唱歌、作曲等领域有更好的发展。
一个有趣的切面是,“情感大模型”在语音层面学习时,会将语音、语调、面部关键点参数(如唇形等面部landmark参数)以及对应的文字以数据对形式放入模型,在语速、语调、视觉等多模态之间建立统一关联——这不仅涉及用户表达、短语分析,更深层次还需理解用户真实感受,敏锐地捕捉到用户内心愉悦、生气、担忧等情感状态。
比如,HumeAI在2024年发布的EVI能够从用户那里检测到约53种不同的情绪,宣称是“第一个具有情商的对话式人工智能”。
对此,HumeAI首席执行官艾伦·考恩(AlanCowen)表示,“情商包括从行为中推断意图和偏好的能力——这是人工智能界面试图实现的核心:推断用户想要什么并执行它。因此,从用户真实需求层面来看,情商是人工智能界面最重要的要求。”
有鉴于此,“情感大模型”能大幅提高用户体验与交互效果,适用于助手类效率提升产品,在信息检索、陪伴、知识协作、AI玩具、社交游戏等领域有显著优势——更隐秘的躁动则涌向了AI情趣机器人,一度带动二级市场产业上下游关联企业股价攀升。
有从业者告诉虎嗅,通用大模型未来会融合各种细分模型,如“情感大模型”、文生视频大模型、图生视频大模型等,从而变得更加全面、强大;至于大模型下一阶段进化方向,行业资深从业者的共识是世界模型(媲美人脑,通过学习现实世界中的物理和因果规律,具备“物理直觉”,可在内部模拟环境变化,并基于当前环境状态推演未来状态,同时评估自身行为后果)。
至于市场潜力,“情感大模型”热浪或将推动消费类机器人加速升级——群智咨询显示2024年全球机器人出货规模约4700万台,未来5年复合增长率超20%,消费类机器人占比约81%;高盛预测2035年全球人形机器人市场规模达1540亿美元。
当然,“情感大模型”现阶段仍面临诸多问题,如算力消耗非线性增长、模型长效记忆能力、数据收集与隐私安全等,这些既是大厂跑马圈地过程中的阻碍,也能成为业务突破后的技术护城河。