年终大模型再“降价” 视觉理解模型进入“厘时代”

　　大模型价格战风云再起。

　　在12月18日举办的火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，为企业提供更具性价比的多模态大模型能力。根据该发布会数据，豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，比行业价格低85%，以更低成本推动AI技术普惠和应用发展。

　　研究显示，人类接收的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会**人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

　　据火山引擎总裁谭待介绍，豆包视觉理解模型不仅能精准识别视觉内容，还可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。

　　会上，豆包3D生成模型也**亮相。此外，豆包大模型多款产品也迎来重要更新：豆包通用模型pro已**对齐GPT-4o，使用价格仅为后者的1/8。音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品。大会还宣告，2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版。

　　无独有偶，也是在同一天，OpenAI也加入了“降价大军”，其正式版o1模型的API与预览版本相比思考成本下降了60%，GPT-4o的音频成本也下降了60%。降价幅度**的GPT-4o mini的音频价格比当前价格便宜了10倍。

　　回溯至今年5月，字节跳动**推出了豆包大模型，并在企业市场中以每千Tokens 0.0008元的**价格亮相，这一价格使得处理1500多个汉字仅需0.8厘，相比行业平均水平便宜了99.3%，大模型的价格体系实现了从分至厘的跨越性调整。

　　随后，云计算领域的其他巨头也纷纷响应，阿里云宣布其9款商业化及开源系列模型降价，百度智能云则宣布文心大模型的两款主力产品ENIRE Speed与ENIRE Lite**免费。在2024年的云栖大会上，阿里云再次宣布三款通义千问主力模型降价，**降价幅度达到了90%。

　　数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前**发布时增长了33倍。显示大模型应用正在向各行各业加速渗透。