星空体育平台：字节跳动推出两款视频生成大模型

作者：小编发布时间：2024-09-30 点击：

星空体育平台：字节跳动推出两款视频生成大模型(图1)

　　自今年年初 OpenAI的Sora惊艳亮相之后，视频生成大模型就备受业界关注。虽然Sora至今尚未对外公测，但在中国国内却因此掀起了一波不小的视频生成大模型的竞赛，一些大厂和创业公司纷纷加入其中。

　　9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，同时发布了豆包视频生成PixelDance和豆包视频生成Seaweed两款大模型，目前已经面向企业市场开启邀测。

　　早在此次火山引擎发布两款豆包视频生成大模型之前，字节跳动旗下的文生视频产品Dreamina（隶属于视频剪辑产品“剪映”）在今年5月改名为“即梦”，改名的同时产品做了一次更新，普通用户即可使用AI文生视频工具生成3秒的短视频，VIP用户可以生成6秒的短视频。

　　火山引擎总裁谭待在接受《中国经营报》等媒体采访时表示，剪映对视频的理解对于豆包视频生成大模型有很大帮助。与此同时，即梦的内测版已经在使用最新的豆包视频生成模型——Seaweed。

　　同时，谭待还表示：“豆包视频生成大模型不是‘期货’，已经在内测API和应用，（国庆）节后会放出更多公开API。”

　　值得关注的是，此次火山引擎不只发布了两款视频生成大模型，还带来了多款垂类大模型，包括新发布音乐模型、同声传译模型，升级通用语言模型、文生图模型、语音模型。“垂类大模型产品的发布，对于大模型在B端市场的落地具有重要意义。”北京大数据协会理事、北京融信数联科技有限公司CTO张广志对记者说道。

　　此前国内已经发布了多款视频生成大模型。从效果来看，目前对外公测或者开放使用的视频生成大模型在运动平滑度和成像质量方面表现出色，但整体来看，大多数只能完成简单指令，并且仍存在一些稳定性问题。例如，某些模型在生成过程中，生成质量不够稳定。

　　豆包视频生成大模型在活动现场展示的视频生成效果则有令人惊艳之处。效果显示，豆包视频生成模型已经能够实现自然连贯的多拍动作与多主体复杂交互。有创作者在抢鲜体验豆包视频生成模型时发现，其生成的视频不仅能够遵循复杂指令，让不同人物完成多个动作指令的互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

　　从技术实现路径来看，OpenAI推出的文生视频大模型Sora，其背后采用的是融合架构DiT（Diffusion Transformer）和原生多模态技术路线。

　　据介绍，豆包视频生成模型也是基于DiT架构。不过，豆包视频生成模型通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换的同时保持主体、风格、氛围的一致性。

　　“豆包视频生成大模型能攻克指令遵循、运镜（多镜头下主体一致性）等难题，背后有技术上的突破和全栈能力的优势，还有抖音、剪映对视频理解的优势。”谭待说道。

　　张广志对记者表示，国外的视频生成大模型可能在算法优化、模型训练、生成效果等方面更加成熟和稳定。然而，国内企业也在不断努力追赶和超越。通过加大研发投入、优化算法模型、提升数据处理能力等措施，使得国内企业在视频生成大模型领域也取得了显著成果。

　　据字节跳动方面介绍，经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格，适配电影、电视、电脑、手机等各种设备的比例，不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景，也能为专业创作者和艺术家们提供创作辅助。

　　目前，新款豆包视频生成模型正在即梦AI内测版小范围测试，未来将逐步开放给所有用户。

　　谭待表示：“视频生成有很多难关亟待突破。豆包的两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”

　　不过，目前豆包生成视频大模型的定价还没确定。谭待透露，视频模型和语言模型应用场景不同，定价逻辑也不同，要考虑新体验、老体验、迁移成本等问题，最终能否广泛应用取决于是否能比以前提升更多的生产力ROI。

　　此次，豆包大模型不仅新增视频生成模型，还发布了豆包音乐模型和同声传译模型，全面覆盖语言、语音、图像、视频等全模态，可以满足不同行业和领域的业务场景需求。

　　今年5月，字节跳动正式发布豆包大模型时，定价只有0.0008元/千tokens，低于行业99%，带头把大模型的价格打到了“厘时代”，掀起了国内大模型的降价潮。

　　张广志对记者指出，价格战直接降低了B端企业使用大模型的门槛，使得更多企业能够负担得起大模型的费用，从而促进了AI大模型在B端市场的普及。

　　“以前大模型的调用成本是大规模应用创新的阻碍，经历了降价潮后，大模型的价格已经不再是阻碍。”谭待说道。

　　据火山引擎方面披露，截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时增加了10倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

　　谭待认为，随着企业大规模应用，大模型支持更大的并发流量正在成为行业发展的关键能力。据介绍，业内多家大模型目前最高仅支持300K甚至100K的TPM（每分钟token数），难以承载企业生产环境流量。例如，某科研机构的文献翻译场景，TPM峰值为360K，某汽车智能座舱的TPM峰值为420K，某AI公司的TPM峰值更是达到630K。

　　“接下来要做的是在价格基础上，提高大模型质量和性能。质量就是让模型能力更强、更多元；性能方面，就是解锁更多场景。”谭待说道。

　　豆包大模型此次推出视频生成模型、音乐模型和同声传译模型，深意也是通过垂类大模型打开不同行业不同的场景需求。

　　“目前，大模型市场正在从通用大模型向垂类大模型发展。”张广志对记者说道，这主要是因为通用大模型虽然具有广泛的应用场景，但在解决特定领域的专业问题时往往存在局限性。相比之下，垂类大模型能够针对特定领域进行深度优化和定制，提供更加精准和高效的解决方案。“需要强调的是，通用基座和垂直应用，分别属于不同的生态位，有各自差异化的技术迭代和商业化路径。”

　　谭待说道：“解锁大模型的新场景，其实需要的能力更强。所谓新场景，比如从聊天到群聊的场景，从解小学数学题到解高中数学题的场景。解决新场景的背后成本是关键，成本高无法起量，成本降低也不一定起量，更重要的是需要提升能力。我们认为在大模型使用量增长的同时解锁新场景、新能力更有价值。”星空体育平台星空体育平台

推荐资讯

推荐产品

星空（StarSkySports）体育·官方网站-星空领跑体育未来

星空体育平台：字节跳动推出两款视频生成大模型