字节跳动暂停 Seedance 2.0 的脸部照片转语音功能

优创 2026-02-11

字节跳动最近发布了 AI 视频生成工具 Seedance 2.0，它能同时处理多达四种类型的输入：图像、视频、音频和文本。

用户能组合九张图像、三个视频和三个音频文件最多十二个文件。

生成的视频时长为 4-15 秒（或 60 秒），能自动添加音效或音乐。

但由于潜在的安全风险，字节跳动禁用了 Seedance 2.0 的人脸转语音功能。

模型展现了能仅仅根据面部图像生成高度精确的个人语音的能力。

根据脸部照片生成个人声音不是新研究，早在 2024 年的 USENIX 安全会议上，新加坡国立大学的研究人员就发表论文《Can I Hear Your Face? Pervasive Attack on Voice Authentication Systems with a Single Face Image》，介绍根据人脸生成语音攻击语音身份验证系统，因为人脸特征与语音特征之间存在高度关联。

搜索

字节跳动暂停 Seedance 2.0 的脸部照片转语音功能

评论

优创