OpenAI，再次“炸场”

OpenAI，再次“炸场”

作者丨孔海丽

编辑丨骆一帆

图源丨图虫

继文生视频大模型 Sora 后，近日，OpenAI 终于将按捺许久的语音引擎模型— Voice Engine 公之于众。

利用文本输入和单个 15 秒音频样本，Voice Engine 就能生成与原说话者非常相似且情感丰富的自然语音。不过，和文本生成视频模型 Sora 一样，目前 OpenAI 只针对少部分内测用户开放 Voice Engine。

OpenAI 在其官网披露，2022 年底，Voice Engine 就被首次开发，并已经用它来支持文本转语音 API 以及 ChatGPT 语音和朗读中可用的预设语音。但考虑到合成语音被滥用的潜在风险，OpenAI 选择了谨慎有序地推进和发布 Voice Engine。

近两年，全球生成式 AI 应用规模呈现爆发式增长。据 IDC 预测，全球 AI 软件市场规模有望从 2022 年的 640 亿美元增长至 2027 年的 2790 亿美元，复合增长率为 31.4%。

华泰证券分析师认为，随着基础模型能力优化，多模态应用有望在内容创作、AI 教育、虚拟陪伴等场景加速落地。

Voice Engine 的问世，解锁了语音模型的更多可能性，例如辅助阅读、视频转译等，也将在发音障碍人群的语言表达上提供有效帮助。

当 AI 瞄准声音克隆技术

去年，" 霉霉 " 说地道中文的视频火上微博热搜，而这背后的 AI 工具来自 Voice Engine 的采用者之一— AIGC 初创公司 HeyGen，此话题的阅读量超 600 万。

通过 Voice Engine 进行实时转换翻译，说话者将保留原始口音，原语言不仅能转换成中文、英文、日文等各类语言，也能让面部嘴型完美匹配。

除此之外，" 特朗普 " 随口飙一段中文、" 郭德纲 " 用英语说相声、" 蔡明 " 阿姨讲段子的视频也在各大社交平台上广为流传。

Voice Engine 的官宣也有迹可循。2024 年 3 月 19 日，OpenAI 已经为 "Voice Engine" 申请了商标，商标的覆盖范围主要是围绕语音识别、语音合成和语音生成等方面。

谷歌前员工 Jonathan Chavez 也曾在前段时间透露，OpenAI 将在今年推出一款全球最好的个人助理产品，就像钢铁侠中的 Jarvis。

果不其然，Voice Engine 如期而至，团队还公示了多场景下的内测结果与相关音频。

根据 OpenAI 的介绍，Voice Engine 能够通过自然、富有感情的声音为非读者和儿童提供阅读帮助；可以翻译视频和播客等内容，以便创作者和企业可以用自己的声音流利地接触世界各地的更多人；支持非语言人群和帮助患有突发性或退化性言语病症的患者恢复声音。

OpenAI 语音引擎产品团队成员杰夫 · 哈里斯（Jeff Harris）表示，该模型是根据 " 许可数据和公开数据的组合 " 进行训练的。

对于 Voice Engine 的进展，网友直呼：" 人工智能的发展速度令人兴奋，势不可挡。"

从业人士认为，Voice Engine 将对播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业带来现实影响，这其中也包括就业压力。

大众也期待，当 OpenAI 的 Sora 与 Voice Engine 这两项前沿科技相碰撞，又会擦出什么样的火花，真正意义上的有声 AI 视频乃至电影短片，是不是也就不远了。

勒紧 " 深度伪造 " 的缰绳

对于 Voice Engine 技术的使用，除了惊喜与赞叹声，也有人提出了质疑，如果这样的技术用于电信诈骗，后果会很可怕。

有在校大学生告诉 21 世纪经济报道记者，家长曾接到 AI 伪造学生声音的诈骗电话。

其实，OpenAI 去年所发布 " 可以说话 " 的 ChatGPT 版本，长期以来一直为各种企业提供根据配音演员的录音所创建的声音，并没有发布从短视频中复制声音的技术。OpenAI 产品经理杰夫 · 哈里斯（Jeff Harris）表示，以这种方式复制任何声音的能力是有风险的。

2024 年 2 月，美国曾发生利用 AI 生成语音影响选民投票事件。据报道，在大选之际，新罕布什尔州的部分选民接到一个神秘来电，电话中酷似美国总统拜登的声音号召他们不要在该州初选中投票。后经证实，该来电是机器人语音电话，并非拜登本人录制。此事件在当时引起了不小的轰动，加剧了人们对竞选 " 深度伪造 " 的担忧。

为加强语音引擎的安全构建，OpenAI 在官方公告中称，公司正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作，以确保在建设过程中吸收他们的反馈。不过，OpenAI 与这些合作伙伴针对语音引擎的业务进展，需要原始发言者的明确和知情同意，合作伙伴还必须清楚地向观众强调，他们听到的声音是由 AI 生成的。

OpenAI 将为 AI 生成的语音添加水印，以追踪并主动监控其使用方式，以确保其透明度和安全度。

OpenAI 官方表示："我们目前不会广泛发布这项技术，仅小部分开放内测，希望语音引擎的这次内测既能强调其潜力，又能增强潜在问题的抵御能力，以应对越来越逼真的生成模型带来的挑战。"

此外，他们还将采取一系列安全措施，包括逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施；探索保护人工智能中个人声音使用的政策；教育公众了解人工智能技术的能力和局限性，包括欺骗性人工智能内容的可能性；加速开发和采用追踪视听内容来源的技术等。