天行者在《欧比旺》里的50句台词,让这家AI克隆语音的公司做了10万个交流文件(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
5步实现语音克隆自由
根据介绍,Respeecher主要使用 档案录音 和 人工智能 算法来学习并模仿用户的声音。就结果来说,这样的语音克隆项目与原始声音听上去并没有什么太大的区别,他们甚至在一些不常用的单词、外语和一些咯咯笑的语气词上下了很大功夫。 官网链接: https://www.respeecher.com/ 想要复制自己的语音,整个过程只需要5步。
在 取得用户许可 之后,Respeecher会 收集用户的语音数据 ,这个数据可以是预先录好的,也可以是刚录制的。除此之外,用户可能还需要 提供高质量的源声音录音 ,但这个并不是必需的,因为系统可以从源扬声器中直接进行转换。接下来,Respeecher就会 训练他们的AI系统 来创建完美的语音到语音交换模型。用户只需要对着麦克风讲话,发送音频文件以转换或使用Respeecher方便的网络应用程序或API,就能获得克隆的声音了。 据官网介绍,Respeecher能够将用户的声音自由转换为60多种自然的人类(以及动物)声音,同时还会保留表演的情感。 用户还可以在官网对系统进行3天的免费测试和试用,可以选择 性别、年龄和音符的高低度 。试用结束后,用户可以以 每个月200美元 的价格解锁所有的声音项目。虽然系统主要是为以英语为母语的人服务的,但不少其他语种的用户也给予了很高的评价。 纪录片制作人David Romberg表示,当他带着一个非常敏感和私人的纪录片项目联系Respeecher时,他对Respeecher的 专业程度 和 道德意识 有十分深刻的印象。 Respeecher对语音克隆过程的方法是高度个人化和透明的,这也符合纪录片一贯要求的道德标准。 总的来说,他对结果非常满意。
技术与艺术的难题
虽然此般克隆与保存天行者声音的做法普遍得到了网友们的认可,但这也无疑会加剧关于如何在艺术领域使用类似技术的分歧。
最近,全球最大的图像库Getty Images开始禁止用户上传和销售使用DALL-E、Midjourney和Stable Diffusion等AI工具生成的插图。首席执行官Craig Peters表示,这项政策是出于 对AI生成内容合法性的担忧 以及 保护客户 的愿景。 “对于AI模型生成作品的版权以及图像元数据和图像包含元素的权利归属问题,令人非常担忧,”Peters说。鉴于此,出售人工智能艺术品或插图可能会使Getty Images的用户面临法律风险,“我们正积极主动地维护客户的权益”。 对于这项禁令,AI图像生成器的创建者表示, 技术本身是合法的 。 以Stable Diffusion为例,系统需要从网络上抓取受版权保护的图像,比如个人艺术博客、新闻网站和像Getty Images这样的图片库,进行训练。这样的行为在美国是合法的,生成结果也可被“合理使用”原则所涵盖。不过需要指出的是,这项原则对于出售图片等商业活动的保护力较弱,一些艺术家的作品就被人工智能抄袭和模仿。 “世界早已充斥着图像。鉴于成本降低以及拍摄、传输和使用的简单性,数码相机使图像内容产生了指数级增长。智能手机和社交媒体的引入将这一领域提升到了全新的水平。人们拍摄和发布了数万亿张图像。我们的业务从来都不是关于创建图像的难易程度或产生的数量。它是关于连接和切入的。” 而Shutterstock做得更彻底,网站还限制了对人工智能内容的搜索,但尚未推出具体政策。其他平台多出于保护客户以外的原因删除了AI图像,例如FurAffinity表示,它禁止人工智能的艺术作品,因为它们伤到了人类艺术家。 但是,考虑到AI对于日常生活的渗透程度,要完全拒绝AI或许也是不现实的。正如一位网友所说,“如果演员本人都同意了,那我看不出使用AI来克隆演员声音有什么问题。谁有权对此发表意见呢?”
99科技网:http://www.99it.com.cn
