iphone怎么提取声音到本地

只需 15 分钟,iPhone 就能「复制」你的声音

史蒂芬·霍金的「机械电音」,也许是世界上其中一个最有辨识度的声音。

但那并不是霍金自己的声音。

只需 15 分钟,iPhone 就能「复制」你的声音

在霍金因渐冻症(ALS)失去说话能力的年代,技术还不足以让他能生成自己声音。事实上,能用上语音合成器的人都屈指可数。

到了今天,ALS 患者虽然有了更多语音合成的选择,但总体费用和时间门槛仍然不低,普及度也有限。

最近,苹果公布了全新无障碍功能 Personal Voice(暂未上线),不仅让用户能免费「备份」自己的声音,同时还在安全地应用 AI 技术上,作出了一次有意思的尝试。

只需 15 分钟「调教」,就能生成你的声音

只需 15 分钟,iPhone 就能「复制」你的声音

▲ 图自 Fastcompany

在生成式 AI 可以模仿一切的时代里,用 AI 模仿一个人的声音听起来已经不算新奇,只是感觉有点安全隐患。

我好奇的,更多是苹果要怎样安全和高效地实现 Personal Voice 这一功能。

据介绍,iPhone、iPad 和 Mac 用户只需要根据提示录制 15 分钟的音频,苹果就会基于设备端的机器学习技术来生成和用户一样的声音。

相比之下,为失语群体提供专业语音合成服务的公司,可能需要采用专业设备,录制几小时的语音素材,价格最低都要数百美元。

另一项新无障碍功能 Live Speech,则支持用户打电话、FaceTime 或者是和他人面对面对话的时候,输入文字即可生成语音内容,为失语或不方便说话的用户提供另一种「发声」方式。

只需 15 分钟,iPhone 就能「复制」你的声音

结合 Personal Voice 和 Live Speech 两项功能,失语用户就能用接近自己原本声音的生成声音和他人沟通。

用起来是方便了,但怎样避免有人用网上扒的语音素材来生成他人的声音?

  1. 素材随机化。

在录制 15 分钟语音素材的过程中,苹果将随机生成需要用户朗读的内容,减少他人猜中素材的可能性。

只需 15 分钟,iPhone 就能「复制」你的声音

  1. 物理距离屏障。

在录制过程中,用户需要在距离设备 6-10 英寸(约 15- 25 厘米)的特定空间里完成录制。

在生成过程中,所有数据都将通过苹果的 Neural Engine(神经引擎)在设备本地完成,不必要上传到云处理。

语音合成后,第三方应用如果想使用 Personal Voice,都要获得用户明确授权。

只需 15 分钟,iPhone 就能「复制」你的声音

即便第三方应用获得授权使用时,苹果也会采用额外的背景保护,确保第三方应用无法获取 Personal Voice 以及用户之前所录制的语音素材。

如果是苹果「全家桶」用户,生成自己的 Personal Voice 后还能通过 iCloud 同步到不同设备上,并以端对端的方式加密。

自己的声音,失去了才懂多重要

只需 15 分钟,iPhone 就能「复制」你的声音

人是感性的生物,而声音是很强烈的情感触发器。

有研究指出,当人在听到母亲的声音时,身体释放出催产素水平和跟妈妈拥抱时产生的程度很相似。另一个研究则指出,听到自己的声音,会增强一个人的自我能动性。

这听起来有点抽象。

但当我们失去它时,重要性就变得显而易见了。

2021 年 3 月,Ruth Brunton 被确诊 ALS。那年圣诞,她就已经失语了。

ALS 患者中,约有 25% 的人患的是「延髓起病型」肌萎缩侧索硬化症,主要表现是说话障碍或吞咽困难。这类病人说话会逐渐变得含糊、带有鼻音,甚至失语。

Brunton 的行动很果断,确诊后马上找公司去做语音生成。

来回花了一个月时间,录了 3000 多个句子的语料,但最后出来的结果并不理想。

那家公司用的是一种名为「单元选择(unit selection)」技术。

简单粗暴来说,它就是通过「拼接」来实现语音生成,把语料拆分为大量小的语音单元,然后按需把元素拼起来。

只需 15 分钟,iPhone 就能「复制」你的声音

▲单元选择技术下,「Bob」这一词语能被拆分成不同语音元素,图自《华盛顿邮报》

这种技术生成的语音能听清,但会有点电音,听起来不太自然。

结果就是,Brunton 录制的语料结合了微软一个名为「Heather」的声音,不但声音和自己毫不相似,甚至逼着这英国人「讲」起了美语口音。

困在这个声音里,Brunton「只会在必要的时候说话,不再是因为想说话而说话」。

从前和丈夫打闹聊天的心情消失了,Brunton 也不怎么愿意参加多人对话。

即便是说「我爱你」,用一个不像自己的声音来说,意义也似乎被削弱了。

只需 15 分钟,iPhone 就能「复制」你的声音

六个月后, Brunton 和丈夫争取回了最初录制的语音素材,找了另一家公司,用 AI 技术合成了一个更像她自己的声音:

这听起来也许有点傻,但重新获得自己的声音让我更有自信了。

在波士顿儿童医院负责「增强沟通」项目的 John M. Costello 留意到,那些采用了更真实生成语音的病人,似乎更能够和亲近的人建立深厚的联结。

2022 年圣诞节,「重获新声」的 Brunton 还用语音录制的一段节日祝语。

然而,圣诞刚过,Brunton 就染上了新冠,最后在今年 2 月离世了。

她离开的那晚,丈夫 David 一整夜都握着她的手:

我们有两年时间来告别。

我们说好了,我们要说尽一切我们想说的。

难以想象,如果 Brunton 后来没换上更像自己的声音,她又是否能自在地说出想说的一切。

无障碍思维点亮灵感,AI 燃起生产力

只需 15 分钟,iPhone 就能「复制」你的声音

我一直认为,无障碍设计所挖掘的,其实就是人类多样性创造的想象力资源。

我们去到和自己有着截然不同生活体验的人面前,聆听更少被诉说的故事和体验,创造出我们之前没想象过,但却能对更多人友好的的新生活方式。

Personal Voice 能让失语的 ALS 患者重新获得自己的声音;也可以帮助在经历「刀片嗓」的我用自己的声音去和其他人对话;甚至,我也很难避免会去想象,是否应该用这为自己「备份」声音留给亲近的人,以免哪天自己会突然离世。

而 AI 技术,就是实现这些想象力生产力。

正如杜编辑之前说的,虽然不赶生成式 AI 的热闹,但苹果一直都把 AI 用来提升用户体验 —— 提升效率,保护隐私。

只需 15 分钟,iPhone 就能「复制」你的声音

提升效率,在于提升本地执行的机器学习算法和模型。

除了 Personal Voice 以外,苹果这次预览的另一个无障碍功能 Point and Speak 也采用了本地设备端的机器学习技术。

未来,视障用户在 iPhone 自带的放大器里,结合 Point and Speak 和旁白功能,就能凭自己手指把 iPhone 变成「点读机」 —— 点到哪儿,让 iPhone 给你把文字读到哪儿。

只需 15 分钟,iPhone 就能「复制」你的声音

去年的「门检测」功能道理也类似,让设备端的机器学习帮视障用户识别出门,并朗读出门上面的信息和周围的标识。

只需 15 分钟,iPhone 就能「复制」你的声音

至于隐私,按乔布斯说的,就是「如果你需要他们(用户)的数据,那就向他们(用户)请求。每一次都如此。」

这在无障碍设计方面也尤其重要 —— 因为这些功能设计起源就是服务被所谓「常规设计」忽略的人,常常都是更弱势的群体,因此更有必要确保这些用户的隐私不受侵害。

在这个语境下,我们也可开启更多关于数据应用权和透明度的讨论。

苹果这次做 Personal Voice 时,和帮助 ALS 患者的非盈利机构 Team Gleason Foundation 合作。

只需 15 分钟,iPhone 就能「复制」你的声音

▲ Team Gleason Foundation CEO Blair Casey(右)

该机构的 CEO Blair Casey 一直也在推动语音生成公司设定一套标准录制素材设定,让用户能直接录这部分素材,并体验不同公司生成出来的语音效果,而不是像现在一样「盲赌」。

同时,Casey 也主张语音生成公司把用户录制的语音素材数据提供给用户(因为很多用户可能录制后就失语了),以免他们未来想把这些数据用在其他技术上:

如果更好的技术出来了,你会不想试一试吗?

如果你没法拿回自己的语音素材,你就没法去试。

AI 也许是我们时代最强的生产力。

但是,这力该怎么使,也许以人为本的无障碍设计能给它不少指引。

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023年 7月 5日 上午9:12
下一篇 2023年 7月 5日 上午9:21

相关推荐

  • 买了否冷是什么时候出的

    一种旁敲侧击,一种敲门砖,一种手段。在电影中的不为人所知的片段,往往就蕴含着极为丰富的知识要点,本次大湿为大家搜罗了一些电影领域之中不太文人所知的冷知识。 王家卫这个偏执狂,他所有…

    2023年 10月 6日
  • 中金:升理想汽车-W(2015.HK)目标价至207港元 评级“跑赢行业”

    中金发表报告,指理想汽车-W(2015.HK)突破供给瓶颈,11月销量超预期,其11月交付量13485辆,按年升1.9倍,按月升76.3%。首十一个月计,累计交付量76404辆,按…

    综合百科 2022年 11月 15日
  • egm是什么意思

    近日,在抖音等平台上,又一个视频背景音乐火了,那就是很多网红用口红拍的视频“EGMEGM”。对此,不少网友好奇,这EGM是什么歌?然而,又有的视频背景音乐是EDM。所以,到底是EG…

    2022年 11月 9日
  • #已完结

    无人可渡。 国家大汉已有三年百姓园书,陛下烦忧。便请来国师推算国庭,国师算出大旱关键处在龙王发怒,而楚家二女儿是龙主之委命格,若要解旱需要把楚山与祭天给龙王。从那天起所有的恩惠与偏…

    2023年 6月 28日
  • 一方净土,一方净土风景素材

    夜莺啼叫的山间,云雾挑逗竹叶 悠远的鸡鸣震动着晨露 手持竹杖,踩踏着刚冒出青绿的苔藓 滑滑的,软软的,嫩嫩的 吸一口气,不知名的野花香气萦鼻 寻找,在不知名的深山里寻找净土 那里没…

    综合百科 2023年 7月 5日
  • 谢广坤和苏大强什么梗,南苏大强北谢广坤

    姚晨主演的电视剧《都挺好》正在火爆热播,其实最有看点的就是苏家苏大强了,这个苏大强真是刷新了对男人作的看法,在剧中引发了许多让人大笑的梗,这就不经让人想起了另外一位作妖师祖谢广坤,…

    2023年 1月 1日
  • 天坑鹰猎结局,天坑鹰猎结尾,天下霸唱留了多少谜团没有解开?

    天坑鹰猎结尾,天下霸唱留了多少谜团没有解开? 天坑鹰猎结尾了,但是故事的最后却留了更多的谜团,这些谜团直到最后还是没有被解开,甚至都没有说明,就比如最后的时候,依照杨烨的性格,神鹰…

    2022年 12月 1日
  • 中级经济师基础第十四章知识点,中级经济师第十四章税收制度试题

    除了第一节没变,其余章节都有变动,刷题遇到去年题目的时候要注意。 变动很大!!! 后半部分关于税法的相关知识,真的很啰嗦,感觉跟看阅读理解似的,我把之前初会经济法部分的拿出来复习,…

    2022年 11月 29日
  • 电影解说文案素材库免费

    想做视频剪辑,没有文案素材怎么能行? 影视剪辑主要需要三步: 1.找电影或者电视剧视频下载。 2.根据内容编写解说文案、配音。 3.将文案、配音、音乐等,剪辑到视频内。 以上三点,…

    综合百科 2022年 11月 5日
  • 人体解剖与运动解剖学电子书

    之前小喵有给大家带来很多解剖学的视频,有人体解剖呀,系统解剖呀,等等。但是有点散乱,不是很全面,所以今天小喵给大家带来了——史上最最最全的解剖学视频全集,不需要转发多条推送。只需要…

    2023年 4月 8日