AI+音乐|对话 Suno CEO:破圈的音乐生成产品是如何诞生的?
发布时间:2024年06月06日
最近,音乐生成产品 Suno 随着 V3 的发布迎来了破圈。这款产品的第一次发布是在去年 12 月 20 日,在第一时间体验了产品之后我们看到音乐创作和消费有望随着创作门槛的极大降低而成为消费级产品的内容形态,于是我们发表了第一篇 Suno 的研究文章。
近日我们进一步整理了 Suno CEO:Mikey Shulman
的最新访谈和滚石杂志的报道,关于 Suno 诞生的背景、音乐创作的方式与消费的可能性。
Sense 思考
我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。
Suno AI通过结合人工智能技术与音乐创作,为用户提供了一个全新的音乐创作平台。这种技术的应用不仅降低了音乐制作的门槛,还为音乐爱好者和专业人士提供了新的创作工具,从而推动了音乐创作的民主化。
Suno AI 可以作为一个教育工具,帮助学习者理解音乐结构和创作过程。通过实践操作,学习者可以更快地掌握音乐创作的技巧,这可能会改变传统的音乐教育模式。
Suno AI 等工具的出现可能会改变音乐产业的运作方式。从音乐制作到分发,AI 技术的应用可能会导致新的商业模式和服务的出现,从而影响音乐创作者、发行商和消费者的互动。
1. 产品:Suno
2. 创立时间:2022 年
3. 创始团队
Mikey Shulman:担任首席执行官,他曾担任Kensho的机器学习主管,麻省理工学院斯隆管理学院的讲师,哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位;
Camachoeorg Kucsko:Kensho
Technologies的首席构架师,在哈佛大学毕业后加入Suno团队。
4. 产品简介:
Suno AI是一款由麻省理工团队开发的强大人工智能音乐生成器。用户可以通过简单的文本提示进行创作,生成多种音乐风格的高质量音乐和语音。。
5. 融资情况:
2023年:Suno.ai进行了种子轮融资,融资金额达到140万美元;
01.
创始人背景与音乐之路
Suno,一款开创性的AI音乐创作工具,在迅速增长的人工智能音乐生成器领域中脱颖而出。与主要关注器乐作品的传统工具不同,Suno的独特之处在于它能够创作包含歌词和人声的完整歌曲。这一独特技能让Suno与Google的MusicFX以及Meta的AudioGen等竞争者显著区别开来。
Suno由一支专门从事AI和机器学习的专家团队创立,他们之前在Kensho Technologies工作过,Suno旨在使音乐创作民主化。包括拥有哈佛物理学博士学位的Mikey Shulman在内的创始人都是音乐家,他们将Suno视为解决音乐听众与创作者之间数量不平衡的工具。他们的愿景是让全球十亿人能够使用Suno发挥自己潜在的音乐才能,提供一个大家都可以简单使用的歌曲创作平台。
Mikey Schulman是Suno的CEO联合创始人之一,在一次访谈中Schulman回顾了自己的音乐之路。
他从学习了多种乐器,并在高中和大学期间在纽约的一些小型俱乐部里演奏贝斯。尽管演出并不总是那么成功,但与人们一起制作音乐的过程充满了乐趣。
Mikey:“音乐一直是我生活中很重要的一部分。我从小学习小提琴和吉他,大学时组建了一支乐队。”
后来,Mikey在哈佛大学学习物理,但他的职业生涯最终转向了人工智能和机器学习领域。
Mikey:“虽然我学的是物理,但音乐始终是我的激情所在,我录过一张EP。作为业余音乐人,录音棚工作比现场演出要枯燥得多。我记得有一次录音时因为不小心从椅子上滑下来,导致一个很棒的录音报废,不得不重新录。这种事在现场演出时绝对不会发生。”
Mikey研究生毕业后,就在Kensho Technologies工作,该公司后来被S&P Global收购。
Mikey:“我在读研究生的最后一年,刚好认识了 Keno 的一些人,其中一位 Martin 现在是我的联合创始人。一次午餐时他们问我什么时候去面试,我说我是学生,随时都行。结果他们说那现在就去吧,我就跟着上楼面试了。虽然面得很糟糕,但他们还是决定给我一个机会。”
在Kensho,Mikey和他的团队成员开始探索音频AI的可能性。Mikey和他的团队在Kensho进行的一项关于语音转写的项目,让他们对音频AI产生了浓厚的兴趣。尽管这个项目专注于财经领域,但他们认识到音频AI在更广泛的音乐创作领域内的潜力。
Mikey:“Keno 主要是利用 NLP 和机器学习处理大量金融文档,2018年被标普全球收购。收购后我们获得了大量的金融文档数据,简直是梦想成真。我们还做了一个语音项目,就是将上市公司的财报电话会议实时转录成文字。这是 Keno 第一次涉足音频 AI 领域。我们发现,如果拥有几十年积累的高质量转录数据,再加上机器学习算法,就可以大幅提升准确率,远超市面上的语音转文字服务。”
Mikey和他的合作伙伴意识到,在金融服务公司追求音频AI可能并不合适。他们认为有更大的机会在音乐创作方面利用AI技术。Mikey特别指出,尽管最初他们没有确定产品的具体形式,但他们知道这个方向充满了机遇和挑战。
Mikey:“Keno 主要还是做文本方面的项目。这个音频项目是在被收购一年后开始做的。虽然金融领域确实有很多音频方面值得探索的地方,但我认为音频 AI 在金融之外有更广阔的应用空间。另外金融行业出于风险考虑,在创新方面会相对保守一些。文本领域有太多有趣的项目值得投入,很难分散精力去做音频。”
Suno团队早期的一个重要里程碑是发布了一个名为"Bark"的开源文本到语音项目。这个项目受到了社区的广泛关注,他们发现人们最感兴趣的是音乐生成,而不仅仅是文本到语音。他们发现,尽管人们试图使用Bark生成音乐,但这并不是训练该模型的初衷。但正是这一点激励了他们更进一步发展Suno,专注于音乐生成。
Mikey:“我们仔细评估了音频领域的各种机会,发现大部分人并不喜欢处理音频数据,可能这就是我们的特别之处,我们是真的很喜欢音频(笑)。我们一开始就决定要走 foundation model 的路线,因为从长远来看,这是最有前途的方向,虽然当时业界几乎没有用 transformer 做音频的先例。说实话,刚离开 Keno 时,我们还没完全确定是要做语音还是音乐。毕竟我们在语音领域有更多经验,也有不少人劝我们说语音市场更大,不要去做音乐。
但有两件事改变了我们的想法:
1.作为音乐爱好者,我们还是忍不住要去尝试音乐;
2.我们开源了一个叫 bark 的语音模型后,在 GitHub 上获得了很多关注。通过一个调查表单,我们发现用户最感兴趣的领域其实是音乐,而不是语音。”
Mikey希望让Suno重新定义音乐的创作和消费体验,无论你是音乐专业人士,还是从未尝试过创作的普通用户,Sunno都希望成为你表达内心情感、讲述生活故事的全新方式。
Mikey:“我们的目标就是让每个人都能将脑海中的音乐灵感,通过简单易用的工具,转化为实际的音乐作品。无论你是音乐专业人士,还是从未尝试过创作的普通用户,Suno都希望成为你表达内心情感、讲述生活故事的全新方式。未来,我们还计划探索更多有趣的人机交互方式。比如也许你可以哼唱一段旋律,模型就能以此为灵感,生成一首完整的歌曲;又或者你可以上传一些图片或视频,讲述你的生活片段,模型就能据此创作出与之相匹配的背景音乐。我们希望充分利用AI的能力,激发人们的创造力,让音乐创作成为一种全新的生活方式。当然,我们也深知音乐行业对知识产权的重视。Sunno致力于以合法合规的方式发展音乐AI。我们训练模型时只使用了无版权问题的音乐数据。生成的歌曲也经过了仔细地过滤,确保不会侵犯任何艺术家的权益。用户创作的歌曲,其版权将完全由用户自己所有。我们的目标是成为连接音乐人和AI的桥梁,让双方都能从这项技术中受益,而不是相互取代。”
02.
Suno的创作方式
Suno的独特之处在于它不仅生成音乐的旋律和伴奏,还能创作歌词和人声。这意味着它可以产生完整的歌曲,包括所有必要的音乐元素。它的音乐元素甚至包含了不同种语言,甚至是方言,粤语,四川话的音乐都可以生成。
使用Suno的时候,用户可以选择两种模式。
- 基础模式:用户提供一个AI风格的文本提示,并可以选择让歌曲保持纯乐器,无歌词的演奏。
- 自定义模式:用户可以使用自己的歌词,设置多种流派风格的音乐,并给主动给歌曲命名。
用户使用Suno的创作流程很简单,当用户使用Suno时,用户首先选择生成模式(基础或自定义),然后输入相关的提示信息,如歌曲的主题、风格或特定的歌词。Suno利用这些输入生成一首完整的歌曲,并提供音轨供用户试听,同时提供歌词和代表歌曲主题的图片。
Suno以端到端的方式生成歌曲,意味着歌曲的人声、乐器和其他所有部分都是一次性生成的,并且使Suno能够创建歌词和人声的决定大大增加了模型训练的复杂性。这需要Suno的创始团队投入大量的努力,以确保模型能理解和生成人类的歌声和歌词。
在Suno最新的版本v3中引入了更多自然 sounding 和较少 auto-tune 样式的人声,以及为用户提供对创作过程更细致控制的新功能。例如,用户可以锁定他们喜欢的歌曲部分并重新生成不符合预期的部分。
03
Suno的创作意义
Suno提供了一条让人们可以用文本探索音乐的道路,让任何人都可以享受制作音乐的乐趣,无论创作者是否有音乐背景。Suno希望赋能更多人将内心的旋律转化为现实,让音乐创作不再局限于专业音乐人。
Suno不仅关注于如何以新的方式创作音乐,也致力于探索如何以新的方式体验和分享音乐。Suno的出现可能预示着音乐消费和分享方式的变革,其中音乐不再仅仅是被动消费的对象,而是可以根据听众的具体情感和需求动态生成的体验。
Suno通过使音乐创作更加普及和个性化,有可能改变人们与音乐的关系,促进音乐作为一种表达和沟通方式的发展。这种自然语言创造音乐的分享方式将会产生一种新的社交模式——音乐社交。
音乐社交不仅仅是关于分享音乐本身,它还是一种新的互动方式,让人们可以通过音乐来连接和理解彼此。在这个平台上,用户不仅可以发布自己的音乐作品,还可以发现来自世界各地的创作者和他们的作品,从而激发新的灵感和创意。这种跨文化的交流和合作将推动音乐的创新,使其成为一种真正全球化的语言。
随着Suno社区的不断壮大,我们也将看到更多基于音乐的社交活动和事件的出现。从在线音乐会到创作工作坊,Suno为用户提供了一个平台,让他们可以共同参与和享受音乐的乐趣。这不仅加深了社区成员之间的联系,也为音乐爱好者带来了全新的体验和机会。
参考材料
https://www.tomsguide.com/ai/i-tried-the-radio-quality-suno-ai-music-generator-heres-how-it-sounds
https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/
https://gosummarize.com/youtube/@lightspeedvp/mikey-shulman-suno-and-the-sound-of-ai-music
原文:https://mp.weixin.qq.com/s/4Y2s_ZJ-l7BovEXhDRs-9g
无际Ai是一款基于OpenAI公司的ChatGPT4.0和3.5接口开发的国产镜像官网,可以对话、聆听、学习和挑战的自然语言生成式人工智能Ai聊天机器人,同时接入百度文心一言、阿里通义千问、华为盘古、讯飞星火等AIGC语言大模型