本科生二人组开发 AI 语音模型 挑战 NotebookLM
序言
一对本科生勇敢地进入了 AI 领域,推出了一个能够生成类似播客音频的新 AI 语音模型,媲美 Google's NotebookLM。尽管他们在 AI 方面经验有限,但却设计出了一个工具,承诺对语音生成拥有更大的控制,提供多样化的脚本定制选项。
懒人包
Nari Labs 使用 Google's TPU 技术发布了 Dia,一个拥有 16 亿参数的模型。 用户可以 自定义语音,轻松地克隆声音。
正文
在 AI 和合成语音技术风起云涌的世界中,两位足智多谋的本科生推出了一个 AI 模型,旨在与 Google's NotebookLM 媲美。这次 AI 探索由一个韩国二人组通过 Nari Labs 主导,这是一项以增强语音合成技术为愿景创立的计划。合成语音工具的领域正在快速扩展,目前由大型行业玩家如 ElevenLabs 主导。然而,蓬勃发展的创业公司不断挑战现状,这个新的进入者便是一例,去年仅在语音 AI 技术方面就有 3.98 亿美元的风险资本投入。
共同创立 Nari Labs 的 Toby Kim 表示,他们进入语音 AI 领域仅仅三个月前,旨在构建一个可以广泛操纵脚本及语音控制的模型。两人巧妙地利用 Google's TPU Research Cloud 进行他们的项目,免费获得强大的 TPU AI 芯片。所生成的模型 Dia 拥有高达 16 亿的参数,增强其从脚本生成动态对话的能力。此模型赋予用户自由定制讲话者的语气,并可以加入笑声或咳嗽等非语言元素,提高合成语音的真实感。
参数是 AI 预测能力的基石,对于像 Dia 这样的模型而言至关重要。更多的参数通常意味着更好的性能,这一原则在 Dia 的能力上得到了理论和实践的证实。该模型目前可通过 AI 开发平台 Hugging Face 和 GitHub 获得,需要至少 10GB VRAM 的 PC 以达到最佳运行效果。虽然它可以产生随机声音,用户也可以输入描述来定制语音风格,或采用语音克隆技术,以令人印象深刻的逼真度复制特定个人的声音。
由 TechCrunch 进行的测试确认了 Dia 的操作效能,能够在各个主题上有效维持双向对话。其语音合成的质量竞争力与其他当代工具相当,而其用户友好的克隆功能因简单和高效而获得正面评价。由 Dia 生成的样本显示了其潜力,虽然该模型仍在审查中以防止滥用。生成误导或欺诈性内容的潜在风险是一个重要考虑。虽然 Nari Labs 概述了其道德使用指南,但团队不对任何滥用承担责任。此外,Dia 的训练数据来源尚未披露,引发关于开发过程中可能涉及的版权侵犯的猜测,这是 AI 研究中的一个经常性的伦理和法律挑战。
尽管存在这些担忧,Kim 表达了 Nari Labs 希望建立一个综合合成语音平台并增强社交连接功能的雄心,希望能够扩大 Dia 的语言编排并推出更先进的模型。一份关于 Dia 的技术披露也备受期待,表明 Nari 在 AI 技术透明度和道德实践方面的承诺。
关键见解表
方面 | 描述 |
---|---|
关键事实 1 | Dia 的语音生成能力由 16 亿参数增强。 |
关键事实 2 | Nari Labs 计划在其合成语音平台中集成社交功能。 |