本科生二人组开发 AI 语音模型 挑战 NotebookLM

本科生二人组开发 AI 语音模型 挑战 NotebookLM

序言

一对本科生勇敢地进入了 AI 领域,推出了一个能够生成类似播客音频的新 AI 语音模型,媲美 Google's NotebookLM。尽管他们在 AI 方面经验有限,但却设计出了一个工具,承诺对语音生成拥有更大的控制,提供多样化的脚本定制选项。

懒人包

Nari Labs 使用 Google's TPU 技术发布了 Dia,一个拥有 16 亿参数的模型。 用户可以 自定义语音,轻松地克隆声音。

正文

在 AI 和合成语音技术风起云涌的世界中,两位足智多谋的本科生推出了一个 AI 模型,旨在与 Google's NotebookLM 媲美。这次 AI 探索由一个韩国二人组通过 Nari Labs 主导,这是一项以增强语音合成技术为愿景创立的计划。合成语音工具的领域正在快速扩展,目前由大型行业玩家如 ElevenLabs 主导。然而,蓬勃发展的创业公司不断挑战现状,这个新的进入者便是一例,去年仅在语音 AI 技术方面就有 3.98 亿美元的风险资本投入。

共同创立 Nari Labs 的 Toby Kim 表示,他们进入语音 AI 领域仅仅三个月前,旨在构建一个可以广泛操纵脚本及语音控制的模型。两人巧妙地利用 Google's TPU Research Cloud 进行他们的项目,免费获得强大的 TPU AI 芯片。所生成的模型 Dia 拥有高达 16 亿的参数,增强其从脚本生成动态对话的能力。此模型赋予用户自由定制讲话者的语气,并可以加入笑声或咳嗽等非语言元素,提高合成语音的真实感。

参数是 AI 预测能力的基石,对于像 Dia 这样的模型而言至关重要。更多的参数通常意味着更好的性能,这一原则在 Dia 的能力上得到了理论和实践的证实。该模型目前可通过 AI 开发平台 Hugging Face 和 GitHub 获得,需要至少 10GB VRAM 的 PC 以达到最佳运行效果。虽然它可以产生随机声音,用户也可以输入描述来定制语音风格,或采用语音克隆技术,以令人印象深刻的逼真度复制特定个人的声音。

由 TechCrunch 进行的测试确认了 Dia 的操作效能,能够在各个主题上有效维持双向对话。其语音合成的质量竞争力与其他当代工具相当,而其用户友好的克隆功能因简单和高效而获得正面评价。由 Dia 生成的样本显示了其潜力,虽然该模型仍在审查中以防止滥用。生成误导或欺诈性内容的潜在风险是一个重要考虑。虽然 Nari Labs 概述了其道德使用指南,但团队不对任何滥用承担责任。此外,Dia 的训练数据来源尚未披露,引发关于开发过程中可能涉及的版权侵犯的猜测,这是 AI 研究中的一个经常性的伦理和法律挑战。

尽管存在这些担忧,Kim 表达了 Nari Labs 希望建立一个综合合成语音平台并增强社交连接功能的雄心,希望能够扩大 Dia 的语言编排并推出更先进的模型。一份关于 Dia 的技术披露也备受期待,表明 Nari 在 AI 技术透明度和道德实践方面的承诺。

关键见解表

方面描述
关键事实 1Dia 的语音生成能力由 16 亿参数增强。
关键事实 2Nari Labs 计划在其合成语音平台中集成社交功能。
最後編輯時間:2025/4/22

Mr. W

Z新闻专职作家