本科生二人组开发 AI 语音模型挑战 NotebookLM

序言

一对本科生勇敢地进入了 AI 领域，推出了一个能够生成类似播客音频的新 AI 语音模型，媲美 Google's NotebookLM。尽管他们在 AI 方面经验有限，但却设计出了一个工具，承诺对语音生成拥有更大的控制，提供多样化的脚本定制选项。

懒人包

Nari Labs 使用 Google's TPU 技术发布了 Dia，一个拥有 16 亿参数的模型。 用户可以自定义语音，轻松地克隆声音。

正文

在 AI 和合成语音技术风起云涌的世界中，两位足智多谋的本科生推出了一个 AI 模型，旨在与 Google's NotebookLM 媲美。这次 AI 探索由一个韩国二人组通过 Nari Labs 主导，这是一项以增强语音合成技术为愿景创立的计划。合成语音工具的领域正在快速扩展，目前由大型行业玩家如 ElevenLabs 主导。然而，蓬勃发展的创业公司不断挑战现状，这个新的进入者便是一例，去年仅在语音 AI 技术方面就有 3.98 亿美元的风险资本投入。

共同创立 Nari Labs 的 Toby Kim 表示，他们进入语音 AI 领域仅仅三个月前，旨在构建一个可以广泛操纵脚本及语音控制的模型。两人巧妙地利用 Google's TPU Research Cloud 进行他们的项目，免费获得强大的 TPU AI 芯片。所生成的模型 Dia 拥有高达 16 亿的参数，增强其从脚本生成动态对话的能力。此模型赋予用户自由定制讲话者的语气，并可以加入笑声或咳嗽等非语言元素，提高合成语音的真实感。

参数是 AI 预测能力的基石，对于像 Dia 这样的模型而言至关重要。更多的参数通常意味着更好的性能，这一原则在 Dia 的能力上得到了理论和实践的证实。该模型目前可通过 AI 开发平台 Hugging Face 和 GitHub 获得，需要至少 10GB VRAM 的 PC 以达到最佳运行效果。虽然它可以产生随机声音，用户也可以输入描述来定制语音风格，或采用语音克隆技术，以令人印象深刻的逼真度复制特定个人的声音。

由 TechCrunch 进行的测试确认了 Dia 的操作效能，能够在各个主题上有效维持双向对话。其语音合成的质量竞争力与其他当代工具相当，而其用户友好的克隆功能因简单和高效而获得正面评价。由 Dia 生成的样本显示了其潜力，虽然该模型仍在审查中以防止滥用。生成误导或欺诈性内容的潜在风险是一个重要考虑。虽然 Nari Labs 概述了其道德使用指南，但团队不对任何滥用承担责任。此外，Dia 的训练数据来源尚未披露，引发关于开发过程中可能涉及的版权侵犯的猜测，这是 AI 研究中的一个经常性的伦理和法律挑战。

尽管存在这些担忧，Kim 表达了 Nari Labs 希望建立一个综合合成语音平台并增强社交连接功能的雄心，希望能够扩大 Dia 的语言编排并推出更先进的模型。一份关于 Dia 的技术披露也备受期待，表明 Nari 在 AI 技术透明度和道德实践方面的承诺。

关键见解表

方面	描述
关键事实 1	Dia 的语音生成能力由 16 亿参数增强。
关键事实 2	Nari Labs 计划在其合成语音平台中集成社交功能。

最後編輯時間：2025/4/22