实惠、更快且具文化敏感性:Avataar 为印度大市场需求设计的视频 AI
目录
您可能想知道
Avataar AI 相比现有模型,如何如此大幅降低视频生成的时间和成本?
新模型以何种方式回应印度的文化特性,政府的支持将如何影响采用?
主要议题
与美国、欧洲和中国相比,印度在发布大规模 AI 模型成果方面较为缓慢,只有少数初创公司公开分享模型。早期活动大多集中在语言和语音模型,使得视频生成在大规模上较不容易获得。为加速发展并扩大可得性,印度政府创建了 India AI Mission(印度人工智能任务),这是一个约 12 亿美元的项目,包含针对入选初创公司的 GPU 计算补贴,条件是公开发布其模型。该项目旨在降低模型开发的进入门槛并鼓励更活跃的本地生态系统。
一个显著的受益者是 Avataar AI,一家由 Peak XV 支持、专注于电子商务与其他视觉用例的视频工具初创。Avataar 发布了一个名为 Varya 的视频模型,专为理解印度本地语境而建——例如识别节日、地区服饰、食物与建筑线索。Avataar 并非完全从零开始训练大型视频模型,而是采用现有公开的基础模型 Alibaba 的 Wan 2.2,并应用了蒸馏技术。蒸馏将教师模型的能力压缩到一个更小、更快速的学生模型,并针对特定任务与部署限制进行调整。
该过程的结果是一个精简的模型,生成视频所需的步骤大幅减少。Wan 2.2 通常约需 50 步生成,而 Varya 约在 4 步内运行。这种减少带来显著的速度与成本改善:在 NVIDIA H200 GPU 上,Varya 可以在大约 45 秒内生成一个 5 秒的 720p 片段,而 Wan 2.2 则大约需要 1,230 秒。实际而言,这使得针对特定目标工作负载的视频生成速度约快 10 倍。
价格差异尤为显著:Avataar 计划在其托管服务上每秒生成视频收费约 ₹0.48(约 0.005 美元)。这一价格大约比许多现有方案如 Veo、Kling、Luma 和 Runway 等便宜约 20 倍,后者常见的定价为每秒 0.10 美元或更高。降低成本对于在印度实现广泛采用至关重要,印度市场中视频内容在消费者互联网产品中占主导地位,而人口规模的使用依赖于大幅降低的价格。
除了成本与速度外,文化相关性是 Varya 的一大卖点。以通用数据集训练的图像与视频生成系统常会忽略本地细节,产出刻板或在文化上失准的结果。Avataar 表示其精心挑选训练数据,帮助 Varya 识别本地节日、食物、服饰与区域建筑风格。这种针对性的微调旨在产生与印度用户产生共鸣的输出,并减少文化上不准确结果的频率。
符合印度强调开放与开发者访问的方针,Avataar 将通过政府的 AI Kosh 门户以开放权重模型形式发布 Varya,该门户集中公开可用的 AI 模型与数据集。发布内容包含模型权重与训练数据,让开发者可以自行托管或按需求调整模型。Avataar 也计划向企业客户提供该模型,并寻求与视频工具提供商的合作。Avataar 网站上提供公开演示,用户可尝试以文字提示或参考图片进行生成。
Varya 的推出凸显了印度采取务实路线,专注于提供实用应用并培育开发者生态,而非直接在构建巨型基础模型上竞争。印度在基础模型开发上的较慢步伐,被归因于有限的计算资源与缺乏高质量、本地化的训练数据。像 India AI Mission 这样的项目旨在通过提供补贴计算与鼓励初创公开发布模型来缩小这些差距。
更广泛的政策背景也很有雄心:印度政府与行业领导者已设定大量 AI 投资与基础设施扩展的目标。例如,印度表示了吸引大规模 AI 投资并在短时间内大幅扩充 GPU 容量的目标。这些努力可能会加速本地相关 AI 模型的创建、部署与采用,特别是在成本与文化契合度重要的领域——包括教育、中小企业工具、内容创作与公共服务。
关键洞察表
| 面向 | 描述 |
|---|---|
| 关键事实 1 | Avataar 对 Alibaba 的 Wan 2.2 使用蒸馏,生成 Varya,将生成步骤从约 50 步降至约 4 步。 |
| 关键事实 2 | Varya 在 NVIDIA H200 上约 45 秒可生成一个 5 秒的 720p 片段,约比 Wan 2.2 快 10 倍。 |
| 关键事实 3 | 计划定价约每秒 ₹0.48(0.005 美元)——约比许多竞争者便宜 20 倍。 |
| 关键事实 4 | Varya 以精选本地数据训练以更好捕捉印度文化细节,并将以开放权重形式在 AI Kosh 上发布。 |
| 关键事实 5 | India AI Mission 为入选初创提供补贴计算,以刺激模型开发与公开发布。 |
后续...
展望未来,若干技术与生态优先事项可帮助印度扩大在 AI 驱动媒体领域的存在。改善高性能计算的可得性——包括更实惠的 GPU 和云额度——将继续对本地模型开发与试验重要。同等关键的是构建更大、更高质量且更多样化的数据集,以涵盖区域语言、文化实践与视觉风格,同时尊重隐私与版权约束。
模型压缩与高效架构(例如蒸馏、量化与稀疏化)的进展,将继续对在资源受限与价格敏感市场推广多媒体 AI 有所裨益。持续强调开放权重的发布与共享数据集,可以催化开发者创新及在教育、中小企业、政府服务与创意产业等本地化应用的发展。
最终,结合有针对性的技术工作——使模型既高效又具文化敏感性——與增加计算访问与激励开放性的公共政策,可能使印度在应用型 AI 用例上以人口规模领先,而非仅在基础模型构建上竞争。