LAVIS 可以为许多现实世界的多模式应用提供有用的功能。
它具有简单、统一和集中访问强大的语言视觉模型的功能,有助于有效的多模式分析和可重复的研究和开发。
我们鼓励研究人员、数据科学家和机器学习从业者在实际应用中采用 LAVIS,以产生积极的社会影响,例如高效、环保的大规模多模态分析。
然而,LAVIS 的误用可能会导致不良影响。
责任的人工智能的详细讨论和指南。
特别是,LAVIS 不应该用于开发可能暴露不道德能力的多模式模型。
在实践中,我们强烈建议用户在实际采用之前先检查 LAVIS 中的预训练模型。
最后,请注意,LAVIS 中的模型不保证其多模态能力;预测结果可能存在错误或偏差。我们计划在未来进一步改进该库,以避免或尽量减少此类问题预测的发生。
底线
LAVIS 是一个全面且可扩展的语言视觉库,支持常见任务、数据集和最先进的模型。
LAVIS 旨在为数据科学家、机器学习工程师和研究人员提供一站式解决方案来分析、调试和解释他们的多模式数据。
我们将继续积极开发和改进 LAVIS。在未来的版本中,我们的重点是将更多的语言视觉模型、任务 手机号数据库列表 和数据集纳入库中。我们还计划增加更多并行支持,以实现可扩展的训练和推理。
我们欢迎并鼓励开源社区的任何贡献。
博客文章:
关于作者
李东旭是 Salesforce Research 的研究科学家。他的研究重点是多模态理解及其应用。
李俊南是 Salesforce Research 的高级研究经理。他目前的研究重点是视觉和语言人工智能。他的最终研究目标是构建能够自学习、无需人工监督的通用人工智能模型。