元宇宙网：元宇宙建设添利器 Meta强推视觉大模型多模态AI有望加速发展

402,951 0

《科创板日报》4月21日讯（编辑宋子乔）在AI大模型竞赛中，Meta选择重押视觉模型，继推出零样本分割一切的SAM后，扎克伯格亲自官宣了重量级开源项目 DINOv2。

据介绍，DINOv2是计算机视觉领域的预训练大模型，模型参数量是10亿级，采用Transformer架构，能在语义分割、图像检索和深度估计等方面实现自监督训练，不需微调即可用于多种下游任务，可以被用于改善医学成像、粮食作物生长、地图绘制等。

元宇宙网：元宇宙建设添利器 Meta强推视觉大模型多模态AI有望加速发展
DINOv2用于语义分割，将图中每个像素划分类别

元宇宙网：元宇宙建设添利器 Meta强推视觉大模型多模态AI有望加速发展
DINOv2用于图像检索，查找与给定图像相关的图

DINOv2用于深度估计，给出图中物体到镜头的距离信息

DINOv2有何亮点？

主要体现在两方面——DINOv2可以为大语言模型提供丰富的图像特征，有助于完善多模态 GPT 应用；其蒸馏成小模型后效果依然优秀，便于在各种边缘场景及本地化落地。

对于前者，Meta已表示计划将DINOv2集成到更大、更复杂的AI 系统中，作为视觉主干提供丰富的图像特征与大型语言模型进行交互。

国盛证券分析师刘高畅表示，DINOv2能比用图像文本对做训练的模型得到更丰富的图像特征，这将让整个系统能更好地理解图像，对多模态AI的发展起到加速作用。

值得注意的是，多模态技术还能助力游戏内容与元宇宙构造，随着AR/VR技术的发展，未来将能构建逼真的虚拟现实。扎克伯格就强调，DINOv2可以极大地加持元宇宙的建设，让用户在元宇宙中的沉浸体验更出色。

上述分析师大胆预测，1-5年内，随着多模态的发展带来AI泛化能力提升，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。

对于边缘场景落地，简单来说是指将大模型移植到移动端或是算力有限的场景。

运行大型的模型需要强大的硬件，这可能会限制模型在C端场景的应用，为大模型“瘦身”成了手机等移动终端运行大模型的前提，其技术路径多样，包括通过剪枝让模型稀疏化、知识蒸馏对模型进行压缩、通过权重共享来减少参数量等。

DINOv2即采用模型蒸馏的方式，将大型模型的知识压缩为较小的模型，从而降低推理时的硬件要求。据官方介绍，Meta开源了多个不同参数规模的预训练模型，在相同的规模下比较，DINOv2在多种测试基准的得分都能优于目前开源视觉模型中表现最好的OpenCLIP。

Meta之外，高通、华为等科技巨头也在致力于实现AI大模型在终端的轻量化部署，谷歌、腾讯、百度等已将模型压缩技术紧密结合移动端模型部署框架/工具。

来源：百家号-科创板日报

https://baijiahao.baidu.com/s?id=1763760011300790294&wfr=spider&for=pc

AR/VR/XR 企业元宇宙元宇宙元宇宙二次元元宇宙产品元宇宙商业元宇宙娱乐元宇宙应用元宇宙知识产权元宇宙科技国际元宇宙 # 2023 # A # AI # AI大模型 # AR # AR/VR # con # C端 # DINOv2 # GPT # Meta # S # SA # SAM # transformer # v # VR # VR技术 # 世界 # 中 # 交互 # 人 # 亿 # 任务 # 优秀 # 会 # 体验 # 供 # 信息 # 元 # 元宇宙 # 共享 # 内容 # 分割 # 分析 # 创 # 医学 # 医学成像 # 华 # 华为 # 发展 # 善医学成像 # 器 # 国盛证券 # 图 # 图像 # 图像检索 # 地图绘制 # 场 # 场景 # 型 # 多模态 # 多模态AI # 大型语言模型 # 大模型 # 大语言模型 # 学 # 完善 # 官方 # 家居 # 展 # 工具 # 应用 # 建设 # 开源 # 手 # 手机 # 扎克伯格 # 技术 # 技术路径 # 推理 # 提供 # 提升 # 数 # 文 # 文本 # 智 # 智能 # 智能家居 # 更丰富 # 更复杂 # 更大 # 服 # 服务 # 未来 # 机器人 # 机械 # 来源 # 构建 # 框架 # 模型 # 沉浸 # 沉浸体验 # 深度 # 深度估计 # 游戏 # 物 # 物体 # 物流 # 特 # 现实 # 生活 # 生长 # 用 # 用户 # 百 # 百度 # 监督 # 盛 # 真正的智能家居 # 硬件 # 科创 # 科创板 # 科创板日报 # 科技 # 科技巨头 # 移动 # 移动端 # 端 # 算 # 算力 # 粮食作物生长 # 系统 # 紧密 # 终端 # 编辑 # 能力 # 腾讯 # 落地 # 虚拟 # 虚拟现实 # 行 # 行业 # 行业服务机器人 # 要求 # 视 # 视觉 # 视觉大模型 # 计算 # 计算机 # 计算机视觉 # 证券 # 证券分析师 # 语义分割 # 语言 # 语言模型 # 谷歌 # 赛 # 距离 # 路径 # 轻量化 # 边 # 通 # 通用机械臂 # 通用物流搬运机器人 # 项目 # 预测 # 食 # 高通

文章版权归作者所有，未经允许请勿转载。

元宇宙网：“崩盘”又“割肉” Meta启动史上最大规模裁员

企业元宇宙元宇宙 # Altimeter Capital # Brad Gerstner # Facebook

4年前

284,3920

元宇宙网：「西街观察」苹果拯救不了元宇宙

AR/VR/XR web3 # 2023 # 4k # A

3年前

326,4300

元宇宙网：元宇宙新鲜事｜上海：推动虚拟现实等在体育产业应用苹果首款MR头显终端出货放量时间延至Q2

AI AR/VR/XR # AI # AIGC # ChatGPT

3年前

352,4830

元宇宙网：武汉民政职业学院招生宣传项目成交公告|元宇宙招生大厅

企业元宇宙元宇宙 # 2023 # 80 # A

3年前

502,9710