VIMER-CAE类别文心·CV大模型应用图像分类、图像检测、图像分割模型概述VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,在图像分类、目标检测、语义分割等经典下游任务上达到 SOTA 结果。模型说明模型简介VIMER-CAE 基于自监督图像掩码建模原理,创新
免费申请测试 >> *价格优惠政策请联系客服咨询VIMER-CAE 预训练任务包括 4 个部分:1) Encoder;2) Latent contextual regressor;3) Decoder;4) Alignment module。
可以在通用场景数据以及各个视觉任务中应用,利用海量无标注数据去提升预训练模型的表征能力,进而用于多种视觉下游任务
图像分类:对图像进行分类;目标检测:检测图像里的具体目标并预测类别;语义分割:对图像里的不同区域进行分割。
VIMER-CAE
类别文心·CV大模型
应用图像分类、图像检测、图像分割
模型概述
VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,在图像分类、目标检测、语义分割等经典下游任务上达到 SOTA 结果。
VIMER-CAE 基于自监督图像掩码建模原理,创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,对编码模块和解码模块进行分离,通过编码模块对输入的图像块进行特征表达,并利用隐式上下文回归和解码模块对输入图像的掩码块进行特征表达恢复,在图像掩码建模问题上提高了预训练模型的图像表征能力。基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,其中在目标检测、实例分割、语义分割等任务的指标上达到最优水平。
VIMER-CAE 预训练任务包括 4 个部分:1) Encoder;2) Latent contextual regressor;3) Decoder;4) Alignment module。Encoder 是一个 ViT 模型,负责学习图像表征;Latent contextual regressor 通过非掩码区域的特征去预测掩码区域特征;Decoder 通过掩码区域特征去预测某些性质或者恢复成原始像素的形式;Alignment module 通过特征对齐的操作,使表征学习的任务只由 Encoder 承担。
经过大数据预训练产出的 VIMER-CAE 模型,可以作为下游应用任务的基础模型,加持不同任务分支网络和对应训练数据即可高效调优,常见的应用任务包括图像分类、目标检测、语义分割等任务,具体任务描述如下:
图像分类:对图像进行分类
目标检测:检测图像里的具体目标并预测类别
语义分割:对图像里的不同区域进行分割
1)分类场景 ImageNet-1K 数据集上的结果
Model | Pretrain | Linear Prob(Top-1) | Attentive Prob(Top-1) | Finetune(Top-1) |
---|---|---|---|---|
Vit-Base | 800e | 69.3% | 76.7% | 83.7% |
Vit-Large | 1600e | 78.1% | 81.2% | 86.3% |
2)目标检测 COCO 数据集上的结果
Backbone | Method | Epoch | Box AP | Mask AP |
---|---|---|---|---|
Vit-Base-800e | Mask-RCNN | 12e | 49.8% | 43.9% |
Vit-Large-1600e | Mask-RCNN | 12e | 54.5% | 47.6% |
3)分割场景 ADE20K 数据集上的结果
Backbone | Method | Crop Size | Lr Schd | mIoU |
---|---|---|---|---|
Vit-Base-800e | UperNet | 512x512 | 160K | 49.7% |
Vit-Large-1600e | UperNet | 512x512 | 160K | 54.7% |
VIMER-CAE 通用表征预训练,可以在通用场景数据以及各个视觉任务中应用,利用海量无标注数据去提升预训练模型的表征能力,进而用于多种视觉下游任务,比如图像分类任务、目标检测任务、实例分割任务等等。
VIMER-CAE 通用表征预训练评测模型和代码脚本已开源,了解详细信息可访问:https://github.com/PaddlePaddle/VIMER/tree/main/CAE。
微信公众号
手机站
COPYRIGHT 2007-2020 TUIDC ALL RIGHTS RESERVED 腾佑科技-百度AI人工智能_百度人脸识别_图像识别_语音识别提供商
地址:河南省郑州市姚砦路133号金成时代广场6号楼13层 I CP备案号:豫B2-20110005-1 公安备案号: 41010502003271
声明:本站发布的内容版权归郑州腾佑科技有限公司所有,本站部分素材来源于网络及网友投稿,若无意中侵犯了您的版权,请致电在线客服我们将在核实后予以删除!