人脸识别相关产品

文字识别相关产品

图像识别相关

语音识别相关

VIMER-CAE

VIMER-CAE类别文心·CV大模型应用图像分类、图像检测、图像分割模型概述VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架，基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升，在图像分类、目标检测、语义分割等经典下游任务上达到 SOTA 结果。模型说明模型简介VIMER-CAE 基于自监督图像掩码建模原理，创新

*.2折

官方价:咨询
*.2折

官方价:咨询
*.2折

官方价:咨询

免费申请测试 >> *价格优惠政策请联系客服咨询

优势介绍用实力去解决每一个客户的问题

VIMER-CAE 包括四部分

VIMER-CAE 预训练任务包括 4 个部分：1) Encoder；2) Latent contextual regressor；3) Decoder；4) Alignment module。
VIMER-CAE 通用表征预训练

可以在通用场景数据以及各个视觉任务中应用，利用海量无标注数据去提升预训练模型的表征能力，进而用于多种视觉下游任务
具体任务描述如下

图像分类：对图像进行分类;目标检测：检测图像里的具体目标并预测类别;语义分割：对图像里的不同区域进行分割。

VIMER-CAE

类别文心·CV大模型

应用图像分类、图像检测、图像分割

模型概述

VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架，基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升，在图像分类、目标检测、语义分割等经典下游任务上达到 SOTA 结果。

模型说明

模型简介

VIMER-CAE 基于自监督图像掩码建模原理，创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架，对编码模块和解码模块进行分离，通过编码模块对输入的图像块进行特征表达，并利用隐式上下文回归和解码模块对输入图像的掩码块进行特征表达恢复，在图像掩码建模问题上提高了预训练模型的图像表征能力。基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升，其中在目标检测、实例分割、语义分割等任务的指标上达到最优水平。

1df9a75e698a57f284a012c03_1df9a75

预训练任务

VIMER-CAE 预训练任务包括 4 个部分：1) Encoder；2) Latent contextual regressor；3) Decoder；4) Alignment module。Encoder 是一个 ViT 模型，负责学习图像表征；Latent contextual regressor 通过非掩码区域的特征去预测掩码区域特征；Decoder 通过掩码区域特征去预测某些性质或者恢复成原始像素的形式；Alignment module 通过特征对齐的操作，使表征学习的任务只由 Encoder 承担。

下游应用任务

经过大数据预训练产出的 VIMER-CAE 模型，可以作为下游应用任务的基础模型，加持不同任务分支网络和对应训练数据即可高效调优，常见的应用任务包括图像分类、目标检测、语义分割等任务，具体任务描述如下：

图像分类：对图像进行分类
目标检测：检测图像里的具体目标并预测类别
语义分割：对图像里的不同区域进行分割

模型效果

1）分类场景 ImageNet-1K 数据集上的结果

Model	Pretrain	Linear Prob(Top-1)	Attentive Prob(Top-1)	Finetune(Top-1)
Vit-Base	800e	69.3%	76.7%	83.7%
Vit-Large	1600e	78.1%	81.2%	86.3%

2）目标检测 COCO 数据集上的结果

Backbone	Method	Epoch	Box AP	Mask AP
Vit-Base-800e	Mask-RCNN	12e	49.8%	43.9%
Vit-Large-1600e	Mask-RCNN	12e	54.5%	47.6%

3）分割场景 ADE20K 数据集上的结果

Backbone	Method	Crop Size	Lr Schd	mIoU
Vit-Base-800e	UperNet	512x512	160K	49.7%
Vit-Large-1600e	UperNet	512x512	160K	54.7%

应用场景

VIMER-CAE 通用表征预训练，可以在通用场景数据以及各个视觉任务中应用，利用海量无标注数据去提升预训练模型的表征能力，进而用于多种视觉下游任务，比如图像分类任务、目标检测任务、实例分割任务等等。

使用方法

VIMER-CAE 通用表征预训练评测模型和代码脚本已开源，了解详细信息可访问：https://github.com/PaddlePaddle/VIMER/tree/main/CAE。

人脸与人体分析

文字识别

图像识别

语音识别

应用场景案例

服务器租用

高防服务器租用

在线云防护

机柜租用

服务器托管

带宽租用

CDN加速

人脸识别与人体识别

文字识别

图像识别

语音识别

自然语言处理

视频技术

知识图谱

AR与VR

VIMER-CAE

优势介绍用实力去解决每一个客户的问题

VIMER-CAE 包括四部分

VIMER-CAE 通用表征预训练

具体任务描述如下