DINO v2 能产生高性能的视觉特征,用于不同下游视觉任务如分类、分割、图像检索和深度估计,不需要微调。

其创新点和优秀性能来源于使用图像自监督学的方式训练,不需要图像和文本对应的训练数据,克服了文本对图像描述不够全面的局限性。

DINOv2蒸馏成小模型后效果依然优秀,能在大部分测试基准超过之前最好的模型OpenCLIP。Meta表示正计划将DINOv2集成到更大的人工智能系统中,提供丰富