环球科创网

Facebook教计算机视觉系统如何监督自己的学习过程

更新时间:2021-03-11 15:36:53

如今,像AI系统一样令人印象深刻的功能是,教学机器可以执行各种任务,无论是实时翻译语音还是准确区分吉娃娃和蓝莓松饼。但是,该过程仍然需要人工培训人员进行大量的握持和数据整理。然而,已经彻底改变了自然语言处理方式的自我监督学习(SSL)方法的出现,可能成为将AI赋予一些急需的常识的关键。Facebook的AI研究部门(FAIR)首次将SSL应用于计算机视觉培训。

“我们已经开发了SEER(SElf-supERvised),这是一种新的具有十亿参数的自我监督计算机视觉模型,可以从互联网上的任意随机图像组中学习,而无需仔细进行大多数计算机视觉中的策展和标记工作今天进行培训,” Facebook AI研究人员在周四的博客文章中写道。在SEER案例中,Facebook向其展示了超过十亿张随机,未标记和未策划的公开Instagram图片。

在有监督的学习计划下,Facebook AI首席科学家Yann LeCunn告诉Engadget:“要识别语音,您需要标记发音的单词;如果要翻译,则需要使用平行文本。要识别图像,您需要在每张图像上贴上标签。”

LeCunn解释说,另一方面,无监督学习是“试图以适当的方式训练系统来表示图像而不需要标记图像的问题。” 一种这样的方法是联合嵌入,其中向神经网络呈现一对几乎相同的图像-原始图像以及经过稍微修改和变形的副本。LeCunn说:“您对系统进行训练,以使由这两个元素产生的任何矢量都应尽可能彼此接近。” “然后,问题是要确保当系统显示两个不同的图像时,它会产生不同的矢量,也就是我们所说的不同的'嵌入'。一种非常自然的方法是随机选择数百万对您知道不同的图像,通过网络运行它们,并希望获得最好的图像。” 然而,

将NLP中使用的相同SSL技术应用于计算机视觉提出了其他挑战。如LeCunn所述,语义语言概念很容易分解为单词和离散短语。“但是对于图像,算法必须决定哪个像素属于哪个概念。此外,相同的概念在图像之间会有很大的不同,例如以不同姿势或从不同角度观看的猫。”他写道。“我们需要查看大量图像以掌握围绕单个概念的变化。”

为了使这种训练方法有效,研究人员既需要足够灵活以从大量未注释图像中学习的算法,又需要能够对算法生成的数据进行分类的复杂网络。Facebook在最近发布的内容中找到了前者弹道导弹根据LeCunn的说法,“使用在线聚类快速将具有相似视觉概念的图像分组并利用它们的相似性”,比以前的最新技术快六倍。后者可以在RegNets中找到,RegNets是一个复杂的网络,可以将数十亿(如果不是万亿)的参数应用于训练模型,同时根据可用的计算资源来优化其功能。

这个新系统的结果令人印象深刻。经过十亿参数的预培训之后,SEER设法超越了ImageNet上最先进的自我监督系统,得分为84.2%top-1精度。即使仅使用原始数据集的10%对其进行训练,SEER仍可达到77.9%的准确性。而且,当仅使用OG数据集的1%时,SEER仍然可以达到60.5%的top-1准确性。

本质上,这项研究表明,与NLP培训一样,无监督学习方法可以有效地应用于计算机视觉应用。通过增加灵活性,Facebook和其他社交媒体平台应具有更好的能力来处理被禁止的内容。

LeCunn说:“我们想要拥有的东西,在某种程度上已经有了,但是我们需要改进的是一个通用的图像理解系统。” “因此,每当您在Facebook上上传照片或图像时,该系统都会计算其中的一个嵌入内容,由此我们可以告诉您这是一张猫的照片,或者,您知道这是恐怖分子的宣传。”

与其他AI研究一样,LeCunn的团队也在开源许可下发布其研究和SEER的培训库,称为VISSL。如果您有兴趣让系统旋转,请前往VISSL网站 以获得其他文档并获取其GitHub代码。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。