谷歌可预测哪些机器学习模型将产生最佳结果的人工智能

行业资讯
2019
06/24
13:10
江苏达内
分享

谷歌的工作人员已经设计出能够预测哪些机器学习模型将产生最佳结果的人工智能。在一篇新发表的论文(《Off-Policy Evaluation via Off-Policy Classification》)和一篇博客文章中,一组谷歌人工智能研究人员提出了他们所谓的"离线分类",即OPC,它将以一个分类问题来评估人工智能驱动代理的性能。

该团队指出,他们的方法是强化学习的一种变体,利用奖励来推动软件策略朝着目标前进,与图像输入和任务规模(包括基于视觉的机器人抓取)协同工作。谷歌软件工程师Alex Irpan表示,完全脱离策略的强化学习是一种变体,其中agent完全从旧数据中学习,这很有吸引力,因为它支持模型迭代,而不需要物理机器人。使用完全脱离策略的RL,可以在以前代理收集的相同固定数据集上训练多个模型,然后选择最佳模型。

可以到达OPC,是非常具有挑战性的。 正如Irpan和其他共同作者所指出的那样,非政策性强化学习支持人工智能模型训练,比如使用机器人,但不支持评估。此外,他们指出,在需要评估大量模型的方法中,基础真实度评估通常效率太低。

他们的解决方案是OPC,它通过假设手头上的任务在状态变化过程中几乎没有随机性,以及假设代理在实验试验结束时成功或失败,来解决这个问题。这两个假设中的第二个的性质允许为每个操作分配两个分类标签("有效"用于成功或"灾难性"用于失败)。

谷歌可预测哪些机器学习模型将产生最佳结果的人工智能

上图:左边是基线。右边是一个被提议的方法,SoftOPC。

OPC还依赖于所谓的Q函数(通过q学习算法学习)来估计行动未来的总回报。代理选择具有最大预期回报的操作,并且它们的性能是通过所选择的操作有效的频率来度量的(这取决于Q-function如何正确地将操作划分为有效性和灾难性)。分类精度则作为非政策评价分数。

该团队在模拟中训练机器学习策略,使用完全偏离策略的强化学习,然后使用之前真实数据表中的偏离策略得分对其进行评估。在一个机器人抓取任务中,他们报告说OPC的一个变种的'SoftOPC'在预测最终成功率方面表现的最好。给定15个不同鲁棒性的模型(其中7个纯粹是在模拟中训练的),SoftOPC生成的分数与真正的掌握成功密切相关,比基线方法"显著"更可靠。

在未来的工作中,研究人员打算探索具有"噪音更大"和非二进制动态的任务。Irpan表示,我们认为这些结果很有希望应用于许多可以实现的RL问题。


【来源:江苏达内             作者:达内教育 】

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表本网站的观点和立场。

相关热点

神经网络由大量的人工神经元联结进行计算,大多数情况下,人工神经网络能在外接的信息基础上改变内部结构,是一种自己逐渐适应的过程。现代神经网络是一种基于传统统计学建模的工具,常用来对输入和输出间复杂的关系进...
江苏达内
近年来,国家发布众多有利政策,不断地推动大数据在制造业领域的广泛深入应用,促进基础制造业与工业互联网融合,鼓励发展人工智能提升基础制造行业生产效率,加快制造业向数字化转型。...
江苏达内
Python语言确实在人工智能领域有广泛的应用,不论是从事机器学习方向还是从事计算机视觉、自然语言处理等方向,研发人员都在普遍采用Python作为算法实现语言,同时由于Python语言自身就有健全的语言生态,可以完成落地应用的...
江苏达内

相关推荐