谷歌新智能体Dreamer将亮相NeurIPS2019,数据效率比前身PlaNet快8个小时-lol外围投注app

lol外围投注app

lol外围投注app-在具有挑战性的环境中,一些人工智能系统通过使用从过去的经验中获得的世界表示来实现它们的目标。研究人员已经将这些应用程序应用到新的情况下,因此他们需要在他们从未见过的环境中完成任务。事实证明,增强型自主学习——这种用于向目标推进软件策略的训练技术,特别适合总结agent经验的世界模型的自主学习,并通过扩展促进新的不道德自主学习。

最近,谷歌、Alphabet的子公司DeepMind和多伦多大学的研究人员发表了一项名为《梦想掌控:通过潜意识的自学不道德》的新研究。他们开发了一个增强的自我学习代理梦想家,它将一个世界模型内部化,并通过潜在的“想象力”预先计划自由选择行动。他们说梦想家不限于任何自学目标,在数据效率、计算时间、最终表现等方面也有很多现有的方法。在其整个生命周期中,做梦者将自我学习一个潜在的动力学模型(潜在动力学模型),以预测行动并为仔细观察结果付费。

在这种情况下,“潜在动态模型”是指从图像输出中学习并继续执行计划以收集新经验的模型。而“潜在”反应则取决于隐藏状态或潜在状态的灵活顺序,这就需要学习更抽象的反应形式,比如物体的朝向和速度。编码器组件有效地将输出图像中的信息构造成隐藏状态,然后将隐藏状态及时向前投影,以预测图像和奖励。

上图:梦想家完成了一个转动钟摆的任务。中间显示的是45步预测梦想家用在一个多部分潜伏动力学模型中,这个模型的结构有些简单。“响应”位编码仔细的观察和行动,而“转换”位意识到状态而没有看到它。

lol外围投注app

第三个成分(奖励成分)根据等价模型状态投射奖励,而不道德模型会实施自学策略,旨在预测可以解决问题想象的环境的不道德性。最后,价值模型评估行动模型构建的预期想象报酬,并仔细观察模型以lol外围投注app获得对系统的信号。上图:梦想家在迷宫中穿行。

中间是45步预测。在一系列实验中,研究人员在DeepMind Control Suite中测试了做梦者对20项视觉控制任务的影响,DeepMindControlSuite是一种建模软件,用作评估机器学习驱动程序的代理。

他们首先使用英伟达V100图形芯片和10个处理器内核对其进行训练,每次训练运行一次。他们说,在套房里掌握每106个环保步骤需要9个小时。

(相比之下,谷歌梦想家的前身行星公司(PlaNet)花了17个小时才超越了类似的表现。)上图:梦想家在玩雅达利(摔跤)。

lol外围投注app

中间是45步预测。研究人员报告说,梦想家有效地利用自学的世界模型从少量的经验中进行总结,其成功证明了通过潜在想象进行自学是不道德的,无法与顶级方法相比。他们还说梦想家的价值模型即使在短期计划中也更好,在20项任务中有16项(其中4项是并列的)高于其他模型。

研究人员写道:“在未来,与自学密切相关的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中。”研究人员计划本周在温哥华举行的2019神经科学展上展示他们的工作。梦想家项目的代码可以在GitHub上发布。(微信官方账号:)原创文章,有许可也有禁止。

以下是发布通知。【lol外围投注app】。

本文来源:lol外围投注app-www.destinationpascher.com