自如回应“租客喝了7个月中水”:已修复,将沟通补偿方案 台风“海神”逐步北上 后期或将影响东北 快手8.0版本上线!品牌与产品全面升级 支持1080P视频上传和播放 200余名防疫人员为服贸会做现场保障 参会人员配发中药预防饮 【地评线】京彩好评:更新技术出口目录是应时应势之举 2020年服贸会9月4日开幕:参展企业数量超往年 个人可提前两天预约参观 最新数据持续向好引海外点赞中国经济复苏 全国消费扶贫月:农产品流通过程中的税收优惠政策了解一下 徐州三十一中女教师殴打辱骂多名学生 已被停职 塑料书皮真“有毒”吗?哪种最安全?听专家怎么说 正当防卫认定新规来了,5张图带你看明白! 阿达来提·艾再孜:民法典将护佑“全面小康”行稳致远 【桂声漫画】防疫学业两手抓——大学,我来了! 我国成为3月份以来全球主要服务贸易国中唯一出口增长国家 中央财政对受灾困难群体予以倾斜和优先保障 防汛救灾工作有力有序 王毅:维护南海稳定,携手化解挑战 【地评线】京彩好评:更新技术出口目录是应时应势之举 中国改革低保等现行社会救助制度 打造多层次分类救助体系 疫情之下“审判执行不停摆” 中国最高法要求确保完成全年审判执行任务 商务部:愿与日本深化防疫和经济社会发展合作 中方再驳蓬佩奥涉华无端指责:蓬佩奥之流的险恶用心早已被世人识破 2020年服贸会9月4日开幕 设置7类活动 东北抗联遗址“云展播” 感受传承历史培育家国情怀 木里矿区非法开采为镜鉴 青海层层出手宣示生态保护决心 昨天,今天!胜利,唯有胜利! 中国创新发展目标明确 在人工智能和先进制造业等方面有规划 世界旅游合作与发展大会将在京开幕 促旅游业再繁荣 美国国务院限制中国在美外交活动 外交部回应 商务部回应印度禁用中国118款APP:严重关切 坚决反对 北京开展有限空间专项执法检查 持续至9月11日 中央财政对受灾困难群体予以倾斜和优先保障 防汛救灾工作有力有序 云南省原副省长赵廷光逝世 享年89岁 应急管理部消防救援局前方指挥部完成各项任务正式撤离四川 男童泳池排便被索赔1.5万元 家长回应:不接受赔偿数额 商务部:调整发布《中国禁止出口限制出口技术目录》不针对具体企业 宇宙全尺度暗晕什么模样?8个“放大镜”接力模拟出清晰图像 250万贫困人口遭受洪涝灾害 官方紧急施措防范因灾返贫致贫 西银高铁陕西段联调联试正式启动 应急管理部自然灾害工程救援成都基地挂牌成立 跨境服务贸易负面清单何时推出?商务部:年底前将出台 内蒙古推荐50项国家重点研发计划项目获国家立项支持 “日军细菌战罪证”上线,让历史说话! 中方回应美方限制中国在美外交活动:于法无据、于理不合、于情不通 疫情阴霾渐散 外媒感受“中国式”热闹 实验室设计、人员培训……中国抗疫医疗专家组在几内亚分享这些经验 中科院科研人员在新型半导体激光器研发上取得进展 王毅将出席金砖国家外长视频会晤 三部门:防卫过当应兼具两个条件,缺一不可 5G手机首次击穿千元关口 上游芯片厂商芯片迭代速度加快 二战以来首次!CBO:美国政府债务明年将超过经济规模
您的位置:首页 >财经 >

算法帮助AI在传奇的Atari游戏中获胜

2019-09-09 16:00:14来源:

2015年,谷歌的DeepMind AI的任务是学习玩Atari视频游戏。它也非常成功,在视频弹球方面与人类玩家一样出色。但由于游戏的复杂性,除了简单的街机游戏之外,它开始挣扎,众所周知甚至未能收集传奇的20世纪80年代冒险游戏Montezuma's Revenge中的第一把钥匙。

然而,一种新方法导致了一种AI算法,该算法从错误中学习,并确定中间步骤的速度提高了10倍,在Google失败并成功自主玩Montezuma's Revenge之后取得了成功。

这项工作由Fabio Zambetta及其团队在澳大利亚墨尔本的RMIT大学进行。Zambetta 于2月1日在夏威夷举行的第33届AAAI人工智能会议上介绍了这一发现。

设计可以克服计划问题的人工智能,例如奖励不是很明显,是推动该领域最重要的挑战之一。

人工智能在冒险游戏中挣扎的原因是,在发现一些奖励之前,它认为没有动力选择一种行动方式而不是其他任何一种方式,例如实现爬梯或跳过坑到达更大目标的子目标水平。

他们感到困惑并无法确定前进的道路,而只是随意开始行动。

对于某些游戏,例如弹球,奖励在附近,算法获得所需的外部输入。

然而,在一个冒险游戏中,奖励更加分散,鸡和蛋的情况发展。该程序发现自己无法改善其游戏玩法,直到获得一些奖励,但在改进其游戏玩法之前不会找到奖励。

为了解决这个问题,Zambetta从其他电脑游戏中汲取灵感,如超级马里奥和Pacman,并引入了颗粒奖励,提供了小的中间奖励,并鼓励它探索和完成子目标。

“真正聪明的人工智能需要能够学会在模糊的环境中自主完成任务,”他说。

“我们已经证明,正确的算法可以使用更智能的方法改善结果,而不是纯粹粗暴地在非常强大的计算机上端到端地解决问题。”

这种方法意味着算法将更自然地行动,并且完成子目标的速度比其他AI方法快10倍。

“不仅我们的算法在玩Montezuma's Revenge时自动识别相关任务的速度比Google DeepMind快10倍,他们还表现出相对类似人类的行为,”Zambetta声称。

“例如,在你可以进入游戏的第二个屏幕之前,你需要确定一些子任务,例如爬梯子,跳过一个敌人,然后最终拿起钥匙,大致按照这个顺序。

“这最终会在很长一段时间后随机发生,但在我们的测试中如此自然地发生了某种意图。

“这使我们成为第一个完全自主的面向目标的代理商,与这些游戏中最先进的代理商真正竞争。”

虽然听起来微不足道,但这项工作在游戏之外可能很重要。根据Zambetta的说法,激励子目标可能有利于控制自动驾驶汽车的算法以及需要机器人助手在现实世界中实现目标的其他情况。

猜您喜欢