首页 >> 安胜浩

如何掌握每个AI的决策技巧和常识玩游戏陛尼曼


2022年08月05日

如何掌握每个AI的决策技巧和常识:玩游戏

人类是高度适应的生物。无论是从过去的经验中学习还是理解社会期望,我们都可以轻松地从一种情况转移到另一种情况。对于人工智能而言,适应新情况并非易事尽管AI模型能够掌握大量知识并能从过去的错误中吸取教训,但它们对隐性信息和常识缺乏普遍的了解,而常识通常会为我们的决策提供依据。

为了测试AI在各种情况和背景下掌握决策技能的能力,ISI研究人员和Viterbi计算机科学研究助理教授Jonathan May与ISI高级监管计算机科学家Ralph Weischedel和博士合作。学生Xusen Yin为AI模型创建了复杂的训练过程。

此前,May进行了一项研究,旨在探索AI聊天机器人可以将即兴表演融入对话的方式。通过建立即兴研究中常用的“是且”方法,May和他的团队创建了SpolinBot,这是一个聊天机器人,它能够产生引人入胜的对话,而不仅仅是对消息做出反应。

尽管他先前的项目以创造有趣和有趣的对话为中心,但梅的最新作品试图进一步探索人工智能的类人能力。这是通过“深度强化学习”专门完成的,在该过程中,深度神经网络有助于帮助模型从错误中学习并做出正确的决策,从而获得更好的结果。

尹说:“在不同的训练语料库的情况下,我们可以使对话变得流畅,有趣,甚至富有同情心。但是,大多数对话代理人并不会坚持要解决的问题,特别是在长时间的交谈中。”

在这项研究中,人工智能面临的挑战是如何遵循“选择自己的冒险”结构来掌握基于文本的游戏。具体来说,研究人员使用了一系列烹饪游戏来训练BERT,这是Google最初开发的一种著名的语言处理模型。由于游戏中的每个决定都会导致正面或负面的结果,因此AI模型最终会了解哪些决定是有益的,哪些是不希望的。但是,缺乏常识会导致AI模型在做出最佳决策之前耗尽所有选择。

“如果代理具有常识,它将节省大量搜索时间,并将精力集中在更重要的特定于任务的知识上,” Yin解释说。

通过“深度强化学习”,May和他的团队不仅能够训练BERT具有必要的决策技巧,以在看不见的烹饪游戏中获得理想的结果,而且可以将这些技能组合推广到完全看不见的寻宝领域的新颖游戏。

梅说:“您做出的每一个微观决策都可能不会教会您是否走上了正确的道路,但最终您会学到这一点,这将在下次您做出决策时为您提供帮助。”该项目。

在人工智能模型中,顺序决策技能的发展将被证明很重要,因为它可以实现更灵活的上下文交互。如果现代对话和辅助AI机器人能够采用复杂的决策技巧,那么我们与他们的互动将更加高效和有帮助。

展望未来,May和他的团队正在寻求将SpolinBot的即兴能力与该新企业的决策能力相结合。主要的障碍是当前的机器人有条件在一组给定的决策之间进行选择。为了将两个项目结合起来,AI模型必须学会同时兼顾创造力和决策能力。

随着像这样的研究的成功,人工智能越来越接近于人类以前独有的人类特征。这项研究和其他类似研究将推动人工智能领域真正了解人类的来龙去脉。

成都医大医院

天津原发性痛经医院

郑州夏季皮炎医院

苏军医生

上海虹桥医院耳鼻喉科介绍如何帮助孩子重建听力

相关阅读
最佳陈小春不爱美女狂恋宝马宝马狂想曲将映林美王雁盟新乐黄淑惠朴贤基Trp

陈小春不爱美女狂恋宝马 《宝马狂想曲》将映由明日映画全力打造的电影《...

2024-04-18
最佳杨丞琳迎36岁生日贺军翔为多年好搭档送暖洪佩谊邱芸子铜陵郑源鲍比达Trp

杨丞琳迎36岁生日 贺军翔为多年好搭档送暖心祝福易娱乐6月4道 6月4日是杨并...

2024-04-18
时最林志颖沙漠中拿对讲机呼叫网友豆包我是土豆馨予晋中朴完奎昊天郑建鹏Trp

林志颖沙漠中拿对讲机呼叫 黄国俊友:豆包,我是土豆中新8月3日电企鹅 昨...

2024-04-18
最佳这个圈子里各有各的一把辛酸泪何方林柏宏李家发刘和刚七郎Trp

这个圈子里各有各的野狐禅一把辛酸泪近日,一个题为 改过年龄的女明星 的...

2024-04-18
时最田馥甄4月内地巡演新歌获选非诚勿扰插曲安琥朱文金承振邦乔维曾国辉Trp

田馥甄4月内地巡演 新歌获选《非诚勿扰》插曲即将于4月7日登上北京工人体...

2024-04-18
最佳音乐网站证实将试行全面收费价格非常便宜史逸欣邹静金度完张峰奇辣妹Trp

音乐站证实将试行全面收费:价格非常便宜施文彬[导读]6月5日起,包括虾米...

2024-04-18
友情链接