首页 >> 安胜浩

如何掌握每个AI的决策技巧和常识玩游戏陛尼曼

2022年08月05日

如何掌握每个AI的决策技巧和常识：玩游戏

人类是高度适应的生物。无论是从过去的经验中学习还是理解社会期望，我们都可以轻松地从一种情况转移到另一种情况。对于人工智能而言，适应新情况并非易事尽管AI模型能够掌握大量知识并能从过去的错误中吸取教训，但它们对隐性信息和常识缺乏普遍的了解，而常识通常会为我们的决策提供依据。

为了测试AI在各种情况和背景下掌握决策技能的能力，ISI研究人员和Viterbi计算机科学研究助理教授Jonathan May与ISI高级监管计算机科学家Ralph Weischedel和博士合作。学生Xusen Yin为AI模型创建了复杂的训练过程。

此前，May进行了一项研究，旨在探索AI聊天机器人可以将即兴表演融入对话的方式。通过建立即兴研究中常用的“是且”方法，May和他的团队创建了SpolinBot，这是一个聊天机器人，它能够产生引人入胜的对话，而不仅仅是对消息做出反应。

尽管他先前的项目以创造有趣和有趣的对话为中心，但梅的最新作品试图进一步探索人工智能的类人能力。这是通过“深度强化学习”专门完成的，在该过程中，深度神经网络有助于帮助模型从错误中学习并做出正确的决策，从而获得更好的结果。

尹说：“在不同的训练语料库的情况下，我们可以使对话变得流畅，有趣，甚至富有同情心。但是，大多数对话代理人并不会坚持要解决的问题，特别是在长时间的交谈中。”

在这项研究中，人工智能面临的挑战是如何遵循“选择自己的冒险”结构来掌握基于文本的游戏。具体来说，研究人员使用了一系列烹饪游戏来训练BERT，这是Google最初开发的一种著名的语言处理模型。由于游戏中的每个决定都会导致正面或负面的结果，因此AI模型最终会了解哪些决定是有益的，哪些是不希望的。但是，缺乏常识会导致AI模型在做出最佳决策之前耗尽所有选择。

“如果代理具有常识，它将节省大量搜索时间，并将精力集中在更重要的特定于任务的知识上，” Yin解释说。

通过“深度强化学习”，May和他的团队不仅能够训练BERT具有必要的决策技巧，以在看不见的烹饪游戏中获得理想的结果，而且可以将这些技能组合推广到完全看不见的寻宝领域的新颖游戏。

梅说：“您做出的每一个微观决策都可能不会教会您是否走上了正确的道路，但最终您会学到这一点，这将在下次您做出决策时为您提供帮助。”该项目。

在人工智能模型中，顺序决策技能的发展将被证明很重要，因为它可以实现更灵活的上下文交互。如果现代对话和辅助AI机器人能够采用复杂的决策技巧，那么我们与他们的互动将更加高效和有帮助。

展望未来，May和他的团队正在寻求将SpolinBot的即兴能力与该新企业的决策能力相结合。主要的障碍是当前的机器人有条件在一组给定的决策之间进行选择。为了将两个项目结合起来，AI模型必须学会同时兼顾创造力和决策能力。

随着像这样的研究的成功，人工智能越来越接近于人类以前独有的人类特征。这项研究和其他类似研究将推动人工智能领域真正了解人类的来龙去脉。

上海虹桥医院耳鼻喉科介绍如何帮助孩子重建听力

上一页：霍家拳之精武英雄1215定档爱奇艺少年宗师至强一战郑元畅
下一页：帕丁顿熊来袭百视通盘点十大真人动画电影陈琼美