煜鸣灬

发布于 2021-07-05 16:38

深度学习人工智能的题目求求大佬们帮帮忙

老哥们救救孩子，选修的一门课，期末作业搞不懂求大佬帮忙

1．MDPs问题-寻宝

Pacman除了吃豆子之外，有时也去以下的Gridworld岛去寻宝。Pacman有一张地图，上面标有那里是hazards，那里是treasure。在地图中任何空的方块，Pacman可以执行标准的 actions (N, S, E, W)，而且这些actions不受移动噪音的影响。当Pacman落入一个 hazard (H) 方块或一个treasure (T) 方块时，它能做的action只有airlift (X)，即把Pacman带入“Done” 状态；如果它是从H出来，reward是-64，而如果它是从T出来，reward是+128，但没有“living reward”（即没有所谓的“生命”reward）。

a) 如果γ = 0.5，求 grid中每个state的V ∗ 值(Optimal value)

b) optimal policy是什么?

我们上面的policy称为. Pacman知道地图过时了，所以决定作Q-Learning

来探寻这个岛到底是什么样的。因为Pacman认为是接近正确的，所以采取

基于(b)的 -random policy. 即在有多个actions时，Pacman以概率

来随机选择不同actions.否则，Pacman根据的推荐来选择action.我们把

这个policy称为 .

基于 -random policy的是随机policy的一个例子，它的actions的选

择基于概率的，而不是policy所推荐的那个。随机policy可写为π(s,a)，即

表示当agent在状态s时，选择action a的概率。

c) 如果policy π(s,a) 是随机的，写出修改后的用来计算policy的 Bellman equation：

(s) =

事实证明，Pacman的地图基本上是正确的，只是有些火坑已经变成空的方块。这样，

Pacman开始做Q-Learning,它观察到以下的episodes:

[ (0, 0), N, 0, (0, 1), N, 0, (0, 2), X, 128, Done ]

[ (0, 0), N, 0, (0, 1), E, 0, (1, 1), X, -64, Done ]

d) 假设Pacman把Q-value初始化为0而且learning rate是1.0，那么在观察到这些

episodes之后，Pacman的Q-values是什么？

2. Search问题– 昆虫重逢

假设你可以控制M x N维的maze环境里的一个或多个昆虫，如下图所示。昆虫每走一步，将进入旁边的North, East, South或West方块，如果旁边方块是空的话；否则昆虫将停留在当前位置。方块可能有墙挡，但地图是已知的。

在回答以下的问题时，你应该回答问题的泛例，而不是简单描述地图所显示的东西。

现在你来控制两个昆虫。你是知道这个maze的环境的，但没有昆虫从哪个方块开始的信息，怎样来帮助这两个昆虫重逢呢？

你可以把这个问题看成一个search问题，这个问题的答案是一个actions的序列，不管昆虫初始位置在什么地方，当昆虫执行了这个序列的actions之后，两个昆虫将会在一个方块中重逢。任何方块都可以，因为两个昆虫只是想重逢，而不在乎在哪个方块。两个昆虫都盲目地执行这些actions,而不知道它们的移动是否成功。如果它们action的执行把它们带向死胡同，那么它们将停留在哪里。两个昆虫每次都可以走一步，每走一步的成本是1.

问题

(a) 给出这个search问题的minimal state representation.

(b) 给出这个search问题的state space的大小。

(c) 给出这个search问题的一个nontrivial 的可行的启发式解决方案。

有偿求大佬帮忙

2025最新求职资料大礼包领取

大家都在关注

校招日程表笔试日历 ai模拟面试面试宝典剑指offer 知识点专项练习

已采纳

采纳

精彩回帖

精彩

全部评论

(1) 回帖

加载中...

话题同步到我的动态回帖

深度学习人工智能的题目求求大佬们帮帮忙

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

热门推荐

深度学习 人工智能的题目 求求大佬们帮帮忙

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

热门推荐

深度学习人工智能的题目求求大佬们帮帮忙