计算机系统应用  2022, Vol. 31 Issue (10): 99-107   PDF    
移动边缘计算网络中的资源分配与定价
吕晓东1, 邢焕来2, 宋富洪2, 王心汉2     
1. 西南交通大学 信息科学与技术学院, 成都 610031;
2. 西南交通大学 计算机与人工智能学院, 成都 610031
摘要:移动边缘计算(mobile edge computing, MEC)使移动设备(mobile device, MD)能够将任务或应用程序卸载到MEC服务器上进行处理. 由于MEC服务器在处理外部任务时消耗本地资源, 因此建立一个向 MD 收费以奖励MEC服务器的多资源定价机制非常重要. 现有的定价机制依赖于中介机构的静态定价, 任务的高度动态特性使得实现边缘云计算资源的有效利用极为困难. 为了解决这个问题, 我们提出了一个基于Stackelberg博弈的框架, 其中MEC服务器和一个聚合平台(aggregation platform, AP)充当跟随者和领导者. 我们将多重资源分配和定价问题分解为一组子问题, 其中每个子问题只考虑一种资源类型. 首先, 通过MEC服务器宣布的单价, AP通过解决一个凸优化问题来计算MD从MEC服务器购买的资源数量. 然后, MEC服务器计算其交易记录, 并根据多智能体近端策略优化(multi-agent proximal policy optimization, MAPPO)算法迭代调整其定价策略. 仿真结果表明, MAPPO在收益和福利方面优于许多先进的深度强化学习算法.
关键词: 移动边缘计算(MEC)    资源定价    博弈论    深度强化学习    资源分配    
Resource Allocation and Pricing in Mobile Edge Computing Networks
LYU Xiao-Dong1, XING Huan-Lai2, SONG Fu-Hong2, WANG Xin-Han2     
1. School of Information Science and Technology, Southwest Jiaotong University, Chengdu 610031, China;
2. School of Computing and Artificial Intelligence, Southwest Jiaotong University, Chengdu 610031, China
Abstract: Mobile edge computing (MEC) enables mobile devices (MDs) to offload tasks or applications to MEC servers for processing. As a MEC server consumes local resources when processing external tasks, it is important to build a multi-resource pricing mechanism that charges MDs to reward MEC servers. Existing pricing mechanisms rely on the static pricing of intermediaries. The highly dynamic nature of tasks makes it extremely difficult to effectively utilize edge-cloud computing resources. To address this problem, we propose a Stackelberg game-based framework in which MEC servers and an aggregation platform (AP) act as followers and the leader, respectively. We decompose the multi-resource allocation and pricing problem into a set of subproblems, with each subproblem only considering a single resource type. First, with the unit prices announced by MEC servers, the AP calculates the quantity of resources for each MD to purchase from each MEC server by solving a convex optimization problem. Then, each MEC server calculates its trading records and iteratively adjusts its pricing strategy with a multi-agent proximal policy optimization (MAPPO) algorithm. The simulation results show that MAPPO outperforms a number of state-of-the-art deep reinforcement learning algorithms in terms of payoff and welfare.
Key words: mobile edge computing (MEC)     resource pricing     game theory     deep reinforcement learning     resource allocation    

1 引言

随着移动应用和物联网的快速发展, 功率和计算资源有限的移动设备(MDs)不再满足资源密集型应用的严格要求, 如低延迟、高可靠性、用户体验连续性的要求[1]. 在移动边缘计算(MEC)中, 网络运营商和服务提供商进行合作, 在网络边缘提供优秀的通信和计算资源, 以增强MD能力[2].

在MEC中, 计算资源的管理在提高资源利用率和优化系统资源效益方面起着至关重要的作用[3]. 由MEC服务器处理外部任务会消耗本地计算资源. 因此, 每个MD根据某种资源定价机制支付一定的服务费, 以激励边缘云提供足够的计算资源.

现有的定价机制, 如基于拍卖的, 依赖于中间机构的静态定价[46]. 拍卖双方都需要向中介提供的服务支付费用. 总成本的增加使得双方都无法从资源交易中获得最佳的利益. 同时, 静态定价也不能适应MD不断变化的资源需求. 在这种情况下, MEC服务器很难有效地利用其本地资源. 因此, 一个关键的问题是如何有效地将有限的MEC资源分配给具有不同需求和偏好的相互竞争的MD. 为此, 我们将MEC环境中的多资源分配和定价问题表述为一个包含一个领导者和多个跟随者的多阶段Stackelberg博弈, 其中所有MEC服务器同时将它们的实时价格发送到一个聚合平台(AP). 在第1阶段, 通过MEC服务器公布的价格, AP通过解决一个效用最大化问题来找到最优的资源分配解决方案. 在第2阶段, 基于环境的反馈(即资源如何分配给MDs), 我们利用多代理近端策略优化(MAPPO)算法[7]学习每个MEC服务器的最优定价策略, 这种策略不需要MEC服务器获取其他MEC服务器实现的定价策略就可以做出最优的决策.

我们的主要贡献如下: (1)我们通过构建一个Stackelberg的领导者-跟随者博弈, 充分考虑了AP和MEC服务器之间的互动以及服务器之间的竞争. 纳什均衡给出了完全竞争的合理结果. (2)该算法基于MAPPO, 这是一种具有集中式训练和分布式执行的深度强化学习算法, 能够适应环境动力学和参数的不确定性. 每个MEC服务器作为一个智能体, 不断地与环境交互, 以生成一系列的培训经验. 智能体既不需要事先了解MEC资源的折扣成本, 也不需要知道其他智能体所采取的行动. 因此, 信号传递的开销就大大减少了. (3)仿真结果表明, 该算法可以为每个MEC服务器学习一个优秀的策略, 以确定其资源的单价.

2 相关工作

边缘系统的最优资源分配和定价已经引起了越来越多的研究关注. 主要有两个研究方向: 定价导向因素和最优定价策略.

定价导向因素. Dong等人[8]提出了一种云计算资源定价算法, 分析历史资源使用情况并不断调整资源价格. 但该算法只考虑了资源利用率, 没有分析其他重要因素. Liu等人[9]提出了一种基于价格的分布式算法, 只强调了任务调度. Li等人[10]提出了云计算的静态资源定价方案. 定价操作简单, 但难以满足终端设备的动态需求. 他们没有考虑用户需求与资源价格之间的实时关系, 因此不能根据用户需求动态调整资源价格.

最优定价策略. 现有的最优定价策略大多是基于拍卖和博弈论的. Zhang等人[11]研究了通过基于拍卖的算法对系统效益和多维资源的联合优化. 解决方案是系统性能改进和单位效益的产物. 然而, 该算法以每一轮拍卖为优化目标, 难以接近全局最优. 因此, 执行成本非常高. Dong等人[12]采用了一种基于价格的双层Stackelberg博弈来模拟一个由单个MEC服务器和多个用户组成的MEC系统.

3 系统模型 3.1 网络模型

MEC系统模型由多个利益相关者组成: (1)希望出售免费资源的MEC服务器; (2)希望购买资源以执行计算任务的MD; (3)AP作为第三方代理, 代表MD从MEC服务器购买资源. 不失一般性, 我们考虑一个通用的“多对多”场景, 即每个MEC都可以将资源出售给多个MD. 同时, 每个MD可以购买多个MEC服务器出售的资源.

我们考虑一个具有多个MD和具有多种类型资源的多个MEC服务器的MEC系统. 我们用 $ {U} = \{ 1, 2, \cdots, U\} $ ${{M}} = \{ 1, 2, \cdots, M\}$ 分别表示MD和MEC服务器的集合. ${{R}} = \{ 1, 2, \cdots, R\}$ 表示资源种类的集合. 我们有 ${{|U| = }}U, {{ |M|}} = M, |{{R}}| = R$ . MEC服务器和MD之间的相互作用总结如下:

(1) MEC服务器 $i \in {{M}}$ , 希望出售空闲资源 ${{r}} \in {{R}}$ , 于是向AP告知它的可用资源数量 $ {Q_{i, r}} $ 和其单位资源的期望价格 $ {p_{i, r}} $ .

(2) 给定价格 $ {p_{i, r}} $ 和可用资源数量 $ {Q_{i, r}} $ , MD $j \in {{U}}$ 决定从每个MEC服务器购买的资源数量

(3) MD $ j $ 使用所购买的资源来处理其计算任务.

3.2 多阶段Stackelberg博弈

Stackelberg领导者-跟随者博弈是一个策略游戏, 其中领导者承诺一个策略, 然后跟随者跟随[13]. 一般来说, 游戏中的所有玩家都是自私的, 因为他们每个人都考虑了他人的策略来最大化自己的利益. 具体来说, 考虑到跟随者可能采取的策略, 领导者选择了一种最大化其利益的策略. 基于观察领导者的策略, 每个跟随者都采用了使其利益最大化的策略. 然后, 我们解释了跟随者之间的竞争. 通过MAPPO算法, 得到了每个跟随者的最佳响应. 在这个算法中, 每个跟随者都与环境交互, 并学习一种策略来优化其长期奖励, 而不需要考虑他人采取的行动. Stackelberg领导者-跟随者博弈的定义如下:

玩家: AP和MEC服务器都是游戏玩家. AP是领导者, 而所有的MEC服务器都是跟随者.

策略: 对于MEC服务器 $i \in {{M}}$ , 他的策略是确定资源 $r \in {{R}}$ 的单价; 对于AP, 策略是确定MD $j \in {{U}}$ 从MEC服务器处购买的资源 $ r $ 的数量.

收益: MEC服务器、MD 和AP的收益函数分别由式(1)–式(3)给出.

$ {x_{i.j.r}} $ 表示MD $j \in {{U}}$ 从MEC服务器 $i \in {{M}}$ 处购买的资源 $r \in {{R}}$ 的数量. MEC服务器 $ i $ 的收益计算如下:

$ {\psi _i}({x_i}, {p_i}) = \sum\limits_{r \in {{R}}} {{p_{i, r}}\sum\limits_{j \in {{U}}} {{x_{i, j, r}}} } , \forall i \in {{M}} $ (1)

其中, $ {p_{i, r}} $ 表示MEC服务器 $ i $ 的资源 $ r $ 的单价, ${x_i} = {\{ {x_{i, j, r}}\} _{j \in {{U, }}r \in {{R}}}}$ , ${p_i} = {\{ {p_{i, r}}\} _{j \in {{U}}}}$ .

MD $ j $ 的收益定义如下:

$ \begin{split} {\phi _j}({x_i}, p) =& \sum\limits_{r \in {{R}}} \log \left(\sum\limits_{i \in {{M}}} {\omega _{i, j, r}}{x_{i, j, r}}\right) - \sum\limits_{i \in {{M}}} {{p_{i, j, r}}{x_{i, j, r}}} , \forall j \in {{U}} \end{split} $ (2)

其中, ${x_j} = {\{ {x_{i, j, r}}\} _{i \in {{M}}, r \in {{R}}}}, p = {\{ {p_{i, r}}\} _{i \in {{M}}, j \in {{U}}}}$ , $ {\omega _{i, j, r}} $ 是MEC服务器 $ i $ 出售给MD $ j $ 的资源 $ r $ 的质量.

AP的收益是所有MEC服务器和MD收益的总和(即社会福利), 定义如下:

$ \begin{split} \phi (x, p) &= \sum\limits_{i \in {{M}}} {{\psi _i}({x_i}, {p_i})} + \sum\limits_{j \in {{U}}} {{\phi _j}({x_i}, p)} \\ & = \sum\limits_{j \in {{U}}} \sum\limits_{r \in {{R}}} \log \left(\sum\limits_{i \in {{M}}} {\omega _{i, j, r}}{x_{i, j, r}}\right) \end{split} $ (3)

其中, $x = {\{ {x_{i, j, r}}\} _{i \in {{M}}, j \in {{U}}, r \in {{R}}}}$ .

由于所有资源都有独立的预算, 且彼此不受影响, 因此我们可以将多资源分配和定价问题分解为多个单资源分配和定价子问题. 因此, 我们将优化问题分解为R个独立的子问题, 每个子问题都与特定的资源类型相关联. 与整体处理原始优化问题相比, 该分解的主要优点是处理多个子问题显著降低了计算复杂度. 与 $r \in {{R}}$ 相关的子问题表示为:

$ {\psi _{i, r}}({x_{i, r}}, {p_{i, r}}) = {p_{i, r}}\sum\limits_{j \in {{U}}} {{x_{i, j, r}}} , \forall i \in {{M}} $ (4)
$ {\phi _r}({x_r}, {p_r}) = \sum\limits_{j \in {{U}}} \log \left(\sum\limits_{i \in {{M}}} {\omega _{i, j, r}}{x_{i, j, r}}\right) $ (5)

其中, ${x_{i, r}} = {\{ {x_{i, j, r}}\} _{j \in {{U}}}}$ , ${x_r} = {\{ {x_{i, j, r}}\} _{i \in {{M}}, j \in {{U}}}}$ , ${p_r} = {\{ {p_{i, r}}\} _{i \in {{M}}}}$ .

定义1. 令 $x_{i, r}^ * = {\{ {x^ * }_{i, j, r}\} _{j \in {{U}}}}$ , ${p^ * }_r = {\{ {p^ * }_{i, r}\} _{i \in {{M}}}}$ , ${x^ * }_r = {\{ {x^ * }_{i, j, r}\} _{i \in {{M}}, j \in {{U}}}}$ , 解 $ ({x}^{\ast }{}_{r}, {p}^{\ast }{}_{r}) $ 是一个纳什均衡解的充分条件是:

$ {\psi }_{i, r}({x}_{i, r}^{\ast }, {p}^{\ast }{}_{i, r})\geqslant {\psi }_{i, r}({x}_{i, r}^{\ast }, {p}_{i, r})\text{, }\forall {p}_{i, r}\ne {p}^{\ast }{}_{i, r} $ (6)
$ {\varphi }_{r}({x}^{\ast }{}_{r}, {p}^{\ast }{}_{r})\geqslant {\varphi }_{r}({x}_{r}, {p}^{\ast }{}_{r})\text{, }\forall {x}_{r}\ne {x}^{\ast }{}_{r} $ (7)
3.3 AP社会福利优化

针对与资源 $ {\kern 1pt} r $ 相关的子问题, 给定所有MEC服务器对资源 $ {\kern 1pt} r $ 的单价(即 $ {p_r} $ ), AP的目标是最大化它的收益.

问题1:

$\left\{ { \begin{split} & \mathop {\max }\limits_{{x_r} = {{\{ {x_{i, j, r}}\} }_{i \in {{M}}, j \in {\text{U}}}}} {\phi _r}({x_r}, {p_r}) \\ & {\rm s.t.}{\kern 1pt} {\kern 1pt} {\kern 1pt} \sum\limits_{j \in {{U}}} {{x_{i, j, r}}} \leqslant {Q_{i, r}}, \forall i \in {{M}} \\ & \sum\limits_{i \in {{M}}} {{p_{i, r}}{x_{i, j, r}}} \leqslant B{}_{j, r}, \forall j \in {{U}} \end{split}} \right. $ (8)

其中, $ {Q_{i, r}} $ 是MEC服务器 $ i $ 中资源 $ {\kern 1pt} r $ 的可售卖数量, $ B{}_{j, r} $ 是MD $ j $ 购买资源 $ r $ 的预算.

定理1. 问题1的最优解如下:

$ x_{i, j, r}^ * = \left\{ \begin{gathered} \frac{{B{}_{j, r}{\omega _{i, j, r}}}}{{{p_{i, r}}\displaystyle\sum\nolimits_{i \in {{M}}} {{\omega _{i, j, r}}} }}, {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm if}{\kern 1pt} {\kern 1pt} I \geqslant 0 \\ \frac{{{Q_{i, r}}{\omega _{i, j, r}}}}{{\displaystyle\sum\nolimits_{j \in {{U}}} {{\omega _{i, j, r}}} }}, {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm otherwise} \\ \end{gathered} \right. $ (9)

其中,

$ I = \sum\limits_{j \in {{U}}} {\log } \left(\sum\limits_{i \in {{M}}} {\frac{{B{}_{j, r}\omega _{i, j, r}^2}}{{{p_{i, r}}\displaystyle\sum\nolimits_{i \in {{M}}} {{\omega _{i, j, r}}} }}} \right){\kern 1pt} {\kern 1pt} - \sum\limits_{j \in {{U}}} {\frac{{{Q_{i, r}}\omega _{i, j, r}^2}}{{\displaystyle\sum\nolimits_{j \in {{U}}} {{\omega _{i, j, r}}} }}} $ (10)

证明见附录A.

4 基于MAPPO的AP收益优化

本节将介绍每个MEC服务器如何选择其对AP所采用的策略的最佳响应.

4.1 基于深度强化学习的方法

我们使用多智能体强化学习(multi-agent reinfo-rcement learning, MARL)来解决多重单一资源分配和定价子问题. 我们将每个子问题描述为一个马尔可夫决策过程(Markov decision process, MDP), 以准确地反映资源分配和定价的决策过程. 然后, 我们将 MAPPO应用于这些子问题. 由于其在全局优化方面的出色性能, MAPPO可以在需要时快速为每个MEC服务器获得接近最优的单一资源分配和定价策略.

对于资源 $ r $ , 给定来自环境的反馈(即资源 $ r $ 如何分配给MD), 每个MEC服务器需要确定资源 $ r $ 的单价以最大化它的收益.

$ \begin{gathered} \mathop {\max }\limits_{{p_{i, r}}} {\psi _{i, r}}({x_{i, r}}, {p_{i, r}})\;\; {\rm s.t.}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {p_{i, r}} \geqslant 0 \end{gathered} $ (11)

MDP的元素如下所示, 包括状态空间、动作空间和奖励函数.

状态空间: MEC服务器 $ i $ 在时隙 $ t $ 时刻的状态空间表示为 $ o_i^t $ , 包括对前面的 $ L $ 个时隙的观察, 如式(12)所述:

$ o_i^t = [p_{i, r}^{t - 1}, x_{i, r}^{t - 1}, \cdots, p_{i, r}^{t - L}, x_{i, r}^{t - L}],\; \forall i \in {{M}} $ (12)

全局状态: MAPPO基于全局状态 $ s $ 而不是本地观察 $ {o_i} $ 学习策略 $ {\pi _\theta } $ 和值函数 $ {V_\varsigma }(s) $ . 我们使用所有局部观测结果的连接来作为critic网络的输入.

$ {s^t} = (o_1^t, \cdots, o_{{M}}^t) $ (13)

动作空间: 在时隙 $ t $ , MEC服务器 $i \in {{M}}$ 观察前 $ L $ 个时隙的资源分配情况, 决定在当前时隙的单价, 即 $ p_{i, r}^t $ .

$ a_i^t = {u_i}(o_i^t|{\theta ^{{u_i}}}) $ (14)

奖励函数: 奖励函数定义如下:

$ {r^t} = \sum\limits_{i = 1}^{{M}} {\log } \left(1 + p_{i, r}^t\sum\limits_{j \in {{U}}} {x_{i, j, r}^t} - c_i^t\sum\limits_{j \in {{U}}} {x_{i, j, r}^t} \right) $ (15)

其中, $ c_i^t $ 是MEC服务器 $ i $ 的折扣成本. log函数确保当所获收益(即 $p_{i, r}^t \displaystyle\sum\limits_{j \in {{U}}} {x_{i, j, r}^t}$ )不足以抵扣成本(即 $c_i^t \displaystyle\sum\limits_{j \in {{U}}} {x_{i, j, r}^t}$ )时, 奖励是负的.

4.2 基于MAPPO的资源分配和定价策略(RAP-MAPPO)

MARL 算法可以分为两种框架: 集中式学习和分散式学习. 集中式方法假设合作博弈, 并通过学习单一策略直接扩展单智能体强化学习算法, 以同时产生所有智能体的联合动作. 在分散学习中, 每个智能体都优化自己的独立奖励; 这些方法可以解决非零和博弈, 但可能会受到非平稳转换的影响. 最近的工作已经开发出两条研究路线来弥合这两个框架之间的差距: 集中培训和分散执行(centralized training and decentralized execution, CTDE)和值分解(value decomposition, VD). CTDE通过采用actor-critic结构并学习集中的critic来减少方差, 从而改进了分散的强化学习. 代表性的CTDE方法是多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)[14]. VD通常与集中式Q学习相结合, 将联合Q函数表示为每个代理的局部Q函数的函数[15], 这已被视为许多MARL基准测试的黄金标准. MAPPO通过将单个近端策略优化算法(proximal policy optimization algorithms, PPO)[16]训练与全局值函数相结合, 属于CTDE类别. 不同的是PPO是一个on-policy算法, MADDPG是基于off-policy的算法, 但是MAPPO经过简单的超参数调整就能获得比较好的成绩.

在RAP-MAPPO中, 每个MEC服务器都被视为一个智能体. 每个智能体都有一个参数为 $ \theta $ 的actor网络和一个参数为 $ \varsigma $ 的critic网络. RAP-MAPPO为每个智能体训练这两个神经网络. 我们用 $ {\kern 1pt} {\kern 1pt} {\kern 1pt} {V_\varsigma } $ 表示critic网络, 用 $ {\pi _\theta } $ 表示actor网络. 我们使用统一的经验重放缓冲区来存储历史数据点以进行训练. RAP-MAPPO是一种基于集中式训练和分布式执行的方法. 在集中训练阶段, actor网络只从自身获取观测信息, 而critic网络获取全局状态. 在分布式执行阶段, 每个代理只需要它的actor网络(而不需要critic网络). 通过与环境的交互, 每个代理都可以做出合适的资源分配和定价策略.

Actor网络被训练用来最大化:

$ \begin{split} L(\theta )=& \left[\frac{1}{{Bn}}\sum\limits_{i = 1}^B {\sum\limits_{k = 1}^n {\min } } {\text{(}}r_{\theta , i}^kA_i^k, clip(r_{\theta , i}^k, 1 - \varepsilon , 1 + \varepsilon )\right.\Bigg. A_i^k)\Bigg] \\ & +\sigma \frac{1}{{Bn}}\sum\limits_{i = 1}^B {\sum\limits_{k = 1}^n S } {\text{[}}{\pi _\theta }{\text{(o}}_i^k{\text{)]}} \end{split} $ (16)

其中, $ r_{\theta , i}^k = \dfrac{{{\pi _\theta }(a_i^k|o_i^k)}}{{{\pi _{{\theta _{old}}}}(a_i^k|o_i^k)}} $ , $ B $ $ n $ 分别是抽样次数和智能体数量, $ A_i^k $ 基于广义优势估计(generalized advantage estimation, GAE)方法计算得出, $ S $ 是策略熵, $ \sigma $ 是超参数.

Critic网络被训练用来最大化.

$ \begin{split} L(\varsigma ) =& \frac{1}{{Bn}}\sum\limits_{i = 1}^B {\sum\limits_{k = 1}^n {\max } } {\text{[(}}{{{V}}_\varsigma }{{(s}}_i^k{\text{) - }}{\widehat R_i}{{\text{)}}^2}{\text{, }} \\ & {{\text{(}}clip({{{V}}_\varsigma }{{(s}}_i^k{\text{)}}, {{{V}}_{{\varsigma _{\rm old}}}}{{(s}}_i^k{\text{)}} - \varepsilon , {{{V}}_{{\varsigma _{\rm old}}}}{{(s}}_i^k{\text{)}} + \varepsilon ) - {\widehat R_i}{\text{)}}^2}{\text{]}} \end{split} $ (17)

其中, $ {\widehat R_i} $ 是折扣奖励. RAP-MAPPO的训练步骤见算法1.

算法1. RAP-MAPPO的训练过程

初始化: 初始化actor网络和critic网络的参数

1: 设置学习率 $\scriptstyle \alpha $

2: while $\scriptstyle step \leqslant ste{m_{\max }} $

3:  令 data buffer $\scriptstyle D = \{ \} $

4:  for $\scriptstyle i = 1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} to{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} batch\_{\textit{size}}$ do

5:   $\scriptstyle \tau = [] $

6:   fort=1 to T do

7:     $\scriptstyle p_{\text{t}}^a = \pi (o_a^t;\theta ), u_a^t\sim p_a^t, v_a^t = V(s_a^t;\varsigma )$

8:    计算动作 $\scriptstyle {u^t} $ , 得到 $\scriptstyle {r^t}, {o^{t + 1}}, {s^{t + 1}} $

9:    $\scriptstyle \tau + = [{s^t}, {o^t}, {u^t}{\kern 1pt} , {r^t}, {o^{t + 1}}, {s^{t + 1}}] $

10:   计算 $\scriptstyle \widehat A, \widehat R $ , 将 $\scriptstyle \tau $ 分成长度为L的块

11:   for 1=1, 2, …, T //L do

12:     $\scriptstyle D=D\cup (\tau [l:l+L, \widehat{A}[l:l+L], \widehat{R}[l:l+L]]) $

13:   从D中随机抽取K个样本

14:   通过 $\scriptstyle L(\theta ) $ 更新 $\scriptstyle \theta $ , $\scriptstyle L(\varsigma ) $ 更新 $\scriptstyle \varsigma $

5 仿真结果 5.1 参数设置

我们考虑一个由多个MEC服务器和多个MD组成的MEC系统. 收益最大化问题取决于可用的资源和预算. 为简单起见, 我们设置 $ {\omega _{i, j, r}} = 1 + 0.1j + i/10 $ . 资源质量在整个实验过程中都是固定的. 我们将长期奖励的折扣系数设置为零, 因为自私的智能体的目标是最大化他们的即时收益. 为了加快训练过程, 我们对每个智能体都采用了一个相对较小的网络. Actor网络和critic网络都是由1个输入层, 3个隐藏层和1个输出层组成. 这3个隐藏层分别有128、64和32个神经元. 此外, actor网络和critic网络都使用ReLU作为所有隐藏层的激活函数, 参与者网络采用tanh函数激活输出层进行策略生成. 其他模拟参数见表1. 进行性能比较的算法如下:

质量比例最优定价(quality proportional optimalpricing, QPOP): 我们假设AP对每个MEC服务器提供的资源质量有一个先验的知识. 单价设置与服务器的资源质量成正比, 同时消耗确定的资源和货币预算(即 $ I{\text{ = 0}} $ ). $ I{\text{ = 0}} $ 在实际系统中是不可能的, 但由QPOP找到的解决方案可以作为一个最优的基准.

随机: 单价在(0, 5)区间内随机产生.

表 1 仿真参数

MADDPG: 每个MEC服务器都被视为一个智能体, 状态空间由前L个时隙的价格和资源分配组成, 动作是资源的单价, 奖励函数基于MEC服务器的资源收入和成本设计.

5.2 收敛性

图1为所提出的RAP-MAPPO和MADDPG在不同MEC服务器数量下的收敛曲线. 随着训练次数的增加, MEC服务器的平均奖励逐渐上升, 最终变为积极和稳定. 我们首先研究了MEC服务器的数量对收敛性的影响. 随着MEC服务器的增加, 这两种算法都需要更多的时间来收敛. 这是因为更多的服务器会导致更大的状态空间. 这两种算法需要对状态空间进行更多的探索, 才能获得可观的奖励. 此外, MEC服务器的平均奖励随着MEC服务器的增加而降低. 这是因为更多的服务器会在竞争期间降低价格, 也就是说, 每个服务器都希望出售其资源. 然后, 我们比较了两种算法在收敛性方面的性能. 我们很容易观察到, 与MADDPG相比, RAP-MAPPO具有收敛速度更快、平均奖励速度更高的特点.

图 1 不同算法的收敛性曲线

5.3 MEC服务器和MDs在Stackelberg均衡下的收益

我们在两种场景下比较了这4种算法. 在第1种场景下, $ B{}_{j, r} $ 从5到40不等, $ {Q_{i, r}} $ 保持不变. 在第2种场景下, $ {Q_{i, r}} $ 均匀分布在[5, 40]的范围内, $ B{}_{j, r} $ 固定为20. 为了说明预算约束的影响, 我们在实验过程中固定了MD的质量权重, 并将 $ M $ , $ U $ 分别设置为4和8.

在第1种场景下, RAP-MAPPO在没有对MEC服务器提供的资源质量的先验知识的情况下, 获得了接近最优的性能, 如图2所示. 当MEC服务器的资源不足时, MD之间的激烈竞争导致了卖方市场. 同时, RAP-MAPPO在社会福利方面优于MADDPG和随机算法(见图3). 这是因为随机定价不能充分利用MEC服务器的资源, 而RAP-MAPPO则鼓励MEC服务器动态调整其单价, 以达到提高资源效率的目的.

图 2 不同MEC资源数量下MEC服务器收益

图 3 不同MEC资源数量下社会福利

在第2种场景下, 从图4图5可以看出, 在大多数情况下, RAP-MAPPO在MD收益和社会福利方面比MADDPG和随机算法获得了更好的性能. 随着MD的平均货币预算的增长, MEC服务器更有可能提高价格, 以响应AP的资源购买策略. 因此, MD需要降低他们的资源需求或支付更多的费用来鼓励MEC服务器销售更多的资源, 从而减少MD的回报, 即卖方市场.

图 4 不同MD预算下MEC服务器收益

图 5 不同MD预算下社会福利

综上所述, RAP-MAPPO在MEC服务器的收益和社会福利方面的表现优于MADDPG和随机算法. 它的性能与QPOP类似. QPOP需要知道MEC服务器的质量权重信息和MEC服务器之间的无条件合作, 而我们的方法只是基于与环境相互作用的局部观察.

6 结论

本文研究了基于Stackelberg博弈的资源分配和定价问题, 其中AP和MEC服务器是领导者和追随者. 这个问题被分解为多个可以单独解决的单一资源类型的子问题. 我们采用MAPPO来解决这个问题. 对于任意的MEC服务器, RAP-MAPPO不需要知道其他MEC服务器所采取的操作, 这有助于减少信令开销. 此外, RAP-MAPPO可以通过一系列的状态-行动-奖励观察来指导竞争智能体实现收益最大化. 仿真结果表明, 在RAP-MAPPO中, MD和MEC服务器在满足前者严格的货币预算约束的同时, 学习了接近最优的回报. 此外, RAP-MAPPO在收益和社会福利方面都优于QPOP、随机和MADDPG.

参考文献
[1]
Ding HC, Zhang C, Cai Y, et al. Smart cities on wheels: A newly emerging vehicular cognitive capability harvesting network for data transportation. IEEE Wireless Communications, 2018, 25(2): 160-169. DOI:10.1109/MWC.2017.1700151
[2]
Asir TRG, Manohar HL. Key challenges and success factors in IoT—A study on impact of data. Proceedings of 2018 International Conference on Computer, Communication, and Signal Processing. Chennai: IEEE, 2018. 1–5.
[3]
Shi WS, Cao J, Zhang Q, et al. Edge computing: Vision and challenges. IEEE Internet of Things Journal, 2016, 3(5): 637-646. DOI:10.1109/JIOT.2016.2579198
[4]
Yang B, Li ZY, Jiang SL, et al. Envy-free auction mechanism for VM pricing and allocation in clouds. Future Generation Computer Systems, 2018, 86: 680-693. DOI:10.1016/j.future.2018.04.055
[5]
Bonacquisto P, di Modica G, Petralia G, et al. A procurement auction market to trade residual cloud computing capacity. IEEE Transactions on Cloud Computing, 2015, 3(3): 345-357. DOI:10.1109/TCC.2014.2369435
[6]
Tanaka M, Murakami Y. Strategy-proof pricing for cloud service composition. IEEE Transactions on Cloud Computing, 2016, 4(3): 363-375. DOI:10.1109/TCC.2014.2338310
[7]
Yu C, Velu A, Vinitsky E, et al. The surprising effectiveness of PPO in cooperative, multi-agent games. arXiv: 2103.01955, 2021.
[8]
Dong SQ, Li HL, Qu YB, et al. Survey of research on computation unloading strategy in mobile edge computing. Computer Science, 2019, 46(11): 32-40.
[9]
Liu MY, Liu Y. Price-based distributed offloading for mobile-edge computing with computation capacity constraints. IEEE Wireless Communications Letters, 2018, 7(3): 420-423. DOI:10.1109/LWC.2017.2780128
[10]
Li ZT, Kang JW, Yu R, et al. Consortium Blockchain for secure energy trading in industrial Internet of Things. IEEE Transactions on Industrial Informatics, 2018, 14(8): 3690-3700.
[11]
Zhang HL, Guo FX, Ji H, et al. Combinational auction-based service provider selection in mobile edge computing networks. IEEE Access, 2017, 5: 13455-13464. DOI:10.1109/ACCESS.2017.2721957
[12]
Dong LQ, Han SY, Gao Y, et al. A game-theoretical approach for resource allocation in mobile edge computing. Proceedings of the 2020 IEEE 20th International Conference on Communication Technology. Nanning: IEEE, 2020. 436–440.
[13]
Varian HR. Intermediate Microeconomics: A Modern Approach. 9th ed, New York: William Warder Norton & Company, 2014.
[14]
Lowe R, Wu Y, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 6382–6393.
[15]
Sunehag P, Lever G, Gruslys A, et al. Value-decomposition networks for cooperative multi-agent learning based on team reward. Proceedings of the 17th International Conference on Autonomous Agents and MultiAgent Systems. Stockholm: ACM, 2018. 2085–2087.
[16]
Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms. arXiv: 1707.06347, 2018.