问题1：GAT 结构错误 —— 公式与机制说明

1. Actor 的输入与输出

Actor_1 的输入是自身观测、所有任务、所有其他智能体：

$$o_1 = \{\,\text{ego}_1,\; \text{tasks}_{1:M},\; \text{others}_{2:N}\,\}$$

输出是选择每个任务的 logits，softmax 后得到动作分布：

$$\pi_1 = \text{softmax}(\text{logits}_1) \in \mathbb{R}^{M}$$

其中 $M$ 是任务数，$\text{logits}_1$ 的每一维对应选择一个任务的分数。

2. GATConv 的节点更新

对节点 $i$（例如 Actor_1），GATConv 的更新规则为：

$$h_i^{(l+1)} = \sigma\left( \sum_{j \in \mathcal{N}(i)} \alpha_{ij}^{(l)}\, W^{(l)} h_j^{(l)} \right)$$

注意力系数由节点特征和边特征共同决定：

$$\alpha_{ij} = \text{softmax}_j \left( \text{LeakyReLU}\left( a^\top \left[\, W h_i \;\|\; W h_j \;\|\; E_{ij} \,\right] \right) \right)$$

其中：

$W h_j$：邻居节点 $j$ 的线性投影；
$E_{ij}$：边特征（在 Legacy GAT 中是 task - agent 或 -similarity）；
$\alpha_{ij}$：节点 $i$ 对邻居 $j$ 的注意力权重。

3. Legacy GAT 中 Actor_1 的邻居集合

由于图是全连接的，Actor_1 的邻居为所有任务和所有其他智能体：

$$\mathcal{N}(1) = \{\,\text{Task}_1, \dots, \text{Task}_M\,\} \cup \{\,\text{Agent}_2, \dots, \text{Agent}_N\,\}$$

因此 Actor_1 的更新特征是所有任务和所有其他智能体的加权平均：

$$h_1^{(l+1)} = \sigma\left( \sum_{k=1}^{M} \alpha_{1,k}^{\text{task}}\, W h_k^{\text{task}} + \sum_{n=2}^{N} \alpha_{1,n}^{\text{agent}}\, W h_n^{\text{agent}} \right)$$

4. 两层 GATConv 的感受野

第一层

$$h_1^{(1)} = \text{ReLU}\left( \sum_{j \in \mathcal{N}(1)} \alpha_{1j}^{(0)}\, W^{(0)} h_j^{(0)} \right)$$

感受野：1-hop 邻居；
Actor_1 直接聚合所有 task 和 agent 的原始特征。

第二层

$$h_1^{(2)} = \sum_{j \in \mathcal{N}(1)} \alpha_{1j}^{(1)}\, W^{(1)} h_j^{(1)}$$

感受野：2-hop，即邻居的邻居；
由于全连接，2-hop 基本覆盖全图；
Actor_1 的表示进一步被全图信息稀释。

5. 核心问题：决策信号被全局平均淹没

理想的 Actor_1 应该输出：

$$\text{logits}_1[m] = f(\text{Actor}_1, \text{Task}_m, \text{Context})$$

但 Legacy GAT 实际做的是：

$$h_1^{(2)} \approx \text{GlobalPool}(\text{all agents}, \text{all tasks})$$

然后：

$$\text{logits}_1 = \text{MLP}\big(\, [\,\text{obs}_1 \;\|\; h_1^{(2)}\,] \,\big)$$

结论：Actor_1 没有一个显式的表示来回答 “我去任务 $m$ 好不好”。任务选择所需要的 agent-task 关系被淹没在全图加权平均中。

6. PPT 上建议放的公式

如果 PPT 上只放最核心的两个公式：

GATConv 更新：

$$h_i^{(l+1)} = \sigma\left( \sum_{j \in \mathcal{N}(i)} \alpha_{ij}\, W h_j \right)$$

Actor_1 在 Legacy GAT 中的邻居：

$$\mathcal{N}(1) = \{\text{所有任务}\} \cup \{\text{所有其他智能体}\}$$

7. 讲稿要点

Actor_1 的输入是自身观测、所有任务、所有其他智能体，输出是选择每个任务的 logits。
GATConv 对每个节点做邻居加权平均：$h_i^{(l+1)} = \sigma(\sum_j \alpha_{ij} W h_j)$。
Legacy GAT 全连接构图，Actor_1 的邻居 = 所有任务 + 所有其他智能体。
两层 GATConv 后感受野 ≈ 全图，Actor_1 的表示变成全图信息的加权平均。
因此 Actor_1 无法显式建模某条 agent-task 候选边的好坏，也无法知道 coalition 状态。