一种新的池层，实现更快、更清晰的融合

原文：https://medium.com/hackernoon/a-new-kind-of-pooling-layer-for-faster-and-sharper-convergence-1043c756a221

假设有一些 conv 网的先验知识

介绍

在最大池层(用于几乎所有的视觉任务，甚至一些 NLP 任务)，你丢弃了大约 75%的激活。我想设计一种新的池层，消除一些与之相关的问题。

这些问题是:

空间信息的丢失。当您丢弃 75%的激活时，关于这些激活来自哪里的信息就丢失了。
最大池不能使用来自多次激活的信息。
反向传播只会提高最大池化激活，即使其他激活可能具有错误的值。

我想设计一种新的池层，尽可能多地解决这些问题。在这个过程中，我想出了一个非常简单的技巧来解决第二和第三个问题。

想法和动机

不是取 4 次激活中的最大值，而是按升序对 4 次激活进行排序。将它们乘以 4 个权重[w1，w2，w3，w4]并将这 4 个值相加。

这个想法背后的动机非常简单:

这样，网络仍然能够学习对应于[w1，w2，w3，w4] = [1，0，0，0]的良好的旧最大池。
后面的层可以访问更多的信息。因此，如果非最大激活对降低损失函数有用，网络可以学习使用其他值。
渐变流过前一层中的所有 4 个值(相比之下，最大池中只有 1 个值)。

因此，我的直觉是，由于这些原因，这个想法会比最大池好得多。这是一个非常罕见的 DL 实验，一切都如我所料。

具体定义

设汇集前层的输出为张量 T，大小为[B，H，W，C]。我定义了一个超参数 pool_range，它可以是[1，2，3，4]之一。pool_range 指定激活的数量(按排序顺序)。意思是给定张量 T 的 4 个激活，它们将被汇集，我首先将它们按照[a1，a2，a3，a4]的顺序排序，其中 a1 ≥ a2 ≥ a3 ≥ a4。然后我保留它们中的第一个 pool_range。我称这个新的载体为激活载体。

我定义了一个大小为 pool_range [w{1}的权重向量，....w{pool_range}]。这里需要注意的是，如果这些权重中的任何一个是负的，那么激活向量按强度排序并且我们取加权平均值的假设就不成立。因此，我没有直接使用权重，而是对权重向量取一个 softmax，并将结果乘以激活向量。为了测试添加 softmax 的重要性，我在 fuzzy-mnist 数据集上进行了一个玩具实验，有和没有 softmax，pool_range=3。以下是测试数据集的结果。

Comparison of accuracy and cross entropy on test data for cluttered-mnist dataset

显然，softmax 是这里的赢家。

我也可以对不同的通道使用不同的权重，但是为了保持与 max_pooling 的可比性，我在通道之间使用了相同的 4 个权重。

实施细节

我用 tensorflow 写这一层的代码。tensorflow 的 top_k 层在 CPU 上速度很快，在 GPU 上速度非常慢。因此，我没有使用它，而是编写了自己的排序例程来对 4 个浮点数进行排序。测试 sort_pool2d 的代码在这个文件中给出。导入并使用它作为图层的代码是这个文件中的。