事件的表示

事件数据的处理方式

**1、Representation Learning for Event-based Visuomotor Policies（NeurIPS 2021）
**

**Event Context Network (ECN)：**时序嵌入(Temporal embedding, Transformer) + 对称函数max (Symmetric Function, PointNet)；

2、EventNet: Asynchronous Recursive Event Processing（CVPR 2019）

EventNet架构：我们的EventNet网络架构与PointNet进行了比较。我们的网络具有公式3的新颖时间编码层。多亏了这一层，递归地计算了对事件序列的依赖。此外，计算最重要的部分(使用标准误差反向传播训练的mlp1和mlp2)在训练后实现为查找表(LUT)，这比MLP快得多。因此，EventNet以事件驱动的方式有效地处理事件流——通过LUT计算每个事件的特征，将时间代码应用于全局特征，并通过两个向量的最大池化来聚合全局特征——递归重复因为它接收到一个新事件。括号中的数字是层大小。批量归一化用于除输出层之外的所有层。与PointNet类似，EventNet具有一种架构的变体，可以基于每个事件进行输出，这是使用mlp4通过连接局部特征和全局特征(蓝线)来实现的。

对称函数max (Symmetric Function, PointNet) + 时序编码(Temporal Coding) + 递归处理(Recursive Processing)；
MLP与max这两个计算应该在事件率(可能超过1 MEPS)上运行，这些问题使得PointNet无法实时处理事件流；
为了克服上述处理事件流的困难，我们提出了EventNet，它递归地处理稀疏信号，而不是批量处理大量事件；
$a_{j,1}=c(z_i,\triangle t_{j,i}) =

其中第一项将输入线性衰减经过的时间，第二项通过复旋转对时间信息进行编码，非下标的 i 为虚数单位。
$f (e_{j + 1}) \approx g (m a x (c (s_{j}, δ t_{j}), h (e_{j + 1}^{-})))$
$s_{j} := m a x (c (s_{(j - 1)}, δ t_{j - 1}), h (e_{j}^{-}))$
3、Event Transformer

大小为N × 4的原始事件序列 E 被输入基于MLP的线性嵌入层，以生成大小为N × C的相应特征；
原始的 E 直接通过用于位置编码的主干，即位置嵌入的大小为N × 4；

4、Event Transformer. A sparse-aware solution for efficient event data processing（CVPR 2022）

基于帧的方法：我们聚合事件数据在时间窗口Δt期间生成类似帧的表示FH×W×B×2。F 中的每个位置(x, y) | y∈H, x∈W用 B 个 bin 的两个类似直方图的向量表示，分别用于每个极性p∈{0, 1}。每个直方图将每个桶中的Δt离散化，并计算相应时段Δt/B中发生的正事件或负事件的数量。最终表示被转换为F' = log(F + 1)以平滑高度激活区域中的极高值。

5、Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras（WACV 2019）

**PointNet++：**给定时间间隔 T 的输入事件云表示为 ST = {e1, e2, ..., en}，最远点采样(FPS)用于选择 N1 个事件作为 N1 个子区域的中心点。球查询找出半径 r1 内的所有相邻事件，并采样一个固定的 K1 事件。因此，输入事件云被划分为 N1 个子事件云，每个子事件云包含 K1 个事件。训练一个基本的 PointNet 网络来学习每个子事件云的局部特征。学到的特征总结了每个子区域内事件的几何分布，每个学到的特征成为高维 M1 中的一个点。它们在度量空间中形成一个新的事件云，该云再次被划分为更小的子事件云。一个基本的 PointNet 网络学习每个新选择的子区域的局部特征。局部特征是逐层学习和聚合的。最后一层的特征包含输入事件云的局部和全局特征，并且应用全连接层对由运动产生的事件云的整个分布进行分类。

6、Event-Based Vision Enhanced: A Joint Detection Framework in Autonomous Driving（ICME 2019）

7、A Differentiable Recurrent Surface for Asynchronous Event-Based Data（ECCV 2020）

Matrix-LSTM：在这项工作中，我们提出将参数映射实现为 LSTM 单元的 H × W 矩阵（见图 1）。让我们将像素 (x, y) 在间隔 τ 期间产生的有序事件序列 ε(x,y) 定义为 ε(x,y) = {(xi, yi, ti, pi) | ti ∈ τ, xi = x, yi = y} ⊂ ε，其长度为 T(x,y) = |ε(x,y)|，对于每个位置 (x, y) 可能不同。首先为发生在位置 (x, y) 的每个事件计算一组特征，通常是极性和一个或多个时间特征（参见第 4 节）。在每个位置 (x, y)，LSTM(x,y)单元会异步处理这些特征，跟踪当前的集成状态并将所有事件压缩成单个输出向量 s(x,y) ∈ RC。特别是，在每个时间 t，LSTM(x,y)单元生成中间表示。处理完所有事件后，LSTM单元的最后一个输出将整个序列 ε(x,y) 的动态压缩为一个固定长度的向量，这可以用作像素特征（为了便于阅读，我们从 T 中删除了上标(x,y)）。最终的表面 Sε 最终通过将所有 LSTM 的最终输出收集到形状为 H × W × C 的密集张量中来构建。当事件集 ε(x,y) 为空时，使用固定的全零输出。

Temporal Bins. 给定固定数量的 bin B，原始事件序列被分成 B 个连续的窗口。每个序列都是独立处理的，即每个间隔结束时每个 LSTM 的输出用于构造表面，并且在下一个子序列开始之前重新初始化 LSTM 状态。这产生了 B 个不同的重构，它们连接起来形成最终表面 Sε ∈ RH×W×B·C。

8、End-to-end learning of representations for asynchronous event-based data（ICCV 2019）

我们通过用多层感知器 (MLP) 替换上式中的核函数来实现这一点，该多层感知器具有两个隐藏层，每个隐藏层有 30 个单元。该 MLP 将事件的坐标和时间戳作为输入，并在其周围生成激活图。对于表示中的每个网格位置，我们评估每个事件产生的激活图，并根据上式将它们加在一起。对最终网格中的每个点重复此操作，从而产生类似网格的表示。为了加强事件的对称性，我们将 MLP 输入限制为坐标差。为了简单起见，我们也不学习测量函数，而是从一组固定函数（polarity、count、time stamp）中选择它。为了加快推理速度，在测试时，学习的核可以用一个有效的查找表代替，因此具有与手工核相当的计算成本。这些设计选择使表示既有效又完全可微。与以前使用次优启发式将事件转换为网格的工作相比，我们的框架现在可以将表示调整为下游任务，从而最大限度地提高性能。

9、HOTS: A Hierarchy of Event-Based Time-Surfaces for Pattern Recognition（TPAMI 2016）

Time-Surfaces：为每个像素构建编码最后生成的事件的帧；

10、HATS: Histograms of Averaged Time Surfaces for Robust Event-based Object Classification（CVPR 2018）

Histograms of Averaged Time Surfaces：

11、Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences（NeurIPS 2016）

在这项工作中，我们介绍了 Phased LSTM 模型，它通过添加新的时间门来扩展 LSTM 单元。该门由参数化振荡控制，其频率范围仅在周期的一小部分期间产生存储单元的更新。即使振荡带来的稀疏更新，Phased LSTM 网络在需要学习长序列的任务上也比常规 LSTM 实现更快的收敛。该模型自然地集成了来自任意采样率的传感器的输入，从而为处理携带时序信息的异步感官事件开辟了新的研究领域。它还极大地提高了 LSTM 在标准 RNN 应用程序中的性能，并且在运行时的计算量减少了一个数量级。

每个事件都被编码为一个 4 元组，具有像素的位置 x、y、极性位 p（表示对比度增加或减少）和时间戳 t，表示事件生成的时间。
$ x,y,p,t