事件数据的处理方式
**1、Representation Learning for Event-based Visuomotor Policies(NeurIPS 2021)
**
- **Event Context Network (ECN):**时序嵌入(Temporal embedding, Transformer) + 对称函数max (Symmetric Function, PointNet);
2、EventNet: Asynchronous Recursive Event Processing(CVPR 2019)
EventNet架构:我们的EventNet网络架构与PointNet进行了比较。我们的网络具有公式3的新颖时间编码层。多亏了这一层,递归地计算了对事件序列的依赖。此外,计算最重要的部分(使用标准误差反向传播训练的mlp1和mlp2)在训练后实现为查找表(LUT),这比MLP快得多。因此,EventNet以事件驱动的方式有效地处理事件流——通过LUT计算每个事件的特征,将时间代码应用于全局特征,并通过两个向量的最大池化来聚合全局特征——递归重复因为它接收到一个新事件。括号中的数字是层大小。批量归一化用于除输出层之外的所有层。与PointNet类似,EventNet具有一种架构的变体,可以基于每个事件进行输出,这是使用mlp4通过连接局部特征和全局特征(蓝线)来实现的。
-
对称函数max (Symmetric Function, PointNet) + 时序编码(Temporal Coding) + 递归处理(Recursive Processing);
-
MLP与max这两个计算应该在事件率(可能超过1 MEPS)上运行,这些问题使得PointNet无法实时处理事件流;
-
为了克服上述处理事件流的困难,我们提出了EventNet,它递归地处理稀疏信号,而不是批量处理大量事件;
$a_{j,1}=c(z_i,\triangle t_{j,i}) =
其中第一项将输入线性衰减经过的时间,第二项通过复旋转对时间信息进行编码,非下标的 i 为虚数单位。
3、Event Transformer
-
大小为N × 4的原始事件序列 E 被输入基于MLP的线性嵌入层,以生成大小为N × C的相应特征;
-
原始的 E 直接通过用于位置编码的主干,即位置嵌入的大小为N × 4;
4、Event Transformer. A sparse-aware solution for efficient event data processing(CVPR 2022)
基于帧的方法:我们聚合事件数据在时间窗口Δt期间生成类似帧的表示FH×W×B×2。F 中的每个位置(x, y) | y∈H, x∈W用 B 个 bin 的两个类似直方图的向量表示,分别用于每个极性p∈{0, 1}。每个直方图将每个桶中的Δt离散化,并计算相应时段Δt/B中发生的正事件或负事件的数量。最终表示被转换为F' = log(F + 1)以平滑高度激活区域中的极高值。
5、Space-time Event Clouds for Gesture Recognition: from RGB Cameras to Event Cameras(WACV 2019)
**PointNet++:**给定时间间隔 T 的输入事件云表示为 ST = {e1, e2, ..., en},最远点采样(FPS)用于选择 N1 个事件作为 N1 个子区域的中心点。球查询找出半径 r1 内的所有相邻事件,并采样一个固定的 K1 事件。因此,输入事件云被划分为 N1 个子事件云,每个子事件云包含 K1 个事件。训练一个基本的 PointNet 网络来学习每个子事件云的局部特征。学到的特征总结了每个子区域内事件的几何分布,每个学到的特征成为高维 M1 中的一个点。它们在度量空间中形成一个新的事件云,该云再次被划分为更小的子事件云。一个基本的 PointNet 网络学习每个新选择的子区域的局部特征。局部特征是逐层学习和聚合的。最后一层的特征包含输入事件云的局部和全局特征,并且应用全连接层对由运动产生的事件云的整个分布进行分类。
6、Event-Based Vision Enhanced: A Joint Detection Framework in Autonomous Driving(ICME 2019)
7、A Differentiable Recurrent Surface for Asynchronous Event-Based Data(ECCV 2020)
Matrix-LSTM:在这项工作中,我们提出将参数映射实现为 LSTM 单元的 H × W 矩阵(见图 1)。让我们将像素 (x, y) 在间隔 τ 期间产生的有序事件序列 ε(x,y) 定义为 ε(x,y) = {(xi, yi, ti, pi) | ti ∈ τ, xi = x, yi = y} ⊂ ε,其长度为 T(x,y) = |ε(x,y)|,对于每个位置 (x, y) 可能不同。首先为发生在位置 (x, y) 的每个事件计算一组特征,通常是极性和一个或多个时间特征(参见第 4 节)。在每个位置 (x, y),LSTM(x,y)单元会异步处理这些特征,跟踪当前的集成状态并将所有事件压缩成单个输出向量 s(x,y) ∈ RC。特别是,在每个时间 t,LSTM(x,y)单元生成中间表示。处理完所有事件后,LSTM单元的最后一个输出将整个序列 ε(x,y) 的动态压缩为一个固定长度的向量,这可以用作像素特征(为了便于阅读,我们从 T 中删除了上标(x,y))。最终的表面 Sε 最终通过将所有 LSTM 的最终输出收集到形状为 H × W × C 的密集张量中来构建。当事件集 ε(x,y) 为空时,使用固定的全零输出。
Temporal Bins. 给定固定数量的 bin B,原始事件序列被分成 B 个连续的窗口。每个序列都是独立处理的,即每个间隔结束时每个 LSTM 的输出用于构造表面,并且在下一个子序列开始之前重新初始化 LSTM 状态。这产生了 B 个不同的重构,它们连接起来形成最终表面 Sε ∈ RH×W×B·C。
8、End-to-end learning of representations for asynchronous event-based data(ICCV 2019)
我们通过用多层感知器 (MLP) 替换上式中的核函数来实现这一点,该多层感知器具有两个隐藏层,每个隐藏层有 30 个单元。该 MLP 将事件的坐标和时间戳作为输入,并在其周围生成激活图。对于表示中的每个网格位置,我们评估每个事件产生的激活图,并根据上式将它们加在一起。对最终网格中的每个点重复此操作,从而产生类似网格的表示。为了加强事件的对称性,我们将 MLP 输入限制为坐标差。为了简单起见,我们也不学习测量函数,而是从一组固定函数(polarity、count、time stamp)中选择它。为了加快推理速度,在测试时,学习的核可以用一个有效的查找表代替,因此具有与手工核相当的计算成本。这些设计选择使表示既有效又完全可微。与以前使用次优启发式将事件转换为网格的工作相比,我们的框架现在可以将表示调整为下游任务,从而最大限度地提高性能。
9、HOTS: A Hierarchy of Event-Based Time-Surfaces for Pattern Recognition(TPAMI 2016)
Time-Surfaces:为每个像素构建编码最后生成的事件的帧;
10、HATS: Histograms of Averaged Time Surfaces for Robust Event-based Object Classification(CVPR 2018)
Histograms of Averaged Time Surfaces:
11、Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences(NeurIPS 2016)
在这项工作中,我们介绍了 Phased LSTM 模型,它通过添加新的时间门来扩展 LSTM 单元。该门由参数化振荡控制,其频率范围仅在周期的一小部分期间产生存储单元的更新。即使振荡带来的稀疏更新,Phased LSTM 网络在需要学习长序列的任务上也比常规 LSTM 实现更快的收敛。该模型自然地集成了来自任意采样率的传感器的输入,从而为处理携带时序信息的异步感官事件开辟了新的研究领域。它还极大地提高了 LSTM 在标准 RNN 应用程序中的性能,并且在运行时的计算量减少了一个数量级。
每个事件都被编码为一个 4 元组,具有像素的位置 x、y、极性位 p(表示对比度增加或减少)和时间戳 t,表示事件生成的时间。
$ x,y,p,t