
摘要
事件相机(Event Camera)是一种新型类脑传感器,近年来受到越来越多的关注。现有的基于事件的主干网络主要依赖于基于图像的设计,通过将事件转换为图像来提取空间信息,却忽视了事件本身所具有的时间与极性等关键属性。为解决这一问题,本文提出一种面向事件视觉的新型分组视觉Transformer主干网络——分组事件Transformer(Group Event Transformer, GET),该方法在特征提取过程中将时间-极性信息与空间信息解耦。具体而言,我们首先提出一种新的事件表示方式——分组令牌(Group Token),该方式根据事件的时间戳和极性对异步事件进行分组。随后,GET采用事件双自注意力模块(Event Dual Self-Attention block)与分组令牌聚合模块(Group Token Aggregation module),以实现空间域以及时间-极性域中的高效特征交互与融合。在此基础上,GET可通过连接不同任务头,灵活适配多种下游任务。我们在四个基于事件的分类数据集(Cifar10-DVS、N-MNIST、N-CARS 和 DVS128Gesture)以及两个基于事件的目标检测数据集(1Mpx 和 Gen1)上对所提方法进行了评估,实验结果表明,GET在各项任务中均优于现有最先进方法。代码已开源,地址为:https://github.com/Peterande/GET-Group-Event-Transformer。