近日,自动化学院“人机混合智能与智慧健康研究中心”以杭州电子科技大学为第一单位在人工智能国际知名期刊IEEE Internet of Things Journal(IOT)上发表了文章《An End-to-end Vision-based Seizure Detection with a Guided Spatial Attention Module for Patient Detection》。胡丁寒老师指导硕士研究生方元发表该论文,通讯作者为曹九稳教授。IEEE IOT目前为中科院1区Top期刊,最新影响因子为10.6,期刊范围主要为物联网技术/智慧城市和应用。
视频记录由于其收集方便,已被广泛研究用于因其因其便捷性而被广泛用于癫痫发作的检测和分类。大多数现有的基于视觉的研究方法通常采用两阶段方案:首先进行遵循先患者区域识别,然后再进行患者动作识别的两阶段方案来检测癫痫发作,以更好地应用于现实世界。然而,这些方法大多数都是两阶段的,而不是端到端的,这可能导致会使模型在某些局部上表现最优。此外,现有方法中应用的患者区域识别算法往往通常计算量大,从而导致模型的推理速度慢,需要较高的硬件支持。以上这些问题都会严重阻碍模型的实际应用和部署。因此,本文中提出了一种新的端到端模型,它可以旨在同时实现患者区域识别和患者动作检测。本文通过创新性的方法创新型地使用了空间注意力模块代替传统的目标检测网络来进行患者检测的想法,以来减少传统目标检测网络中的参数量和计算量。然而,基于实验示例说明,尽管模型在最终的癫痫发作检测任务上的性能很高表现出色,但其仅依靠一个没有被引导的空间注意力模块是不可靠的。因此,本文提出了一种被引导的空间注意力模块(GSAM),使用一个额外的回归损失函数来指导GSAM的学习。同时,本文对生成的空间注意力热图(SAH)应用硬收缩操作,这不但使模型的收敛速度更快,还使得生成的SAH更接近于真实的目标检测模型的检测结果。此外,本文使用了时间注意力模块用于减少模型的参数量和计算量,以及并更好地融合特征空间中的时间信息。实验结果表明,与竞争方法相比,本文方法具有更少的参数和更快的运行速度,并在癫痫发作检测方面具有更好的性能表现更佳。同时,所提出的具有高性能的GSAM可以很好地有效替代取代用于患者区域识别的目标检测模型。
图:网络框架图
人机混合智能与智慧健康研究中心隶属于杭州电子科技大学自动化学院,依托于浙江省机器学习与智慧健康国际合作基地,主要研究方向包括:机器学习、深度学习、医学信号处理、场景文字识别、自然语言处理等。研究中心现有在职教师11名,其中包含6位教授、2位副教授、3位讲师,硕博生60余名。负责人曹九稳教授是浙江省机器学习与智慧健康国际合作基地中心主任。研究中心有多位国家级和省级人才,与法国巴黎大学、新加坡南洋理工大学、加拿大温莎大学、澳门大学、复旦华山医院、浙江省儿保医院等长期保持科研合作;研究中心学生多次赴法国、加拿大等交流学习,毕业生多就职于华为、字节跳动、海康威视等国内知名企业。