(Tianlei Wang, Jiuwen Cao*, Haozhen Dai, Baiying Lei and Huanqiang Zeng, Robust Maximum Mixture Correntropy Criterion based One-Class Classification Algorithm, IEEE Intelligent Systems, 2021, published online)
单分类学习算法是目前机器学习领域的一个研究热点,然而当前算法大部分是基于均方误差准则设计的,对非高斯噪声缺乏鲁棒性。针对该问题,我院人机混合智能与智慧健康研究中心深入研究了基于混合相关熵的单分类异常检测算法,研究成果形成的论文“Robust Maximum Mixture Correntropy Criterion based One-Class Classification Algorithm”被IEEE Intelligent Systems国际期刊录用。
单分类旨在当其他类的数据样本不存在、采样不充分或者定义不明确的情况下,仅仅使用目标类数据建立分类模型,其在实际的异常检测任务中具有广泛的应用。然而当前的单分类算法均是采用均方误差准则(MSE),MSE分配各个样本相同的权重,导致当出现离群点或者非高斯噪声时,单分类算法的性能将急剧下降。针对该问题,论文引入最大相关熵准则构建单分类损失函数。相关熵是定义在核空间的二阶相似性度量,能够有效处理非高斯噪声问题。为进一步提高相关熵的鲁棒性,论文组合多个高斯核函数构建了最大混合熵单分类损失函数。在此基础上,结合流行的单分类超限学习机,提出了单隐层最大混合熵单分类超限学习机(MMC-OCELM),MMC-OCELM采用定点迭代优化方法进行输出权重求解。同时采用堆叠自编码器的分层超限学习机结构,构建了分层的最大混合熵单分类超限学习机(HMC-OCELM)。论文提出的算法在4个合成数据集,13个UCI标准数据集,1个研究中心构建的城市声源分类数据集(UAC)以及CIFAR10数据集上,与若干流行的单分类算法进行了性能比较,展示了提出算法的有效性。
论文第一作者为研究中心的王天磊老师,通讯作者为曹九稳教授,研究获得了国家自然科学基金重点、科技部重点研发和之江实验室开放课题等项目的资助。
构建的基于混合熵的单分类损失函数:
上述优化问题的定点迭代求解公式:
在UCI标准数据集上的比较结果:
单核与多核相关熵的比较结果:
在城市声源分类数据集(UAC)上的比较结果:
在CIFAR10上的比较结果