近期,实验室魏毅副教授、李晓飞副教授、林丽惠教授联合中国科学院计算技术研究所朱登明副研究员、北京交通大学李清勇教授在人工智能领域权威期刊《IEEE Transactions on Neural Networks and Learning Systems》(TNNLS,中科院1区,IF=14.255)在线发表研究论文《Causal Discovery on Discrete Data via Weighted Normalized Wasserstein Distance》。IEEE TNNLS创办于1990年,属机器学习、信息科学、人工智能的交叉学科领域,是神经网络和学习系统方面的国际顶级期刊,也是中科院分区1区Top期刊。
近年来,为解决机器学习技术面临的泛化性能弱、可解释性差等问题,国际知名学者引入因果思路,从因果角度探讨可能的解决方案。因果关系发现是因果理论的基础,也是提升机器学习泛化性、可解释性的关键一环。随机对照试验法是因果关系发现问题的传统求解法。但在很多情况下,随机对照试验法不仅成本高昂,而且有可能违背伦理原则。另一方面,在大数据时代,数据采集常常是一个被动的观测过程,人们无法对数据本身进行物理干预。因此研究如何从观测性数据中发现因果关系是一项重要的工作。
该论文针对离散两变量之间的因果关系发现问题,基于噪声可加模型,提出了一种用于辨识因变量、果变量的因果不对称性。以该因果不对称性为出发点,论文提出了一种估计噪声条件分布与噪声总体分布的非参数统计方法,并提出了一种新颖的加权规范化Wasserstein距离来计算噪声条件分布之间的差异。理论分析表明该方法对观测数据具有较好的尺度不变性(也即,对同一组观测变量,该方法对于在不同尺度上记录的观测数据能输出相同的辨识结果)。实验结果表明该方法在因果发现的辨识精度上超过现有代表性方法,并且具有计算速度快、在小样本数据集上性能稳定的优点。