1月23日下午,紫冬创新沙龙第五期活动在澳门赌场自动化研究所如期举行。北京交通大学交通数据分析与挖掘北京市重点实验室主任、北京交通大学计算机科学系主任于剑应邀出席并做“聚类公理化研究及其应用”的特邀报告。活动由自动化所副总工程师张文生主持。
报告首先提出:聚类是人类认知世界的一项重要能力,在大数据分析时代,可以用来解决数据划分问题。于剑认为:聚类实际上并没有严格的定义,但是研究者有一个基本认可的共识。那就是,将n个对象划分成c个子集,使得每个子集内的对象相似,不通子集内的对象不相似。
接下来,报告中给出了聚类分析的四个基本步骤:数据表示、聚类判据、聚类算法和聚类评估,并分别进行了阐述与数学符号定义。在总结了聚类算法的典型应用以及涉及到的多种基础理论之后,报告抛出了“聚类分析有无理论”、“聚类算法有无共同性质”及“聚类公理化研究是否可行”的问题,引发现场听众思考。
报告进一步给出了目前文献中存在的三种研究聚类公理化的方法:聚类判据(目标函数)的公理化、聚类映射的公理化、聚类有效性函数的公理化。于剑认为,这些公理貌似很有道理,但是存在以下几点缺点:1)文献中对聚类判据的公理化,过于具体,对于很多聚类算法不适用;2)文献中对聚类函数的公理化,没有或者很少算法满足;3)文献中对聚类有效性的公理化,不能区分划分与聚类结果。因此,我们得出,目前文献中的聚类公理化体系与聚类的基本要求联系不紧密。
聚类的基本要求,并没有涉及聚类函数、聚类判据或者聚类有效性,只是对于聚类结果提出了要求。于剑从聚类的基本要求出发,研究聚类结果的公共性质:样本可分性公理、类可分性公理、相似性可分性公理,并分别给出了数学描述。
报告紧接着分析了聚类结果与划分的异同点,并给出了边界集的概念。如果有边界集为空,则层次聚类算法、硬划分聚类算法遵循聚类公理。软化分就复杂一些,其聚类结果与聚类公理更复杂一些。报告中指出,只简单地遵循聚类公理是不够的,因为它只是聚类的最低标准。聚类结果应用离违反聚类公理的情形越远越好。由此,可以推出以下3条聚类准则:类分离性准则、类紧致性准则、劣类避免准则。报告中分别给出了详细的介绍。
最后,于剑对其聚类公理化的工作做了总结:1)提出了一个聚类公理体系,该体系第一次可以将C-means、Model based clustering等著名聚类判据演绎推出;2)提出了聚类分析中的劣类定义和边界集的概念;3)提出了聚类判据设计的3条原则;4)提出了一个软聚类算法理论分析框架。