拓扑数据分析(TDA )是一种以数学为基础的理论,旨在通过计算数据的拓扑特性来表征数据 。最常见的是持久性图,它采用的是平面图中对角线上方的一组点的形式。

每个这样的点都代表数据的一个拓扑特征(例如连接的组件、孔或腔)。此外,点到对角线的距离可作为相应特征重要性的指标,通常的解释是靠近对角线的点可能是由于噪声引起的。

此类图的计算需要过滤,即一系列增长空间序列:序列中的每个空间都包含在下一个空间中。例如,给定一个点云,一种可能的过滤方法是计算以点为中心的球的并集,这些球的半径按顺序递增。

其思想是,对于序列中的每个空间,记录拓扑特征在该空间中是被创建还是被破坏。例如,如果我们考虑球过滤的交集,可能会发生这样的情况,对于某个半径,球交集包含一个洞,该洞会持续一段时间,直到当球具有足够大的半径时最终被填充,即上面显示的过滤中到底发生了什么。然后这些半径可以作为坐标,在平面上创建一个点来表示这个孔。

持久性图在数据分析的各个领域都有许多应用。下面介绍一个在几何处理中的可视化应用,即 3D 形状分割。

3D 形状通常通常以点、边和三角形的形式存储在计算机中。分割的目标是为每个形状的每个点提供标签。例如,如果给你一堆代表人类的 3D 形状,分割的目标是成功地为每个点分配它所属的身体部位(“躯干”、“手臂”、“腿”……)。

这个问题的难点在于,你只有给定的点坐标,这些都是不好的特征。事实上,用坐标来表示一个点是没有希望的,因为它们取决于 3D 形状的嵌入或姿势。例如,想想两个人的形状,其中一个举起右手,另一个没有;人类是相同的,只是他们的姿势不同。然后,即使它们共享相同的标签,两个形状的右手点也会有很大不同。

这就是持久性图发挥作用的地方。由于其拓扑性质,持久图是内在的,这意味着它们不依赖于 3D 形状的嵌入或姿势。因此,它们是点特征的良好候选者。为此,我们需要定义一个内在过滤。

这可以通过测地距离来实现。3D 形状上两点之间的测地距离是这两个点之间形状上最短路径的长度。你可以将其视为蚂蚁必须从第一个点走到第二个点时所走路径的长度。这个距离显然是固定的,因为蚂蚁行走的路径与 3D 形状的姿势无关。

然后可以使用测地距离来定义测地线球。 测地线球半径 r>0 并以点 x 为中心的测地线球只是其到 x 的测地距离小于或等于 r 的形状点的集合。同样,通过使 r 从 0 增加到无穷大,我们使测地线球从单例 {x} 到整个形状本身,这给了我们一个内在的过滤。现在,为了计算相应的持久性图,我们记录球中发生拓扑事件的半径并将它们用作坐标。在 3D 形状的情况下,拓扑事件非常有限:由于 3D 形状是连接面,它们的内在维数为 2(实际上,3D 形状局部看起来像一个平面),唯一可能发生的拓扑事件是球中的孔的出现或填充。例如,看看下面显示的 3D 手形的过滤效果。

不断增长的测地线球以红色显示,而其余的形状以蓝色显示。对于前三个半径,测地线球没有有趣的拓扑结构:它看起来就像一个圆盘。然而,对于第四个半径,五个手指中的每一个都在测地线球上形成了一个洞:出现了五个拓扑事件。它们持续通过第五个半径,并最终在第六个半径内填充。相应的持久化图(如下所示)包含5个点。

更有趣的是,如果将相同的过程应用到形状的另一部分点上,那么图表就会有所不同。让我们以位于中指上的一个点为例:

所有的手指将再次在测地线球中创建孔,但半径不同。例如,与中指相对应的孔比第一次过滤出现和填充的时间要早​​得多。在持久性图中,对应的点与其他点的距离较远。

一般来说,持久性图点具有不同的配置,具体取决于 3D 形状点(用于计算图)所属的位置或部分。这说明了一个事实,即持久性图是用于分段的准确描述符。

几何处理只是TDA (拓扑数据分析)众多可能应用中的一种。这个领域非常活跃,因为它连接了从代数拓扑到计算机科学的不同数学领域,越来越多的人成为 TDA 爱好者。

作者:Mathieu Carrière

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

发表评论

您的电子邮箱地址不会被公开。