3 年前

Alexander Rubchinsky

分类问题的复杂度和学习曲线分析

20 小时 RTX 5090 算力资源，仅 $1 (原价 $7)

摘要

本文提出了一种求解自动分类（Automatic Classification，简称AC）问题的算法。在AC问题中，需要根据给定的模式矩阵或相异度/相似度矩阵，寻找一个或多个划分。该算法采用三层结构：在最内层，描述了频率极小极大二分法算法；在中间层，该算法交替应用于分裂阶段和凝聚阶段，从而构建出分类族；在最外层，多次运行中间层算法，随后从所有已构建的分类族中选出所有不同的分类集合。该最终集合被视为给定AC问题的全部解集。在许多情况下，该解集可以显著缩减（有时可缩减为单一分类）。将解集的基数与最外层找到的所有分类集合的基数之比，作为初始AC问题复杂性的度量。对于根据投票结果对议会成员进行分类的情况，复杂性的总体概念被解释为该议会政策的一致性或有理性。

一句话总结

Alexander Rubchinsky 提出了一种用于自动分类的三层分裂-凝聚算法。该算法在交替的分裂与凝聚阶段中反复应用频率极小极大二分法例程，以构建分类族；将问题复杂度定义为不同解分类数与生成划分总数的比率，并将该指标应用于评估议会投票的一致性与合理性。

核心贡献

针对自动分类问题提出了一种三层算法方案，用于系统性地构建划分族。该框架在内部层级应用频率极小极大二分法算法，在中间层级交替执行分裂与凝聚阶段，并在外部多次运行中筛选出唯一的分类结果。
定义了一种形式化的复杂度指标，即最终唯一解集的基数与外部搜索阶段生成的分类总数之比。该指标基于构建的解族，量化了自动分类问题的内在难度。
该算法被应用于俄罗斯联邦第二届、第三届和第四届国家杜马的投票记录，以分析立法活动。计算得出的复杂度指数被解释为衡量这些议会机构内政策一致性与合理性的指标。

引言

自动分类是组织复杂数据的关键工具，但在实际部署中，不可预测的问题难度往往使其变得复杂。研究人员在扩展至高维数据集时，经常遇到解不明确、分组不唯一以及严重的计算瓶颈等问题。以往的研究大多忽略了测量分类复杂度的统一框架，而是狭隘地关注孤立算法的计算成本。为弥补这一空白，作者形式化了自动分类复杂度的新概念，并开发了一种通用算法，该算法构建完整的合理解决方案族，而非强制输出单一结果。该框架使领域专家能够利用额外的上下文标准系统地评估和选择最优分组，作者通过对俄罗斯国家杜马投票行为的分析展示了这一能力。

数据集

数据集构成与来源： 作者在提供的摘录中未指定任何数据集构成或外部来源。
子集详情： 文本省略了每个子集的关键细节，包括规模、来源和过滤规则。
数据用途： 作者未描述如何应用数据，例如训练集划分、混合比例或评估协议。
处理与元数据： 未概述任何裁剪策略、元数据构建步骤或预处理流程。

方法

解决自动分类（AC）问题的提出方法通过一个三层层次化框架运行，该框架的结构旨在逐步细化并验证分类。该框架的核心是分裂-凝聚算法（DAA），它在分裂与凝聚阶段之间交替以生成分类族。该过程始于根据输入的不相似度矩阵构建邻域图，其中顶点代表对象，边基于邻近度将每个对象与其最近邻连接，从而形成连通图。该图作为后续操作的主要结构。

在内部层级，该算法采用频率极小极大二分法递归划分图。该方法将边频率初始化为零，并迭代选择随机顶点对。对于每对顶点，使用 Dijkstra 算法构建最小路径，其中边长由当前频率定义。路径中所有边的频率均增加一。该累积过程重复固定次数 $T$ ，以稳定边频率。完成此阶段后，记录最大频率 $f_{\max}$ 。随后算法执行最后一次路径构建，并检查新最大频率 $f_{\mathrm{mod}}$ 是否保持不变。若保持不变，则重复该过程，直到 $f_{\mathrm{mod}} < f_{\max}$ 。此时，移除所有频率为 $f_{\max}$ 的边，所得的连通分量即定义图的二分划分。最大分量被指定为第一部分，其余部分构成第二部分。该过程旨在寻找使分解函数最大化的割，从而基于边频率有效分离图分量。

由 DAA 控制的中间层级协调分裂与凝聚阶段的交替。该过程从初始图开始，将其二分为两个类别，形成第一个基本分类 $D_2$ 。随后，将两个结果子图中较大的一个再次进行二分，得到分为三个类别的分类 $D_3$ 。这一迭代分裂过程最多进行 $k$ 次二分，生成一系列基本分类 $D_j$ （其中 $j = 2, 3, \ldots, k+1$ ）。每次分裂步骤之后，均启动凝聚阶段。对于给定的基本分类 $D_j$ ，算法通过依次合并连接最紧密的子集来构建一系列伴随分类 $C_j^j, C_{j-1}^j, \ldots, C_2^j$ ，具体操作为连接由最多边数相连的分量。该凝聚过程生成了一族与分裂分类互补的分类。

算法的外部层级通过多次独立运行 DAA 来处理该过程的随机性。由于内部二分阶段随机选择顶点对，不同运行可能产生不同的分类集合。最终输出通过收集所有运行中生成的不同分类并筛选出唯一分类来确定。此步骤对于识别稳定且一致、非随机初始化产物的分类至关重要。框架的设计确保即使单次运行产生不同结果，重复运行仍能提取出可靠且稳健的解集，随后通过稳定性及其他标准进行分析，以确定最具意义的分类。

实验

该研究通过将议员投票记录建模为向量并应用分类算法来追踪政治协调性随时间的变化，从而评估俄罗斯联邦第二、三、四届国家杜马的立法行为。实验验证了所提方法的参数鲁棒性，并将其分类稳定性与 K-means 算法进行比较，结果表明新方法始终能生成更可靠且连贯的议员分组。定性分析表明，分类复杂度是系统性立法不协调的有效指标，其可测量的波动与重大政治重组相吻合。最终，研究结果证实该指标捕捉的是集体决策的总体动态，而非孤立的投票结果，确立了其作为政治科学研究稳定分析工具的价值。

作者分析了俄罗斯国家杜马跨多个任期的投票模式，采用了一种基于议员投票行为衍生分类复杂度的测量方法。该复杂度指标基于议员投票向量之间的不相似度计算，随时间变化并受所用算法参数的影响。分析表明，所提方法生成的分类比 K-means 方法获得的分类更稳定、更一致，尤其在捕捉大规模连贯议员群组方面表现更佳。基于投票的分类复杂度随时间变化，并受二分次数和运行次数等算法参数的影响。与 K-means 方法相比，所提方法生成的分类更稳定，且始终能形成规模更大、结构更连贯的议员群组。该复杂度指标反映了政治决策中的不一致性与不协调性，而非仅由个别投票结果决定。

作者利用源自分类方法的复杂度指标，分析了俄罗斯国家杜马跨多个立法周期的投票模式。结果显示，不同杜马的投票分类复杂度存在显著差异，其中第二届杜马复杂度最高，第三届最低，第四届处于中间水平。分析表明，复杂度反映了政治决策中的不一致或不协调程度。投票分类复杂度在第二届杜马中最高，第三届最低，第四届居中。该复杂度指标捕捉了不同立法周期内政治决策的不一致性或协调性缺失。所使用方法相较于 K-means 能生成更稳定的分类，尤其在识别大规模、高凝聚度的议员群组方面表现突出。

作者通过数学模型评估俄罗斯国家杜马跨多个立法任期的投票模式，分析基于议员投票行为衍生分类的复杂度。分析揭示了复杂度随时间的波动性，部分时期表现出投票联盟的较高不稳定性，并比较了不同聚类方法生成分类的稳定性。该复杂度指标被解释为政治不一致性或协调性缺失的度量，反映决策的整体结构而非个别投票结果。不同时期的投票分类复杂度存在差异，表明政治联盟与协调性发生了转变。与 K-means 相比，所提方法生成的分类更稳定，议员群组规模更大且一致性更高。复杂度被视为政治不协调性的度量，受整体投票模式影响而非个别投票。

作者采用一种测量基于议员投票行为衍生分类复杂度的方法，分析了俄罗斯国家杜马跨多个任期的投票模式。分析显示复杂度随时间波动，部分时期复杂度较低，表明投票行为更一致；而其他时期复杂度较高，暗示议员间存在更大的不一致性或协调性缺失。该方法与 K-means 聚类进行比较，结果表明所提方法生成的分类具有更高的稳定性。不同时期的投票分类复杂度存在差异，较低值表明议员投票行为更一致。与 K-means 聚类相比，所提方法生成的分类更稳定，尤其在存在大规模主导性群组时表现更佳。复杂度被解释为政治决策中不一致性或协调性缺失的度量，而非由个别投票结果决定。

作者基于不相似度矩阵与连续二分法，分析了俄罗斯国家杜马跨多个立法周期投票模式衍生分类的复杂度。复杂度值随时间变化并受算法参数影响，部分分类表现出比其他分类更高的稳定性，尤其在对比 K-means 聚类时更为明显。复杂度被解释为政治不一致性或协调性缺失的度量，反映投票行为的整体结构而非个别投票结果。不同立法周期的投票分类复杂度存在差异，平滑数据中可观察到明显趋势。所建议方法生成的分类比 K-means 更稳定，尤其在存在大规模、区分度高的议员群组时。复杂度被视为政治不协调性的度量，受整体投票模式影响而非个别投票。

该研究通过应用源自分类算法的复杂度指标，评估了俄罗斯国家杜马跨多个立法任期的投票模式，该算法用于度量议员投票行为的不相似度。该实验框架验证了分类复杂度在不同周期内发生波动，作为立法决策中政治协调性与不一致性的定性指标。总体而言，研究结果表明，所提方法始终能生成比传统 K-means 聚类更稳定、更连贯的议员分组，证实了其在追踪政治联盟结构转变方面的可靠性。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

3 年前

Alexander Rubchinsky

分类问题的复杂度和学习曲线分析

20 小时 RTX 5090 算力资源，仅 $1 (原价 $7)

跳转至 Notebook

摘要

一句话总结

核心贡献

针对自动分类问题提出了一种三层算法方案，用于系统性地构建划分族。该框架在内部层级应用频率极小极大二分法算法，在中间层级交替执行分裂与凝聚阶段，并在外部多次运行中筛选出唯一的分类结果。
定义了一种形式化的复杂度指标，即最终唯一解集的基数与外部搜索阶段生成的分类总数之比。该指标基于构建的解族，量化了自动分类问题的内在难度。
该算法被应用于俄罗斯联邦第二届、第三届和第四届国家杜马的投票记录，以分析立法活动。计算得出的复杂度指数被解释为衡量这些议会机构内政策一致性与合理性的指标。

引言

数据集

数据集构成与来源： 作者在提供的摘录中未指定任何数据集构成或外部来源。
子集详情： 文本省略了每个子集的关键细节，包括规模、来源和过滤规则。
数据用途： 作者未描述如何应用数据，例如训练集划分、混合比例或评估协议。
处理与元数据： 未概述任何裁剪策略、元数据构建步骤或预处理流程。

方法

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

自动分类问题的分裂-凝聚算法与复杂性

Alexander Rubchinsky

分类问题的复杂度和学习曲线分析

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自动分类问题的分裂-凝聚算法与复杂性

Alexander Rubchinsky

分类问题的复杂度和学习曲线分析

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自动分类问题的分裂-凝聚算法与复杂性

Alexander Rubchinsky

分类问题的复杂度和学习曲线分析

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters