当前位置：首页 > news >正文

自适应LASSO与DK-距离：高维区间值数据的稀疏建模与金融应用

news 2026/6/16 1:38:10

1. 项目概述当区间数据遇上自适应LASSO在金融、经济乃至气象领域我们常常遇到一类特殊的数据它不是单一的数字而是一个范围一个区间。比如一支股票在一天内的最高价和最低价构成了一个价格区间一个地区在一天内的最高和最低温度构成了一个温度区间。这种数据形式被称为区间值数据Interval-valued Data它比单一的点值数据包含了更丰富的信息——波动范围、不确定性甚至市场情绪。然而传统的统计与机器学习模型无论是线性回归还是LASSO大多是为点值数据设计的。当我们试图用这些模型去分析区间值时间序列时一个核心矛盾就出现了要么粗暴地将区间拆成上下界分别建模损失了区间内部的结构信息要么模型复杂度过高在成百上千个潜在影响因素面前无所适从。这正是我过去几年在金融计量研究中反复碰到的问题。直到我将自适应LASSOAdaptive LASSO这套经典的变量选择“利器”与区间值数据的数学结构基于DK-距离相结合才找到了一条可行的路径。简单来说我们的目标是在一个高维的区间值预测变量环境中自动识别出那些真正对区间响应变量有显著影响的因子并将无关变量的影响压缩至零从而构建一个既简约又准确的稀疏模型。这不仅仅是理论上的推演在原油价格区间预测和股指区间跟踪这两个硬核的金融实战场景中这套方法都展现出了超越传统基准模型的稳定优势。2. 核心思路为什么是自适应LASSO与区间DK-距离2.1 从点值到区间值的范式转换处理区间值数据首要问题是定义“距离”和“损失”。我们不能简单地将区间的上下界当作两个独立变量因为一个区间的“位置”中点和“宽度”半径是内在相关的。想象一下股票价格区间高价股和低价股的波动幅度区间宽度规律可能完全不同。这里我们引入了DK-距离Diamond-Körner距离这是处理模糊数和区间数的一种经典度量。对于两个区间A [aL, aR]和B [bL, bR]其DK-距离定义为DK(A, B) sqrt( (aL - bL)^2 (aR - bR)^2 )这个定义非常直观它本质上是在二维平面上横轴为下界纵轴为上界计算两个点之间的欧氏距离。基于此我们可以很自然地定义区间值线性模型的损失函数最小化预测区间与实际区间之间的DK-距离平方和。这就将区间回归问题优雅地转化为了一个带有特殊几何意义的优化问题。2.2 自适应LASSO赋予惩罚以智慧在点值数据中LASSO通过L1惩罚项实现变量选择和系数收缩。但它有个著名的缺陷对于大系数惩罚过重可能导致估计偏差和不一致的变量选择。自适应LASSOZou, 2006巧妙地解决了这个问题。其核心思想是为每个系数的L1惩罚项赋予一个自适应的权重。通常这个权重是初始一致估计量如OLS估计绝对值的倒数。公式如下惩罚项 λ * Σ (w_j * |β_j|), 其中w_j 1 / |β_hat_j_initial|^γ这里的γ是一个大于0的调节参数。这意味着如果一个变量的真实系数很大即它很重要那么其初始估计的绝对值也倾向于较大对应的权重w_j就会较小从而LASSO对它施加的惩罚就较轻保护了重要变量不被过度压缩。反之对于不重要的变量真实系数为零或接近零其初始估计很小权重很大惩罚项会将其系数狠狠地压缩向零。这种“区别对待”的惩罚机制正是自适应LASSO能获得Oracle性质即能像事先知道真实模型一样以正确概率选出真实变量且非零系数的估计具有渐近正态性的关键。2.3 方法融合区间自适应LASSO惩罚最小距离估计我们的核心模型我称之为惩罚区间线性回归。给定区间值响应变量Y_t和p个区间值预测变量X_{1,t}, ..., X_{p,t}我们建立如下模型Y_t θ_1 * X_{1,t} θ_2 * X_{2,t} ... θ_p * X_{p,t} u_t注意这里的加法和数乘都是针对区间运算的。我们的目标是求解参数向量θ使得以下惩罚最小距离目标函数最小化Q(θ) Σ DK(Y_t, Σ θ_j * X_{j,t})^2 / T λ * Σ (w_j * |θ_j|)第一项是基于DK-距离的拟合损失衡量模型对区间数据的整体拟合优度。第二项就是带自适应权重的L1惩罚项。λ是调节模型稀疏度的正则化参数λ越大模型越稀疏。关键理解这个框架的强大之处在于其统一性。它将区间数据的几何结构通过DK-距离与高维稀疏建模的统计智慧通过自适应LASSO无缝结合。模型输出的不仅是一组系数更是一个自动完成的“特征工程”告诉我们哪些区间变量是驱动目标区间变化的核心力量。3. 算法实现区间LARS路径求解面对这样一个带惩罚的凸优化问题我们需要高效的求解算法。对于点值LASSO最小角回归算法因其能高效计算整个正则化路径而备受青睐。我们将其推广到区间值场景设计了区间LARS算法。3.1 算法核心步骤拆解算法的输入是区间值数据矩阵将每个区间视为二维点和响应区间序列。其核心思想与经典LARS一致是沿着最速下降的方向以“等角”的方式将变量逐步加入活跃集。初始化将所有系数θ_j设为0计算当前残差r为区间序列用二维点表示。活跃集为空。寻找最相关变量计算每个预测变量区间X_j与当前残差区间r的“相关性”。在区间语境下这需要通过其支撑函数转化为二维向量的内积来计算。找到与残差最相关的变量X_{j1}。沿等角方向前进将X_{j1}加入活跃集。不是直接走到其最小二乘解而是沿着活跃集中所有变量与残差等角的方向更新系数向量。这个方向在二维区间空间中的计算涉及求解一个线性方程组以确保每次前进后活跃集中所有变量与当前残差的“相关性”保持相等并同步下降。遭遇竞争与路径转折继续沿该方向前进直到有另一个非活跃变量X_{j2}与残差的相关性等于当前活跃集中变量的相关性。此时将X_{j2}加入活跃集。迭代与退出更新前进方向现在活跃集有两个变量继续前进。这个过程一直持续直到所有变量都加入或者达到预设的停止条件如惩罚参数λ足够大。生成解路径记录下每一步的系数值这就形成了一条随着模型复杂度或λ减小变化的系数路径。我们可以通过交叉验证从这条路径上选择最优的λ从而确定最终的稀疏模型。3.2 实现细节与调参经验参数γ的选择在自适应权重w_j 1/|θ_hat_initial|^γ中γ控制着权重对初始估计的敏感度。模拟表明γ0.5或1通常能取得良好效果。γ1是常用设置惩罚权重与初始估计绝对值成反比γ0.5则惩罚相对温和一些。在实践中可以尝试一个小范围如0.3, 0.5, 1, 1.5并通过交叉验证选择。正则化参数λ的确定我们通过区间LARS算法得到整条路径后使用时间序列交叉验证来选择λ。对于时间序列数据不能随机打乱。通常采用滚动窗口或扩展窗口的方式在训练集上拟合模型在验证集上计算预测误差如基于DK-距离的均方误差选择平均误差最的λ。初始估计量的获取自适应LASSO需要一组初始的一致估计量θ_hat_initial。对于区间模型一个稳健的选择是使用最小DK-距离估计即不带惩罚项的区间回归。即使在高维情况下若样本量相对充足也可以使用岭回归Ridge Regression的区间版本作为初始估计以提高稳定性。实操心得区间LARS算法的实现难点在于将所有的区间运算加法、数乘、内积正确地在二维空间中进行向量化表示。在编程时如使用Python的NumPy建议将每个区间[L, R]表示为二维列向量[L, R]^T。这样区间线性组合和DK-距离的计算就变成了标准的矩阵和向量运算能极大提升代码的效率和可读性。同时在计算相关性时务必使用中心化后的数据以避免截距项的影响。4. 模拟验证理论性质在有限样本下的表现任何新方法都需要通过模拟实验来验证其有限样本性质。我们设计了两种数据生成过程来检验方法的有效性。4.1 模拟设计两种数据生成过程DGP 1固定维度我们设定真实的预测变量个数p10但其中只有3个δ1, δ2, δ5的真实系数非零分别为3 1.5 2其余7个系数真实值为0。区间创新项u_t由一个自回归条件区间模型生成以模拟金融时间序列中常见的波动聚集性。样本量T分别取20 40 80以观察小样本下的表现。DGP 2发散维度为了测试高维场景我们让预测变量维度p随着样本量T增长设定p [3 * T^(1/3)]。当T100, 200, 400, 800时p分别约为14, 18, 22, 26。真实非零系数的个数也缓慢增加。这更符合实际应用中“大数据”的特征。我们通过三个指标评估估计量偏差、标准差和均方根误差。同时我们将提出的惩罚区间回归与作为基准的最小DK-距离估计即不进行变量选择的“全模型”进行对比。4.2 结果分析与核心发现模拟结果如下表所示清晰地展示了我们方法的优势样本量T方法非零系数 (δ1) 的RMSE (×10⁻³)零系数 (δ3) 的RMSE (×10⁻³)变量选择正确率20PLR (本文方法)0.48960.291685%20ACIX (基准全模型)0.88380.91560%80PLR (本文方法)0.16320.121098%80ACIX (基准全模型)0.26960.27030%Oracle性质的体现随着样本量T增大无论是非零系数的估计误差RMSE还是零系数的估计误差我们的方法都迅速收敛于零且速度远快于基准全模型。这说明我们的估计量具有一致性。更重要的是零系数的估计值被非常精准地压缩到零附近而基准模型则始终保持着不小的误差这证明了我们方法在变量选择上的有效性。对发散维度的稳健性在DGP 2的高维设置下即使预测变量个数p在增长只要非零系数的个数增长较慢稀疏性假设成立我们方法的估计精度依然显著优于基准模型。例如在T400时对于某些零系数我们方法的RMSE比基准模型降低了超过36%。权重参数γ的影响实验对比了γ0.5和γ1的情况。总体来看γ1时对零系数的压缩力度更强变量选择更果断但在某些小样本情况下对非零系数的估计可能引入轻微偏差。γ0.5则更为稳健。在实际应用中如果先验知识认为模型非常稀疏可选γ1若不确定γ0.5是更安全的选择。避坑指南模拟中一个关键点是区间创新项协方差矩阵的设置。我们设定u_t的下界和上界误差项之间存在相关性协方差矩阵非对角元素为0.75。如果错误地假设上下界独立模型拟合效果会大打折扣。这提醒我们在实际应用前务必检验响应区间上下界的相关性这是区间模型优于分别建模下界和上界模型的理论依据之一。5. 实证应用一区间原油价格预测5.1 数据与挑战我们以西德克萨斯中质原油期货的月度区间价格作为预测对象。每个月的区间由该月所有交易日收盘价的对数最小值和最大值构成。数据从2006年1月到2019年12月。预测变量涵盖了股市指数、货币市场指标、原油供需基本面、技术指标和投机指数等10多个区间值或点值转化而来的区间变量。原油价格预测的挑战在于其受众多因素驱动且这些因素本身大多也是区间值或具有不确定性。传统点值模型如仅用月度收盘价丢失了价格在月内的波动信息而分别预测高、低价又忽略了二者之间的内在联系。5.2 模型对比与评估体系我们采用滚动窗口预测训练窗口60个月预测未来1个月对比了以下方法PLR我们提出的惩罚区间回归。ACIX包含所有预测变量的区间自回归条件模型全模型基准。CRM/CCRM中心-范围法及其约束版本将区间拆分为中点和半径分别建模。BLU分别对区间下界和上界建模的二元模型。IRF/IMLP分别对上下界使用随机森林和多层感知机的机器学习模型。评估指标分为两类区间层面指标如DK-距离、非重叠面积比衡量整个预测区间的准确性。点层面指标分别计算下界、上界、中点、半径的均方根误差。5.3 预测性能深度解析下表展示了训练窗口为60个月时各模型在区间层面指标上的表现数值越小越好模型ω_DK (DK-距离)ω_1 (非重叠面积)ω_MDE (平均距离误差)PLR (Ours)0.00860.46290.0372ACIX0.01080.55920.0468CRM0.01410.54690.0595CCRM0.01380.53990.0582BLU0.01230.62220.0533IRF0.02180.76680.0862IMLP0.03311.13660.1136我们的方法在所有区间指标上全面领先。其优势来源于两点第一它将区间视为一个整体进行建模利用了上下界之间的相关性信息第二自适应LASSO惩罚自动筛选出了最相关的几个变量如美元指数、美国原油库存等构建了一个稀疏模型避免了过拟合和无关变量的噪声干扰。值得注意的是两种机器学习基准模型IRF, IMLP表现不佳。这很可能是因为1它们简单地将区间拆分为两个端点任务破坏了区间结构2在有限的时序样本下仅60个月训练数据复杂的机器学习模型容易过拟合而我们的稀疏线性模型泛化能力更强。在点层面指标上Diebold-Mariano检验进一步证实我们方法在预测区间下界、上界、中点及半径的误差上显著优于所有基准模型在1%显著性水平下。6. 实证应用二基于区间价格的指数跟踪6.1 策略构建从点到区间的跨越指数跟踪的目标是构建一个投资组合使其收益率尽可能复制目标指数如标普100。传统方法使用股票的日收盘价收益率。我们提出使用日区间收益率即[ln(当日最低价/前日收盘价), ln(当日最高价/前日收盘价)]。这个区间包含了日内全部价格波动信息能更全面地反映资产风险收益特征。我们的区间指数跟踪策略分为两步股票筛选使用提出的惩罚区间回归以标普100指数日区间收益率为响应变量所有成分股的日区间收益率为预测变量通过模自动筛选出10只最具代表性的股票。权重计算对这10只筛选出的股票使用它们的历史收盘价收益率点值数据通过普通最小二乘法回归来估计其在跟踪组合中的权重。作为对比点值基准策略使用相同的两步法但第一步股票筛选使用传统的LASSO对收盘价收益率进行建模。6.2 回测设计与结果我们采用滚动窗口进行回测用250个交易日约1年的数据训练模型随后21个交易日约1个月进行样本外测试。分别从2017、2018、2019年初开始进行了三轮回测以检验稳健性。使用跟踪误差和平均绝对偏差两个指标进行评估。核心发现样本内优势明显在训练期内基于区间数据的策略其累积跟踪误差始终低于基于点值的策略。这表明利用区间信息能更精确地刻画股票与指数之间的动态关系。样本外表现稳健在2018和2019年的样本外测试期区间策略的跟踪误差在大多数时间点都小于点值策略。这说明区间信息提升的模型泛化能力是可持续的。极端市场下的挑战在2020年新冠疫情冲击市场的样本外测试中两种策略表现接近均未显示出明显优势。这揭示了所有量化模型在面临市场结构剧变时的共同局限性——历史规律可能暂时失效。实战经验这个应用揭示了区间数据在金融实践中的巨大潜力。它不仅提升了模型在常态市场下的表现更重要的是它提供了一种新的、信息更丰富的资产关联度视角。在构建智能贝塔策略或风险因子模型时考虑区间数据或许能挖掘出更深层次的阿尔法来源。一个可行的扩展是将区间跟踪误差直接纳入第二步的权重优化目标函数中构建一个完全基于区间理论的跟踪组合优化模型。7. 常见问题与实施要点7.1 模型选择与超参数调优如何确定正则化参数λ强烈推荐使用时间序列交叉验证。对于长度为T的序列可以固定一个初始训练长度如T0用其训练模型预测后续h步计算误差。然后滚动或扩展训练窗口重复此过程将平均预测误差最小的λ作为最终选择。Python的scikit-learn中的TimeSeriesSplit可以方便地实现。自适应权重中的γ如何选择如果领域知识暗示模型非常稀疏只有极少数变量重要可以尝试γ1。如果缺乏先验γ0.5是一个稳健的起点。也可以通过交叉验证在一个网格如[0.3, 0.5, 0.7, 1]上进行搜索。如何处理预测变量也是区间值的情况我们的模型框架天然支持区间值预测变量。在计算DK-距离和设计矩阵时所有区间运算都保持一致即可。如果数据中是点值和区间值混合需要将点值x视为退化的区间[x, x]。7.2 计算与实现细节算法收敛性与速度区间LARS算法是确定性算法对于中等规模问题p在几百以内效率很高。它一次性计算出整个解路径便于交叉验证选模。对于超高维问题p 1000可以考虑使用坐标下降法求解虽然不直接给出路径但速度更快。代码实现建议# 伪代码示例区间数据表示 import numpy as np # 假设有n个样本p个区间预测变量 # 将每个区间变量表示为一个 n x 2 的数组 # X_list [X1, X2, ..., Xp] 每个Xi是 n x 2 的数组 # Y 是 n x 2 的数组表示响应区间 # 计算DK-距离 def dk_distance(A, B): # A, B 都是 n x 2 的数组 return np.sqrt(np.sum((A - B)**2, axis1)) # 构建用于LARS的设计矩阵将每个区间变量视为二维特征 # 注意需要中心化处理 X_design np.hstack([X - X.mean(axis0) for X in X_list]) # 形状为 n x (2p) Y_design Y - Y.mean(axis0) # 形状为 n x 2 # 接下来的LARS算法可以调用现有库如sklearn处理X_design和Y_design但需注意我们使用的是二维响应。 # 更严谨的做法是自定义区间LARS直接处理区间运算。结果解读最终模型会输出一组稀疏的系数θ_j。一个正的θ_j意味着当预测变量X_j的区间整体向右上方移动即下界和上界同时增加时响应区间Y也会以类似方式移动。系数的相对大小则反映了影响的程度。7.3 局限性与未来扩展非线性关系的捕捉当前模型是线性的。对于存在复杂非线性交互的区间关系可考虑引入区间值的基函数扩展如多项式项、交互项或探索基于区间核函数的支持向量机回归。超高维与大数据场景当预测变量维度p极高如基因数据时可能需要更快的算法或结合Sure Independence Screening等方法进行预筛选。动态模型与异方差性本文模型是静态的。一个自然的扩展是建立区间值自回归条件异方差模型让区间半径波动性也随时间变化这能更精细地刻画金融时间序列的波动聚集现象。与其他机器学习模型的结合可以探索将区间表示直接嵌入神经网络架构或设计适用于区间数据的树模型分裂准则从而融合深度学习的表示能力与区间代数的结构信息。这套基于自适应LASSO的区间值稀疏建模框架为我分析那些自带“不确定性带宽”的数据打开了一扇新的大门。它不只是理论上的优雅更在原油价格预测和指数跟踪这样的硬核任务中提供了切实更优的解决方案。其核心思想——尊重数据的固有结构并施加智能的稀疏约束——对于处理任何具有范围或集合值特征的高维数据都有着广泛的启示意义。

查看全文

http://www.gsyq.cn/news/1363722.html