绍兴橡塑胶厂家 DistDF: 时序预测需要分布对齐——从MSE到联Wasserstein

发布日期：2026-03-02 08:22点击次数：

目前，时间序列预测法通常采用基于大似然估计的 MSE 作为损失函数，但这类损失在标签序列具有自相关时有偏。

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

近期，北大林宙辰团队将时间序列预测转化为条件分布对齐问题。并提出种新的损失函数，通过小化预测序列与标签序列条件分布之间的 Wasserstein 距离训练预测模型；既能保证偏训练，又能充分考虑标签序列内的几何结构（自相关）。

这工作为以优传输为代表的分布对齐技术赋能预测问题提供了全新的研究思路和理论框架。

论文标题：DistDF: Time-series Forecasting Needs Joint-distribution Wasserstein Alignment

作者单位：小红书、北京大学、浙江大学、上海财经大学、松鼠 AI 等

代码链接：https://github.com/Master-PLC/DistDF

1. 问题分析：标签中的自相关

构建个有的预测模型需要解决两个问题：用什么架构和怎么训练。过去十年，研究者们在架构创新上投入了大量精力 ——Transformer、线模型、图经网络轮番登场。但很少有人质疑：我们使用的损失函数，真的适时间序列数据吗？

目前主流的时间序列预测法采用直接预测范式（Direct Forecast, DF）：模型接收段历史观测，通过经网络提取特征，然后次并行预测未来 T 步。相比传统的迭代预测，DF 法具有并行计的优势，训练率。

在损失函数的选择上，DF 法几乎 "不约而同" 地选择了时序均误差（TMSE）：

2. DistDF：基于联分布对齐的训练法

DistDF 团队注意到：训练预测模型，本质上是让模型预测分布与真实标签的条件分布尽可能接近。受此启发，DistDF 不再依赖传统的大似然估计，而是直接小化预测分布与真实条件分布之间的距离，从而规避了标签自相关带来的似然估计偏差问题。

2.1 从条件分布对齐到联分布对齐

因此，条件分布对齐问题可以转化为联分布对齐问题。进步，论文基于优传输域的 Wasserstein 距离，进行了理论，证明了联分布的 Wasserstein 距离是条件分布 Wasserstein 距离期望的上界：

因此，小化历史 - 预测联分布与历史 - 标签联分布的 Wasserstein 距离，可以有实现条件分布的对齐，从而实现预测模型的偏训练。此外，联分布的样本可以直接从全体数据集采集，大丰富了用于估计分布距离的样本数量，提了距离估的可靠。

2.2 基于 Bures-Wasserstein 距离的损失函数绍兴橡塑胶厂家

然而，直接计前述的 Wasserstein 距离需要求解大规模的优传输问题，在大批量训练时会带来较大的计负担。幸运的是，在斯分布假设下，保温护角专用胶联分布间的 Wasserstein 距离可以被解析地表示为均值与协差之间的距离之和：

DistDF 的具体实现步骤如下：

DistDF 是种模型关的损失函数，可以支持各类预测模型。

3. 实验结果

DistDF 可以显著提升预测能。以 ECL 为例，DistDF 将 iTransformer 的 MSE 降低了 2.7。这些改进归因于 DistDF 能够通过对齐条件分布来处理标签中的自相关，从而提升预测能。

DistDF 相比现有损失函数也取得了较大的能提升。FreDF 和 Time-o1 虽然减少了似然估计的偏差并提升了能，但残差偏差仍然存在，因此能仍有改进空间；DistDF 通过小化条件分布之间的距离，实现了偏对齐，因此取得了佳能。

论文还进行了消融实验，研究均值对齐和协差对齐对损失函数能的贡献。结果表明：仅均值对齐或仅协差对齐相比 DF 都有改进，而结两者取得了佳结果，展示了两者的协同应。

通过可视化预测序列发现，DistDF 生成的预测序列与真实标签序列之间的拟度，同时抑制明显的噪声和异常波动；对困难样本的外能力好。

论文还测试了 DistDF 在不同经网络架构上的表现，包括 TimeBridge、FredFormer、iTransformer 和 FreTS 等，证明了其与模型关的特：可以切实有提升大多数主流预测模型的精度。

4. 结论

本文入剖析了基于大似然估计的预测模型训练法有偏的问题。针对这痛点，作者提出了 DistDF 训练框架，直接通过对齐条件分布训练预测模型。考虑到有限样本下条件分布之间的距离难以直接估计，论文提出转向联分布对齐，并理论证明该法足以保证条件分布对齐。大量实验证明，DistDF 在不同数据集和模型中均带来显著提升。

本研究不仅强调了损失函数设计在时间序列预测中的重要，还揭示了分布对齐技术在设计时间序列损失函数中的重要潜力。为迁移学习、域自适应、生成模型等域的分布对齐技术在时序任务中的落地应用提供了理论基础和实践思路。

5. 作者介绍

本文通讯作者李昊轩现任北京大学助理研究员，清华大学逻辑学研究中心、牛津大学研究员（Research Fellow）。研究兴趣是因果断和大模型逻辑理，以作者和通讯作者发表 CCF-A 类论文 50 余篇，谷歌学者引用 1000 次，国发明利授权 17 项，研究成果被麻省理工科技评论、人民日报、人工智能学会等报道。

本文通讯作者林宙辰博士现任北京大学智能学院、通用人工智能全国实验室教授。他的研究域包括机器学习和数值优化。他已发表论文 360 余篇，谷歌学术引用过 42,000 次。他是 IAPR、IEEE、AAIA、CCF 和 CSIG 会士绍兴橡塑胶厂家，多次担任 CVPR、NeurIPS、ICML 等会议的 Senior Area Chair，现任 ICML Board Member。本工作得到了北京市科学技术委员会、中关村科技园区管理委员会的大力支持，在此表感谢。

相关词条:罐体保温塑料挤出设备钢绞线超细玻璃棉板万能胶

上一篇：巴彦淖尔橡塑胶其实, 将捐赠市值4.5亿元股票下一篇：福建橱柜台面胶厂福建安徽女子陷“迷你贷”：400元分36期，利率35吃人，借1万3要还2万6，那我还刷什么手机，每天账就行，只可惜没看清套路就被拖进渊

- 新闻资讯

热点资讯