当前位置：首页 > news >正文

张量网络：机器学习高维数据处理与模型压缩新范式

news 2026/6/21 5:33:20

1. 项目概述：为什么张量网络正在成为机器学习的新“基础设施”？

最近几年，如果你关注机器学习，尤其是量子计算、推荐系统或者高维数据处理这些领域，会频繁听到一个词：张量网络。它听起来像是数学物理领域的“阳春白雪”，离我们日常的模型训练很远。但实际情况恰恰相反，张量网络正从理论物理的后台，大步流星地走向机器学习的前台，成为一种处理复杂、高维数据的强大“基础设施”。这背后，是机器学习模型日益增长的复杂度和我们对模型可解释性、计算效率的迫切需求。

简单来说，张量网络是一种用图形化的方式来表示和操作高维张量（可以理解为多维数组）的数学框架。它最核心的价值在于，能够用一种高效、结构化的方式，来近似表示和分解那些维度爆炸、传统方法难以处理的巨大张量。想象一下，你要处理一个用户（百万级）× 商品（十万级）× 时间（千级）× 上下文特征（百级）的四维数据张量，其元素总数是个天文数字，直接存储和计算是不可能的。张量网络提供了一套“降维打击”的工具，让我们能抓住数据中最重要的关联结构，用相对少的参数来近似这个庞然大物。

这篇综述的目的，就是为你拆解这层神秘面纱。我们不只停留在“张量网络是什么”的概念层面，而是要深入其肌理，看看它的基础原理如何与机器学习的经典问题（如特征提取、模型压缩、表示学习）结合，并追踪它在前沿研究（如量子机器学习、神经符号AI）中的最新进展。无论你是想寻找处理高维稀疏数据新思路的算法工程师，还是对量子计算感兴趣的研究者，或是单纯想拓宽自己技术视野的机器学习爱好者，这篇文章都将提供一个从入门到前沿的实用路线图。你会发现，张量网络并非遥不可及的理论，而是一套正在落地的、能解决实际痛点的数学工具。

2. 核心原理拆解：张量、图与收缩——理解张量网络的三大基石

要玩转张量网络在机器学习中的应用，必须吃透它的三个核心概念：张量本身、图表示和收缩运算。这是所有高级应用的地基。

2.1 张量：超越矩阵的高维数据容器

在机器学习里，我们太熟悉向量（一维数组）和矩阵（二维数组）了。张量是它们的自然推广。一个零阶张量是标量（一个数），一阶张量是向量，二阶张量是矩阵，三阶张量就是一个“数据立方体”，以此类推。每个维度被称为一个“模”。一个形状为 (I, J, K) 的三阶张量，就有三个模。

张量网络处理的核心对象就是这些高维张量。但关键不在于维度多高，而在于其内在的“低秩”或“稀疏”结构。许多真实世界的高维数据（比如多模态数据、用户-物品-时间交互数据）虽然维度很高，但有效信息的“复杂度”其实没那么高。这就为张量网络进行高效近似提供了可能。

注意：初学者常混淆“高维”和“大尺寸”。一个1000×1000的矩阵是尺寸大，但维度（二阶）并不高。一个10×10×10×10的张量尺寸不大（仅1万个元素），但维度（四阶）很高。张量网络更擅长处理后者——维度高但可能具有规律性结构的数据。

2.2 图表示：将计算复杂度可视化

这是张量网络最直观、也最强大的思想。我们把一个张量画成一个图形节点（或方块），把张量的每个模画成从节点伸出来的一条腿（边）。例如：

一个标量就是一个点。
一个向量是一个有一条腿的节点。
一个矩阵是一个有两条腿的节点。
一个三阶张量就是一个有三条腿的节点。

当多个张量需要运算时，就把它们对应的腿连接起来。这种图形化表示法（常称为Penrose图形记号）的伟大之处在于，它把复杂的代数运算转化为了直观的图形操作。你可以一眼看出计算的复杂度：图形中边的连接方式直接对应了张量指标缩并的路径。一个复杂的、交织的网络，往往意味着高计算复杂度；而一个具有树状或链状等简单结构的网络，则可能对应着高效的可计算形式。

2.3 张量收缩：网络运算的核心引擎

张量网络的所有计算，最终都归结为“张量收缩”。简单说，就是按照共享的指标进行求和。例如，矩阵乘法 C = A·B，就是一次收缩：C[i,k] = Σ_j A[i,j] * B[j,k]。这里，指标j被“收缩”掉了。

在图形表示中，收缩对应着将两个节点之间相连的边“合并”或“消去”。整个张量网络的计算过程，可以看作是通过一系列局部的收缩操作，最终将整个网络收缩为一个或几个张量的过程。收缩的顺序至关重要，不同的顺序会导致中间产生不同大小的临时张量，从而极大地影响计算效率和内存消耗。寻找最优或近似最优的收缩顺序，本身就是一个NP-hard问题，也是张量网络计算优化的核心课题之一。

实操心得：在编程实现时（比如使用Python的numpy或专门库如quimb、tensornetwork），理解收缩顺序对性能的影响是至关重要的。一个糟糕的收缩顺序可能让计算内存爆掉，而一个好的顺序可能让原本不可行的计算变得轻松。通常，启发式策略是优先收缩那些连接度高的边，或者能产生最小中间张量的边。

3. 经典网络结构解析：从TT/MPS到PEPS，机器学习中的“标准组件”

张量网络不是一种单一的结构，而是一个家族。不同的网络拓扑结构适用于不同的数据和任务。掌握几种经典结构，是应用它们的第一步。

3.1 TT/MPS（张量链/矩阵乘积态）：处理一维序列的利器

TT格式，在物理中常称为矩阵乘积态（MPS），可能是机器学习中最常用的张量网络格式。它将一个高阶张量表示为一串低阶张量的乘积。形象地说，就是把一个多腿的核心张量，“拉直”成一条由三维张量（每个张量有三条腿，连接左右邻居和一个物理腿）首尾相连形成的链。

它的优势非常明显：

参数高效：将指数增长的参数变为线性增长。一个N阶、每个模维度为d的张量，原始参数为d^N，而TT表示仅需O(Ndr^2)，其中r是“键维数”或“秩”，控制着近似精度。
计算稳定：有成熟的算法（如SVD分解）可以稳定地将一个给定张量近似为TT格式，也可以高效地在TT格式上完成各种线性代数操作。
物理直观：非常适合表示具有局部关联的一维数据，比如时间序列、文本序列、分子链等。

在机器学习中，TT格式已被成功用于：

全连接层压缩：将一个巨大的权重矩阵（例如连接两个高维向量的层）重新解释为一个高阶张量，然后用TT格式压缩，能在精度损失极小的情况下，实现数十倍甚至上百倍的参数压缩。
推荐系统：将用户-物品评分矩阵视为一个二阶张量，通过引入额外的特征模（如时间、地点）构建高阶张量，并用TT分解，可以更好地捕捉多因素协同效应，解决数据稀疏问题。
表示学习：将词嵌入向量组织成TT格式，可以构建参数更高效的词袋模型或简单的序列模型。

3.2 Tucker分解与CP分解：更古老的张量方法

在张量网络概念流行之前，Tucker分解和CP（CANDECOMP/PARAFAC）分解已经是张量分析的主力军。

CP分解：将一个张量表示为若干个秩一张量的和。它极其简洁，但计算不稳定，且最优秩的确定很困难。
Tucker分解：可以看作是CP分解的推广，它引入了一个核心张量和每个模上的因子矩阵。它比CP更灵活，但核心张量的大小仍会随阶数指数增长。

张量网络视角下的TT格式，可以看作是Tucker分解的一种特殊、结构化的形式，它通过强制核心张量具有链状结构，彻底解决了核心张量膨胀的问题。因此，在许多现代应用中，TT格式有逐渐取代传统Tucker分解的趋势。

3.3 PEPS与树状网络：处理二维及更高维关联

当数据关联不是一维链状，而是二维网格状（如图像、棋盘格系统）或更复杂的树状结构时，TT/MPS就显得力不从心了。这时需要更复杂的网络拓扑。

PEPS（投影纠缠对态）：可以看作是MPS在二维的推广。每个张量位于网格的一个格点上，与上下左右四个邻居相连。PEPS极其强大，能够表示许多二维量子态，但其收缩计算复杂度非常高，是近似算法研究的重点。
树张量网络（TTN）和层次塔基网络（HT）：采用树状的层级结构。数据从叶子节点（原始特征）逐层向上聚合、抽象。这种结构天然契合多尺度分析和层次化特征学习的思想。

在机器学习中，这些结构正被探索用于：

图像数据压缩与生成：用PEPS或树状网络对图像块进行建模，捕捉空间局部关联和长程关联。
图神经网络（GNN）的泛化：张量网络为定义在图上的消息传递提供了更一般化的数学框架，可以处理更复杂的边特征和全局约束。
多尺度特征融合：在计算机视觉中，HT网络可以自然地融合来自不同卷积层的特征图。

注意事项：选择哪种网络结构，没有银弹。基本原则是“让网络拓扑匹配数据的关联结构”。一维序列选TT/MPS，二维网格探索PEPS，层次化数据考虑树状网络。从一个简单的结构（如TT）开始实践，是稳妥的入门策略。

4. 与深度学习模型的融合：当张量网络遇见神经网络

这是目前最活跃、也最具实用价值的研究方向。张量网络并非要取代神经网络，而是与之融合，取长补短。

4.1 张量化的神经网络层：极致的参数压缩

这是最直接的应用。神经网络的核心是巨大的权重张量。例如，一个全连接层就是一个二阶张量（矩阵），一个卷积核可以看作一个四阶张量（输出通道×输入通道×高×宽）。将这些权重张量用TT、Tucker等格式重新表示并压缩，可以大幅减少参数量。

实操过程示例：压缩一个全连接层假设我们有一个全连接层，输入维度784（如展平的28x28图像），输出维度1024。权重矩阵W形状为 (1024, 784)。

重塑（Reshape）：将矩阵W重塑为一个高阶张量。例如，我们可以将1024分解为16×8×8，将784分解为28×28。这样，W变成了一个6阶张量，形状为 (16,8,8,28,28)。这个分解方式是灵活的，取决于你对数据结构的理解。
张量网络分解：对这个6阶张量进行TT分解。我们会得到一系列小的三维核心张量。
前向传播重写：原本的矩阵乘法y = Wx + b，需要重写为在TT格式下的收缩操作。输入向量x也需要被重塑成对应的张量形式，然后与TT网络进行收缩，得到输出张量，再重塑回向量。
训练与微调：可以直接在压缩后的TT参数上进行训练，或者先压缩预训练好的模型，再进行微调。

实测下来，对于全连接层，TT压缩可以达到90%以上的压缩率，而精度损失通常小于1%。对于卷积层，方法类似，但需要更精巧的重塑方式来处理空间维度。

4.2 张量网络作为特征提取器或可解释性工具

张量网络本身可以作为一个独立的机器学习模型。例如，将数据编码为MPS态，然后通过优化MPS的参数来分类或回归。这类模型有时被称为“张量核机”或“量子启发式分类器”。它们的优势在于：

理论可解释性更强：张量网络的参数（如键维数）直接与“纠缠熵”或“关联长度”等物理量关联，为模型决策提供了一种不同于深度神经网络的解释视角。
在小数据集上可能表现更好：由于其参数效率高且结构强，在数据量有限时，相比容易过拟合的大规模神经网络，张量网络模型有时能表现出更好的泛化能力。

4.3 神经张量网络：混合架构的探索

更前沿的研究在探索深度神经网络与张量网络的深层融合，即“神经张量网络”。例如：

用张量网络层替代Transformer中的前馈网络（FFN）层，以降低计算成本。
设计一种交替结构：卷积层提取局部特征，张量网络层对特征图之间的高阶关联进行建模。
将张量网络作为注意力机制中计算关联度的一种新方式。

这些探索尚在初期，但代表了模型架构设计的一个有趣方向，旨在结合神经网络的强大表示能力和张量网络的高效结构与可解释性。

5. 前沿研究热点追踪：量子机器学习、自动微分与硬件加速

张量网络的研究前沿，正朝着几个激动人心的方向迈进。

5.1 量子机器学习（QML）的桥梁

张量网络是经典计算模拟量子系统的主要工具，这自然使它成为连接经典机器学习与量子机器学习的理想桥梁。在QML中：

量子数据预处理：张量网络可以用于高效地近似、压缩或预处理量子态数据，然后输入给经典机器学习模型。
量子算法设计：许多量子机器学习算法（如量子支持向量机、量子神经网络）的灵感来源于张量网络算法。理解张量网络有助于理解这些量子算法的本质。
混合经典-量子算法：在NISQ（含噪声中等规模量子）时代，张量网络常用于在经典计算机上优化量子电路的参数，或者作为量子处理器误差缓解方案的一部分。

可以说，张量网络是学习QML不可或缺的经典背景知识。

5.2 自动微分与张量网络库的成熟

早期的张量网络研究多依赖MATLAB或自定义C++代码，门槛很高。如今，情况已大为改观。得益于自动微分（AD）技术的普及，出现了多个优秀的Python库，使得张量网络像训练神经网络一样方便：

PyTorch/TensorFlow + Einsum：利用torch.einsum或tf.einsum，可以相对方便地实现张量收缩。结合AD，可以直接优化张量网络参数。
专用库：quimb、tensornetwork（谷歌主导）、ITensor（C++库的Python接口）等。这些库提供了高级API，封装了常见的网络结构、分解算法和收缩优化器。

这使得应用张量网络不再只是理论物理学家或数学家的专利，广大机器学习工程师和研究者都可以快速上手实验。

5.3 专用硬件与计算优化

张量网络的核心计算是大量小规模矩阵乘法/张量收缩的集合。这种计算模式非常适合在特定硬件上加速：

GPU/TPU：通过精心设计的批处理和并行化，张量网络收缩可以在GPU上获得巨大加速。许多现代库都支持GPU后端。
张量处理单元（TPU）：TPU本身就是为矩阵运算设计的，因此也能高效执行张量网络计算。
未来专用芯片：有研究正在探索为张量网络收缩设计更专用的硬件架构，以进一步降低能耗、提升速度。

计算优化方面的研究，如寻找近似最优收缩顺序的启发式算法、开发适用于张量网络的随机算法等，也是持续的热点。

6. 实战入门指南：从零搭建一个TT格式的推荐模型

理论说了这么多，我们来点实际的。下面我将手把手带你用PyTorch和tensornetwork库，搭建一个最简单的基于TT分解的协同过滤推荐模型。这个模型的目标是预测用户对物品的评分。

6.1 环境准备与数据理解

首先，安装必要的库：

pip install torch tensornetwork numpy pandas

我们使用MovieLens 100K数据集作为示例。数据包含用户ID、电影ID、评分和时间戳。我们将问题构建为一个三阶张量补全问题：张量的三个模分别是用户、电影和（可选的）一个简单的时间分桶（如将月份作为第三个模）。我们的目标是补全这个稀疏张量中缺失的评分。

6.2 构建TT分解模型

我们构建一个PyTorch模块，其核心是一个TT格式的权重张量，用来表示整个评分张量。

import torch import torch.nn as nn import tensornetwork as tn import numpy as np class TTRecommendation(nn.Module): def __init__(self, num_users, num_items, num_time_buckets, tt_rank=8): super(TTRecommendation, self).__init__() self.num_users = num_users self.num_items = num_items self.num_time_buckets = num_time_buckets # 将三个维度分解为更小的因子，以便构建TT链 # 例如：用户模分解为 [u1, u2]，物品模分解为 [i1, i2]，时间模保持或分解 # 这里为了简单，我们假设每个模都不再分解，直接构建一个3-core的TT链。 # TT链需要4个核心张量（首尾是2阶，中间是3阶），但更常见的做法是构建一个“环”状TT（即Tensor Ring）。 # 我们这里实现一个简单的3-core TT（实际是Tensor Ring）来简化。 # 定义TT核心的维度。键维数（tt_rank）控制模型容量。 self.tt_rank = tt_rank # 核心张量1: 形状 (tt_rank, num_users, tt_rank) self.core1 = nn.Parameter(torch.randn(tt_rank, num_users, tt_rank) * 0.02) # 核心张量2: 形状 (tt_rank, num_items, tt_rank) self.core2 = nn.Parameter(torch.randn(tt_rank, num_items, tt_rank) * 0.02) # 核心张量3: 形状 (tt_rank, num_time_buckets, tt_rank) self.core3 = nn.Parameter(torch.randn(tt_rank, num_time_buckets, tt_rank) * 0.02) # 偏置项，用于学习全局平均分 self.user_bias = nn.Parameter(torch.zeros(num_users)) self.item_bias = nn.Parameter(torch.zeros(num_items)) self.global_bias = nn.Parameter(torch.zeros(1)) def forward(self, user_idx, item_idx, time_idx): """ 前向传播。 user_idx, item_idx, time_idx: 都是LongTensor，形状为 (batch_size,) 返回预测评分，形状为 (batch_size,) """ batch_size = user_idx.size(0) # 1. 从TT核心中切片出对应的向量 # core1: (R, U, R) -> 取 user_idx 对应的矩阵片: (R, R) for each user core1_slice = self.core1[:, user_idx, :] # 形状: (R, batch_size, R) core1_slice = core1_slice.permute(1, 0, 2) # 形状: (batch_size, R, R) core2_slice = self.core2[:, item_idx, :] # (R, batch_size, R) core2_slice = core2_slice.permute(1, 0, 2) # (batch_size, R, R) core3_slice = self.core3[:, time_idx, :] # (R, batch_size, R) core3_slice = core3_slice.permute(1, 0, 2) # (batch_size, R, R) # 2. 收缩TT核心：计算 (batch_size, R, R) * (batch_size, R, R) * (batch_size, R, R) 的迹（收缩所有R维度） # 我们通过逐元素乘法和求和来模拟收缩。更高效的做法是用einsum。 # 先收缩 core1 和 core2 的中间R维度 # temp = torch.einsum('bir,bjr->bij', core1_slice, core2_slice) # 错误，需要收缩的是第二个R和第一个R # 正确的收缩：对于每个样本i，计算矩阵 core1_slice[i] @ core2_slice[i].T ? # 实际上，对于Tensor Ring，预测评分为 Trace(core1 * core2 * core3)，这里我们简化计算。 # 我们将三个核心张量视为矩阵（忽略batch），计算它们的乘积的迹。 # 更清晰的做法：将每个样本的三个核心矩阵乘起来，再求迹。 prediction = torch.zeros(batch_size, device=user_idx.device) for i in range(batch_size): # 每个核心是 (R, R) 矩阵 mat1 = core1_slice[i] # (R, R) mat2 = core2_slice[i] # (R, R) mat3 = core3_slice[i] # (R, R) # 计算矩阵乘积的迹 # trace(mat1 @ mat2 @ mat3) product = torch.matmul(torch.matmul(mat1, mat2), mat3) prediction[i] = torch.trace(product) # 3. 加上偏置 prediction = prediction + self.user_bias[user_idx] + self.item_bias[item_idx] + self.global_bias return prediction

6.3 模型训练与评估

接下来是标准的训练循环。我们使用均方误差（MSE）作为损失函数。

# 假设我们已经加载了数据，并创建了DataLoader: train_loader, val_loader # 数据格式：每行是 (user_id, item_id, time_bucket_id, rating) model = TTRecommendation(num_users=943, num_items=1682, num_time_buckets=12, tt_rank=16) criterion = nn.MSELoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) for epoch in range(50): model.train() total_loss = 0 for batch in train_loader: user, item, time_bucket, rating = batch optimizer.zero_grad() pred = model(user, item, time_bucket) loss = criterion(pred, rating.float()) loss.backward() optimizer.step() total_loss += loss.item() print(f"Epoch {epoch}, Train Loss: {total_loss/len(train_loader):.4f}") # 验证略...

实操心得与注意事项：

简化与效率：上面的示例为了清晰，使用了for循环逐个样本计算迹，这在实践中效率很低。务必使用torch.einsum进行向量化操作。一个高效的实现可能像这样：

# 假设 core1_slice: (batch, R, R), core2_slice: (batch, R, R), core3_slice: (batch, R, R) # 计算 trace(core1 * core2 * core3) for each batch # 利用 trace(A@B@C) = sum_{i,j,k} A_ij * B_jk * C_ki temp = torch.einsum('bir,bjr,bkr->bijk', core1_slice, core2_slice, core3_slice) prediction = torch.einsum('biii->b', temp) # 取i=j=k的对角线元素和

初始化：TT核心的参数初始化很重要。小随机数初始化（如乘以0.02）是常用方法，也可以使用正交初始化。
秩的选择：tt_rank是超参数。秩太小，模型能力不足；秩太大，容易过拟合且计算量增加。需要通过验证集进行调整。
偏置项的重要性：在推荐系统中，用户和物品的偏置（平均评分倾向）占据了很大一部分信号。TT部分主要建模交互效应。不要忽略偏置项。
更复杂的结构：这是一个极简的示例。实际研究中，可能会使用更标准的TT格式（而非Tensor Ring），或者引入非线性，或者将TT与其他特征（如用户画像、电影类型）结合。

7. 常见问题、挑战与未来展望

尽管前景广阔，但将张量网络应用于机器学习仍面临不少挑战。

7.1 常见问题与排查技巧

问题	可能原因	排查与解决思路
训练不稳定，损失出现NaN	1. 张量收缩顺序不当，中间结果数值溢出。 2. 学习率过高。 3. 参数初始化不当。	1. 检查并优化收缩顺序，尝试不同的`einsum`路径。使用`torch.einsum_path`进行粗略评估。 2. 降低学习率，使用学习率预热。 3. 尝试更小的随机初始化标准差，或使用正交初始化。
模型欠拟合，效果远差于基线	1. TT秩 (`tt_rank`) 设置过小。 2. 网络拓扑结构与数据关联模式不匹配。 3. 特征工程不足，原始数据未充分转化为适合张量网络的形式。	1. 逐步增加秩，观察验证集性能变化。 2. 重新审视数据。如果是图像数据，尝试二维结构（如PEPS简化版）；如果是序列，确保TT链方向合理。 3. 考虑引入更多模态或对现有模态进行更细粒度的分解重塑。
模型过拟合	1. TT秩过大。 2. 训练数据量太少。 3. 缺乏正则化。	1. 降低秩。 2. 增加数据或使用数据增强（对于张量数据，增强手段有限）。 3. 在TT核心参数上添加L2正则化（权重衰减）。
计算速度慢，内存占用高	1. 收缩路径未优化，产生了巨大的中间张量。 2. 批量大小（batch size）过大。 3. 使用了低效的Python循环而非向量化操作。	1.这是最关键的一点。使用库（如`tensornetwork`）提供的自动收缩优化功能，或手动设计收缩顺序。 2. 减小批量大小。 3.务必使用`einsum`等向量化操作，避免Python循环。
梯度消失/爆炸	1. TT网络过深（核心数量多），且未做规范化。 2. 激活函数选择不当（如果用了的话）。	1. 定期对TT核心进行正交化（类似于RNN中的梯度裁剪和正交初始化）。 2. 考虑使用更稳定的网络变体，如规范化的MPS。

7.2 当前的主要挑战

收缩的复杂度：对于任意拓扑的张量网络，寻找最优收缩顺序是NP-hard问题。对于复杂网络（如PEPS），即使近似收缩，计算成本也极高，这限制了其处理大规模实际问题的能力。
自动结构学习：如何根据数据自动学习最优的张量网络拓扑结构（而不仅仅是优化给定结构的参数），是一个开放问题。这类似于神经网络的架构搜索（NAS）。
与深度学习的无缝集成：虽然有了einsum和AD，但将张量网络层像卷积层、线性层一样灵活地插入现有深度学习框架，并享受完整的优化（如混合精度训练、分布式训练）支持，仍需更多的底层工程工作。
理论理解的鸿沟：尽管在物理上有深刻解释，但张量网络在机器学习任务中为何有效、其表示能力与泛化性能的理论边界是什么，仍有大量未解之谜。

7.3 个人体会与未来展望

从我个人的实践和观察来看，张量网络不是一颗“银弹”，但它是一套极其犀利的“数学手术刀”。它不适合所有问题，但在处理具有明确多线性结构、高维但低内在秩的数据时，往往能带来惊喜——不仅是参数压缩，有时甚至是精度提升。

未来几年，我预计会看到以下几个趋势：

工具链的进一步成熟：会有更多用户友好、性能优化的张量网络库出现，并与PyTorch、JAX等生态深度集成。
在特定领域的规模化应用：在科学计算（计算化学、材料科学）、推荐系统、金融多因子模型等领域，张量网络将从研究走向大规模生产部署。
与神经符号AI的结合：张量网络提供了一种将符号逻辑、关系推理与数值计算结合的自然框架，这可能为下一代可解释AI提供基础。
量子-经典混合算法的标配：随着量子计算的发展，张量网络作为经典模拟和混合算法设计的工具，其重要性只会增不会减。

对于想入门的同行，我的建议是：从一个小而具体的问题开始。不要一开始就想用PEPS处理ImageNet。可以从压缩一个小的全连接网络，或者用TT分解做一个电影评分预测开始。亲手实现一遍收缩，踩过内存溢出和数值不稳定的坑，你对张量网络的理解会远比读十篇论文更深刻。这个领域正在快速发展，现在正是深入探索、积累经验的黄金时期。

查看全文

http://www.gsyq.cn/news/1564838.html