当前位置：首页 > news >正文

基于DLP平台的手写数字分类——CPU到深度学习处理器的加速实践

news 2026/5/28 18:59:58

【智能计算系统】实验二：基于DLP平台的手写数字分类——CPU到深度学习处理器的加速实践（附完整代码）

本文是智能计算系统课程实验二的完整实现，将实验一中在CPU上训练的神经网络移植到DLP（深度学习处理器）平台，实现手写数字分类的加速推断。通过对比CPU和DLP的性能差异，理解专用硬件加速器的优势。

一、实验概述

本实验目的是熟悉深度学习处理器DLP平台的使用，使用pycnnl库将神经网络推断部分移植到DLP平台，实现手写数字分类。

实验环境：

硬件：DLP（深度学习处理器）
软件：pycnnl库、Python 3.6.12、CNNL高性能算子库、CNRT运行时库
数据集：MNIST手写数字库
模型文件：实验一训练生成的权重文件weight.npy

二、DLP平台简介

DLP（Deep Learning Processor）是专门为深度学习计算设计的处理器，相比通用CPU具有以下优势：

专门优化的矩阵运算单元
更高的并行计算能力
更低的功耗
更适合大规模批量推断

三、核心代码实现

3.1 使用pycnnl构建网络

与实验一手动实现不同，DLP平台使用pycnnl库提供的接口来构建网络：

import pycnnlclass MNIST_MLP(object):def __init__(self):self.net = pycnnl.CnnlNet()def build_model(self, batch_size=100, input_size=784,hidden1=100, hidden2=100, out_classes=10):self.batch_size = batch_sizeself.out_classes = out_classesself.net.setInputShape(batch_size, input_size, 1, 1)# fc1层input_shapem1 = pycnnl.IntVector(4)input_shapem1[0] = batch_sizeinput_shapem1[1] = 1input_shapem1[2] = 1input_shapem1[3] = input_sizeweight_shapem1 = pycnnl.IntVector(4)weight_shapem1[0] = batch_sizeweight_shapem1[1] = 1weight_shapem1[2] = input_sizeweight_shapem1[3] = hidden1output_shapem1 = pycnnl.IntVector(4)output_shapem1[0] = batch_sizeoutput_shapem1[1] = 1output_shapem1[2] = 1output_shapem1[3] = hidden1self.net.createMlpLayer('fc1', input_shapem1, weight_shapem1, output_shapem1)self.net.createReLuLayer('relu1')# fc2、fc3类似...

3.2 数据加载与预处理

数据预处理需要进行归一化：

def load_data(self, data_path, label_path):test_images = self.load_mnist(os.path.join(MNIST_DIR, TEST_DATA), True)test_labels = self.load_mnist(os.path.join(MNIST_DIR, TEST_LABEL), False)# 归一化：(x/255 - mean) / stdtest_images = (test_images.astype(np.float64) / 255.0 - 0.1307) / 0.3081self.test_data = np.append(test_images, test_labels, axis=1)

3.3 模型参数加载

加载实验一训练好的权重文件：

def load_model(self, param_dir):params = _load_raw_weights(param_dir)weigh1 = params['w1'].flatten().astype(np.float64)bias1 = params['b1'].flatten().astype(np.float64)self.net.loadParams(0, weigh1, bias1)weigh2 = params['w2'].flatten().astype(np.float64)bias2 = params['b2'].flatten().astype(np.float64)self.net.loadParams(2, weigh2, bias2)weigh3 = params['w3'].flatten().astype(np.float64)bias3 = params['b3'].flatten().astype(np.float64)self.net.loadParams(4, weigh3, bias3)

3.4 权重文件转换工具

实验二需要将实验一的权重文件转换为特定格式：

def _load_raw_weights(param_dir):params = {}with open(param_dir, 'rb') as f:data = f.read()offset = 0for key in ['w1','b1','w2','b2','w3','b3']:hlen = struct.unpack_from('<I', data, offset)[0]offset += 4header = data[offset:offset+hlen].decode('ascii')offset += hlendtype_str, shape_str = header.split('|')shape = tuple(int(s) for s in shape_str.split(','))dtype = np.dtype(dtype_str)nbytes = int(np.prod(shape)) * dtype.itemsizeparams[key] = np.frombuffer(data[offset:offset+nbytes], dtype=dtype).reshape(shape).copy()offset += nbytesreturn params

3.5 DLP推断与评估

在DLP上进行推断并计时：

def evaluate(self):pred_results = np.zeros([self.test_data.shape[0]])for idx in range(self.test_data.shape[0]//self.batch_size):batch_images = self.test_data[idx*self.batch_size:(idx+1)*self.batch_size, :-1]data = batch_images.flatten().tolist()self.net.setInputData(data)start = time.time()self.forward()end = time.time()print('inferencing time: %f'%(end - start))prob = self.net.getOutputData()prob = np.array(prob).reshape((self.batch_size, self.out_classes))pred_labels = np.argmax(prob, axis=1)pred_results[idx*self.batch_size:(idx+1)*self.batch_size] = pred_labelsaccuracy = np.mean(pred_results == self.test_data[:,-1])print('Accuracy in test set: %f' % accuracy)

3.6 CPU推断对比

为了对比DLP和CPU的性能差异：

# test_cpu.py
def run_test():from stu_upload.mnist_mlp_cpu import MNIST_MLPmlp = MNIST_MLP(batch_size=10000, hidden1=HIDDEN1, hidden2=HIDDEN2, max_epoch=1)mlp.load_data()mlp.build_model()mlp.init_model()mlp.load_model('stu_upload/weight.npy')mlp.evaluate()