Pytorch闪电的基础上深度学习管道的速度提升了10倍！-中国风投网

Pytorch闪电的基础上深度学习管道的速度提升了10倍！

财经来源：TechWeb 阅读量：19399 2021-10-08 13:37

做机器学习研究的你可能经常会遇到这种问题。

就在最近，一个外国兄弟提出了一个建议:

在Pytorch闪电的基础上，深度学习管道的速度提升了10倍！

用他自己的话说，就是mdashmdash爬楼梯似乎给了你一部电梯，

这个酸味，到底该怎么做呢。

无论你是在学术界还是工业界，时间和资源等各种因素往往会成为你实验的桎梏。

尤其是伴随着数据集和机器学习模型的规模越来越大，越来越复杂，使得实验耗时耗力。

加快这件事，就变得至关重要。

例如，在2012年，训练一个AlexNet需要5到6天。

如今，在更大的数据集上训练更大的图像模型只需要几分钟。

这位小哥认为，从某种角度来说，这是由于各种利器的出现。

比如Pytorch Lingtning就是其中之一。

所以，他是死亡管道，总结六个闪电加速实验方法

并行数据加载。

数据加载和增强通常被认为是流水线训练的瓶颈之一。

典型的数据管道包括以下步骤:

从磁盘加载数据，在操作过程中创建随机增强，并分批排列每个样本。

在这个过程中，可以使用多个CPU进程并行加载数据进行优化。

可是，与此同时，这个过程可以通过以下操作来加速。

1.将数据加载器中的num_workers参数设置为CPU的数量。

2.使用GPU时，将DataLoader中的pin_memory参数设置为True这可以将数据分配到页锁定内存，从而加快数据传输到GPU

与CPU相比，GPU大大加快了训练和推理时间。

但是有没有比GPU更好的方法呢。也许答案是:

多个GPU！

在PyTorch中，有几种范例可以用多个GPU训练您的模型。

两种常见的范式是数据并行和DistributedDataParallel

小弟的方法是后者，因为他认为是一种更具扩展性的方法。

但是，在PyTorch中修改训练管道并不容易。

有必要考虑以分布式方式加载数据以及权重，梯度和指标同步的问题。

但是有了PyTorch Lightning，在多个GPU上训练PyTorch模型是非常容易的，而且是几乎不需要修改代码的那种！

默认情况下，输入张量和模型权重以单精度定义。

可是，一些数学运算可以半精确地执行。

这样可以显著提高速度，在不牺牲模型性能的情况下，降低模型的内存带宽。

通过在PyTorch Lightning中设置混合精度标志，它将在可能的情况下自动使用半精度，同时在其他地方保留单精度。

通过最少的代码修改，模型训练的速度可以提高1.5到2倍。

当我们训练深度学习神经网络时，我们通常希望获得最佳的泛化性能。

可是，所有标准的深度学习神经网络结构，如全连接多层感知器，都容易过度拟合。

当网络在训练集中越来越好，错误率越来越低的时候，其实在某个时刻，它在测试集中的性能已经开始恶化了。

因此，在训练过程中增加了提前停止的方法。

具体而言，当验证损失在预设评估时间内时，停止训练。

这样既防止了过拟合现象，又能在几十个历元内找到最佳模型。

Sharded Training基于微软的ZeRO研究和DeepSpeed库。

它的显著效果是使大模型的训练变得可扩展和容易。

否则，这些模型不适合单个GPU。

在Pytorch Lightning的1.2版本中，增加了对共享培训的支持。

虽然在哥哥的实验过程中，我没有看到训练时间和记忆占用有任何改善。

可是，他认为这种方法在其他实验中可能会有所帮助，尤其是在不使用单个GPU的大型模型中。

在模型评估和推理过程中，模型的正向转移不需要梯度。

因此，评估代码可以包装在torch.no_grad上下文管理器中。

这可以防止正向传输过程中的存储梯度，从而减少内存占用。

通过这种方式，可以将更大的批次输入到模型中，使评估和推理更快。

效果如何。

介绍了这么多，你一定想知道这些方法的具体功能。

为此，小哥做了一个表格，详细说明了方法的加速效果。

那么，这些方法对你做机器学习实验有帮助吗。

去试试吧~

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

上一篇：热门股票周四全线收高新能源汽车股大幅上涨

Pytorch闪电的基础上深度学习管道的速度提升了10倍！

资讯播报

综合more >>

财经more >>

热门文章

推荐文章

友情合作