炼数成金 商业智能深度学习
订阅

深度学习

CVPR 2020: 8比特数值也能训练模型?商汤提出训练加速新算法
CVPR 2020: 8比特数值也能训练模型?商汤提出训练加速新算法
卷积神经网络被广泛应用在多种计算机视觉任务中并且取得了优异的精度。由于拥有庞大的参数量,训练和部署卷积神经网络需要耗费大量计算资源和漫长的训练时间,如何用更少资源训练卷积神经网络一直是一个学术研究热点 ...
PyTorch 分布式训练简明教程
PyTorch 分布式训练简明教程
神经网络训练加速的最简单方法是使用GPU,对弈神经网络中常规操作(矩阵乘法和加法)GPU运算速度要倍超于CPU。随着模型或数据集越来越大,一个GPU很快就会变得不足。例如,BERT和GPT-2等大型语言模型是在数百个GPU上 ...
YOLOv4 的各种新实现、配置、测试、训练资源汇总
YOLOv4 的各种新实现、配置、测试、训练资源汇总
YOLOv4 没有理论创新,而是在原有YOLO目标检测架构的基础上增加了近年CNN改进的众多技术,从数据处理到网络训练再到损失函数,遵行“拿来主义”,加上漂亮的工程实践,打造实现最佳速度与精度平衡的目标检测新基准! ...
ResNet最强改进版来了!ResNeSt:Split-Attention Networks
ResNet最强改进版来了!ResNeSt:Split-Attention Networks
ResNeSt 的全称是:Split-Attention Networks,也就是特别引入了Split-Attention模块。如果没有猜错,ResNeSt 的 S 应该就是 Split。GoogleNet 采用了Multi-path机制,其中每个网络块均由不同的卷积kernels组成。Res ...
超全!19 种损失函数,你能认识几个?
超全!19 种损失函数,你能认识几个?
当训练有 C 个类别的分类问题时很有效. 可选参数 weight 必须是一个1维 Tensor, 权重将被分配给各个类别. 对于不平衡的训练集非常有效。在多分类任务中,经常采用 softmax 激活函数+交叉熵损失函数,因为交叉熵描述 ...
LSTM 为何如此有效?这五个秘密是你要知道的
LSTM 为何如此有效?这五个秘密是你要知道的
长短期记忆网络(LSTM),作为一种改进之后的循环神经网络,不仅能够解决 RNN无法处理长距离的依赖的问题,还能够解决神经网络中常见的梯度爆炸或梯度消失等问题,在处理序列数据方面非常有效。有效背后的根本原因有 ...
使用大batch优化深度学习:训练BERT仅需76分钟
使用大batch优化深度学习:训练BERT仅需76分钟
在海量数据集上训练大型深度神经网络,是非常具有挑战性的。最近,有许多研究均使用大batch随机优化方法来解决此问题。在该研究领域中,目前最杰出的算法是LARS,它通过采用分层自适应学习率,可以在几分钟内在Image ...
PyTorch trick 集锦
PyTorch trick 集锦
Keras有一个简洁的API来查看模型的每一层输出尺寸,这在调试网络时非常有用。现在在PyTorch中也可以实现这个功能。在PyTorch中使用交叉熵损失函数的时候会自动把label转化成onehot,所以不用手动转化,而使用MSE需要 ...
挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难
挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难
近年来,图像合成技术日趋进步,GAN在给我们带来艺术体验的同时也埋下了很多隐患。Deepfake(AI换脸)技术让很多事情的真实性变得扑朔迷离,甚至会产生极大的政治影响。比如加蓬共和国总统的一段录像被反对派声称是 ...
YouTube深度学习推荐模型最全总结
YouTube深度学习推荐模型最全总结
作为全球最大的视频分享网站,YouTube 平台中几乎所有的视频都来自 UGC(User-Generated Content),这样的内容产生模式有两个特点:(1)商业模式不同。国外的 Netflix 和国内的爱奇艺等流媒体,它们的大部分内容都 ...
二值神经网络(Binary Neural Networks)最新综述
二值神经网络(Binary Neural Networks)最新综述
神经网络二值化能够最大程度地降低模型的存储占用和模型的计算量,将神经网络中原本 32 位浮点数参数量化至 1 位定点数,降低了模型部署的存储资源消耗,同时极大加速了神经网络的推断过程。但二值化会不可避免地导 ...
常用 Normalization 方法的总结与思考:BN、LN、IN、GN
常用 Normalization 方法的总结与思考:BN、LN、IN、GN
我们将输入的 feature map shape 记为,其中N表示batch size,即N个样本;C表示通道数;H、W分别表示特征图的高度、宽度。这几个方法主要的区别就是在:1. BN是在batch上,对N、H、W做归一化,而保留通道 C 的维度。 ...
浅谈模型压缩之量化、剪枝、权重共享
浅谈模型压缩之量化、剪枝、权重共享
深度学习模型的应用必然要面对模型压缩的问题,训练出来的原始模型直接放到服务器或终端上跑是不明智的,因为有大量的算力可以省略!首先明确下模型压缩的概念,就是在尽可能不改变模型效果的情况下,减少模型的体积 ...
胶囊网络显神威:Google AI和Hinton团队检测到针对图像分类器的对抗攻击
胶囊网络显神威:Google AI和Hinton团队检测到针对图像分类器的对抗攻击
对抗攻击(Adversarial Attack,指的是通过恶意输入欺骗模型的技术)正越来越多地被有"防御意识"的新攻击打破。实际上,大多数声称检测对抗性攻击的方法在发布后不久就被证伪了。为了打破这个魔咒,加州大学圣地 ...
二阶梯度优化新崛起,超越 Adam,Transformer 只需一半迭代量
二阶梯度优化新崛起,超越 Adam,Transformer 只需一半迭代量
常见的最优化器,如 Adam、AdaGrad、SGD+Momentum 等,都是一阶的。但是二阶梯度的收敛速度相比它们就快了太多。近日,谷歌研究者联合普林斯顿大学等,提出了真正应用的二阶梯度最优化器 Shampoo,让这个理论上颇有 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-7-14 05:00 , Processed in 0.128442 second(s), 16 queries .