炼数成金 商业智能深度学习
订阅

深度学习

使用大batch优化深度学习:训练BERT仅需76分钟
使用大batch优化深度学习:训练BERT仅需76分钟
在海量数据集上训练大型深度神经网络,是非常具有挑战性的。最近,有许多研究均使用大batch随机优化方法来解决此问题。在该研究领域中,目前最杰出的算法是LARS,它通过采用分层自适应学习率,可以在几分钟内在Image ...
PyTorch trick 集锦
PyTorch trick 集锦
Keras有一个简洁的API来查看模型的每一层输出尺寸,这在调试网络时非常有用。现在在PyTorch中也可以实现这个功能。在PyTorch中使用交叉熵损失函数的时候会自动把label转化成onehot,所以不用手动转化,而使用MSE需要 ...
挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难
挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难
近年来,图像合成技术日趋进步,GAN在给我们带来艺术体验的同时也埋下了很多隐患。Deepfake(AI换脸)技术让很多事情的真实性变得扑朔迷离,甚至会产生极大的政治影响。比如加蓬共和国总统的一段录像被反对派声称是 ...
YouTube深度学习推荐模型最全总结
YouTube深度学习推荐模型最全总结
作为全球最大的视频分享网站,YouTube 平台中几乎所有的视频都来自 UGC(User-Generated Content),这样的内容产生模式有两个特点:(1)商业模式不同。国外的 Netflix 和国内的爱奇艺等流媒体,它们的大部分内容都 ...
二值神经网络(Binary Neural Networks)最新综述
二值神经网络(Binary Neural Networks)最新综述
神经网络二值化能够最大程度地降低模型的存储占用和模型的计算量,将神经网络中原本 32 位浮点数参数量化至 1 位定点数,降低了模型部署的存储资源消耗,同时极大加速了神经网络的推断过程。但二值化会不可避免地导 ...
常用 Normalization 方法的总结与思考:BN、LN、IN、GN
常用 Normalization 方法的总结与思考:BN、LN、IN、GN
我们将输入的 feature map shape 记为,其中N表示batch size,即N个样本;C表示通道数;H、W分别表示特征图的高度、宽度。这几个方法主要的区别就是在:1. BN是在batch上,对N、H、W做归一化,而保留通道 C 的维度。 ...
浅谈模型压缩之量化、剪枝、权重共享
浅谈模型压缩之量化、剪枝、权重共享
深度学习模型的应用必然要面对模型压缩的问题,训练出来的原始模型直接放到服务器或终端上跑是不明智的,因为有大量的算力可以省略!首先明确下模型压缩的概念,就是在尽可能不改变模型效果的情况下,减少模型的体积 ...
胶囊网络显神威:Google AI和Hinton团队检测到针对图像分类器的对抗攻击
胶囊网络显神威:Google AI和Hinton团队检测到针对图像分类器的对抗攻击
对抗攻击(Adversarial Attack,指的是通过恶意输入欺骗模型的技术)正越来越多地被有"防御意识"的新攻击打破。实际上,大多数声称检测对抗性攻击的方法在发布后不久就被证伪了。为了打破这个魔咒,加州大学圣地 ...
二阶梯度优化新崛起,超越 Adam,Transformer 只需一半迭代量
二阶梯度优化新崛起,超越 Adam,Transformer 只需一半迭代量
常见的最优化器,如 Adam、AdaGrad、SGD+Momentum 等,都是一阶的。但是二阶梯度的收敛速度相比它们就快了太多。近日,谷歌研究者联合普林斯顿大学等,提出了真正应用的二阶梯度最优化器 Shampoo,让这个理论上颇有 ...
图神经网络三剑客:GCN、GAT与GraphSAGE
图神经网络三剑客:GCN、GAT与GraphSAGE
2019 年号称图神经网络元年,在各个领域关于图神经网络的研究爆发式增长。本文主要介绍一下三种常见图神经网络:GCN、GAT 以及 GraphSAGE。前两者是目前应用比较广泛的图神经网络,后者则为图神经网络的工程应用提供 ...
深度学习预训练模型可解释性概览
深度学习预训练模型可解释性概览
近年来预训练模型(ELMo, GPT, BERT, XLNet, ALBERT 等)给许多 NLP 任务带来了显著的改进,但是有一个问题一直困扰着大家:被当做黑盒的神经网络到底是如何做的以及为什么会这样做?最近,人们对解决这个谜团越来越 ...
超越BN和GN!谷歌提出新的归一化层:FRN
超越BN和GN!谷歌提出新的归一化层:FRN
目前主流的深度学习模型都会采用BN层(Batch Normalization)来加速模型训练以及提升模型效果,对于CNN模型,BN层已经上成为了标配。但是BN层在训练过程中需要在batch上计算中间统计量,这使得BN层严重依赖batch,造 ...
新冠肺炎“识别”战,AI算法落地有多难?
新冠肺炎“识别”战,AI算法落地有多难?
人工智能从来没有像现在这么重要过!这段时间的疫情猛烈,AI每一次在医疗领域的落地都在帮助白衣天使拯救生命。从疫情预测到检测体温再到药物开发,人工智能争分夺秒,蓄势待发。更为准确的说是医疗AI公司们站了出来 ...
LSTM之父发文:2010-2020,我眼中的深度学习十年简史
LSTM之父发文:2010-2020,我眼中的深度学习十年简史
在最近十年,大部分AI都是关于长期短期记忆(LSTM)的神经网络。世界本质上是序列性的,而LSTM彻底改变了序列数据处理,例如语音识别、机器翻译、视频识别,联机手写识别、机器人、视频游戏、时间序列预测、聊天机器 ...
搞定千亿参数,训练时间只用1/3,微软全新工具催生超级NLP模型
搞定千亿参数,训练时间只用1/3,微软全新工具催生超级NLP模型
GPU 显存一直是训练先进深度学习模型的最大瓶颈——大规模训练经常会碰到模型参数太多,显存无法容纳的情况。最近,微软提出的全新方法 DeepSpeed 将每个节点的批处理大小增大了 4 倍,而训练时间减少到原来的 1/3, ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2020-4-9 08:30 , Processed in 0.104798 second(s), 18 queries .