炼数成金 商业智能深度学习
订阅

深度学习

二值神经网络(Binary Neural Networks)最新综述
二值神经网络(Binary Neural Networks)最新综述
神经网络二值化能够最大程度地降低模型的存储占用和模型的计算量,将神经网络中原本 32 位浮点数参数量化至 1 位定点数,降低了模型部署的存储资源消耗,同时极大加速了神经网络的推断过程。但二值化会不可避免地导 ...
常用 Normalization 方法的总结与思考:BN、LN、IN、GN
常用 Normalization 方法的总结与思考:BN、LN、IN、GN
我们将输入的 feature map shape 记为,其中N表示batch size,即N个样本;C表示通道数;H、W分别表示特征图的高度、宽度。这几个方法主要的区别就是在:1. BN是在batch上,对N、H、W做归一化,而保留通道 C 的维度。 ...
浅谈模型压缩之量化、剪枝、权重共享
浅谈模型压缩之量化、剪枝、权重共享
深度学习模型的应用必然要面对模型压缩的问题,训练出来的原始模型直接放到服务器或终端上跑是不明智的,因为有大量的算力可以省略!首先明确下模型压缩的概念,就是在尽可能不改变模型效果的情况下,减少模型的体积 ...
胶囊网络显神威:Google AI和Hinton团队检测到针对图像分类器的对抗攻击
胶囊网络显神威:Google AI和Hinton团队检测到针对图像分类器的对抗攻击
对抗攻击(Adversarial Attack,指的是通过恶意输入欺骗模型的技术)正越来越多地被有"防御意识"的新攻击打破。实际上,大多数声称检测对抗性攻击的方法在发布后不久就被证伪了。为了打破这个魔咒,加州大学圣地 ...
二阶梯度优化新崛起,超越 Adam,Transformer 只需一半迭代量
二阶梯度优化新崛起,超越 Adam,Transformer 只需一半迭代量
常见的最优化器,如 Adam、AdaGrad、SGD+Momentum 等,都是一阶的。但是二阶梯度的收敛速度相比它们就快了太多。近日,谷歌研究者联合普林斯顿大学等,提出了真正应用的二阶梯度最优化器 Shampoo,让这个理论上颇有 ...
图神经网络三剑客:GCN、GAT与GraphSAGE
图神经网络三剑客:GCN、GAT与GraphSAGE
2019 年号称图神经网络元年,在各个领域关于图神经网络的研究爆发式增长。本文主要介绍一下三种常见图神经网络:GCN、GAT 以及 GraphSAGE。前两者是目前应用比较广泛的图神经网络,后者则为图神经网络的工程应用提供 ...
深度学习预训练模型可解释性概览
深度学习预训练模型可解释性概览
近年来预训练模型(ELMo, GPT, BERT, XLNet, ALBERT 等)给许多 NLP 任务带来了显著的改进,但是有一个问题一直困扰着大家:被当做黑盒的神经网络到底是如何做的以及为什么会这样做?最近,人们对解决这个谜团越来越 ...
超越BN和GN!谷歌提出新的归一化层:FRN
超越BN和GN!谷歌提出新的归一化层:FRN
目前主流的深度学习模型都会采用BN层(Batch Normalization)来加速模型训练以及提升模型效果,对于CNN模型,BN层已经上成为了标配。但是BN层在训练过程中需要在batch上计算中间统计量,这使得BN层严重依赖batch,造 ...
新冠肺炎“识别”战,AI算法落地有多难?
新冠肺炎“识别”战,AI算法落地有多难?
人工智能从来没有像现在这么重要过!这段时间的疫情猛烈,AI每一次在医疗领域的落地都在帮助白衣天使拯救生命。从疫情预测到检测体温再到药物开发,人工智能争分夺秒,蓄势待发。更为准确的说是医疗AI公司们站了出来 ...
LSTM之父发文:2010-2020,我眼中的深度学习十年简史
LSTM之父发文:2010-2020,我眼中的深度学习十年简史
在最近十年,大部分AI都是关于长期短期记忆(LSTM)的神经网络。世界本质上是序列性的,而LSTM彻底改变了序列数据处理,例如语音识别、机器翻译、视频识别,联机手写识别、机器人、视频游戏、时间序列预测、聊天机器 ...
搞定千亿参数,训练时间只用1/3,微软全新工具催生超级NLP模型
搞定千亿参数,训练时间只用1/3,微软全新工具催生超级NLP模型
GPU 显存一直是训练先进深度学习模型的最大瓶颈——大规模训练经常会碰到模型参数太多,显存无法容纳的情况。最近,微软提出的全新方法 DeepSpeed 将每个节点的批处理大小增大了 4 倍,而训练时间减少到原来的 1/3, ...
微软新作,ImageBERT虽好,千万级数据集才是亮点
微软新作,ImageBERT虽好,千万级数据集才是亮点
继 2018 年谷歌的 BERT 模型获得巨大成功之后,在纯文本之外的任务上也有越来越多的研究人员借鉴了 BERT 的思维,开发出各种语音、视觉、视频融合的 BERT 模型。近期,来自微软的Bing 多媒体团队在arXiv上也同样发表 ...
使用 Keras Tuner 调节超参数
使用 Keras Tuner 调节超参数
Keras Tuner 是一个易于使用的分布式超参数优化框架,能够解决执行超参数搜索时的一些痛点。Keras Tuner 可让您轻松定义搜索空间,并利用内置算法找到最佳超参数的值,内置有贝叶斯优化、Hyperband 和随机搜索算法, ...
超详细的语义分割中Loss盘点
超详细的语义分割中Loss盘点
何凯明团队在RetinaNet论文中引入了Focal Loss来解决难易样本数量不平衡,我们来回顾一下。 我们知道,One-Stage的目标检测器通常会产生10k数量级的框,但只有极少数是正样本,正负样本数量非常不平衡。
对ResNet本质的一些思考
对ResNet本质的一些思考
最近在总结完成语义分割任务的轻量级神经网络时,看到了MobileNet V2中对于ReLU层的思考,于是我也回过头重新审视ResNet之所以work的本质原因。以下是一些个人的见解,如有错误,还望及时指正。在谈及ResNet之前,我 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2021-9-26 15:12 , Processed in 0.121907 second(s), 18 queries .