炼数成金 商业智能深度学习
订阅

深度学习

增量学习(Incremental Learning)小综述
增量学习(Incremental Learning)小综述
人类有终身不断获取、调整和转移知识的能力,虽然在我们的一生中,我们确实倾向于逐渐忘记之前学习过的知识,但只有在极少的情况下,对新知识的学习会灾难性地影响已经学到的知识,这样的学习能力被称为增量学习的能 ...
更深、更轻量级的Transformer!Facebook提出:DeLighT
更深、更轻量级的Transformer!Facebook提出:DeLighT
本文提出了一个更深更轻量的Transformer,DeLighT,DeLighT更有效地在每个Transformer Block中分配参数:1)、使用DeLighT转换进行深度和轻量级的转换;2)、使用Block-wise Scaling进行跨Block,允许在输入附近有较浅 ...
盘点近期大热对比学习模型:MoCo/SimCLR/BYOL/SimSiam
盘点近期大热对比学习模型:MoCo/SimCLR/BYOL/SimSiam
很多大佬认为,深度学习的本质就是做两件事情:Representation Learning(表示学习)和 Inductive Bias Learning(归纳偏好学习)。在表示学习方面,如果直接对语义进行监督学习,虽然表现很好,但是它需要很多的样 ...
AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!
AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!
在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Tran ...
深度学习中的3个秘密:集成、知识蒸馏和蒸馏
深度学习中的3个秘密:集成、知识蒸馏和蒸馏
在现在的标准技术下,例如过参数化、batch-normalization和添加残差连接,“现代”神经网络训练 —— 至少对于图像分类任务和许多其他任务来说 —— 通常是相当稳定的。使用标准的神经网络结构和训练算法(通常是带动 ...
让研究人员绞尽脑汁的Transformer位置编码
让研究人员绞尽脑汁的Transformer位置编码
不同于RNN、CNN等模型,对于Transformer模型来说,位置编码的加入是必不可少的,因为纯粹的Attention模块是无法捕捉输入顺序的,即无法区分不同位置的Token。为此我们大体有两个选择:1、想办法将位置信息融入到输入 ...
【模型压缩】深度卷积网络的剪枝和加速(含完整代码)
【模型压缩】深度卷积网络的剪枝和加速(含完整代码)
记录一下去年12月份实验室的一个工作:模型的剪枝压缩,虽然模型是基于yolov3的魔改,但是剪枝的对象还是CBL层(即Conv Layer + BN Layer + LeakyReLU Layer),主要分布在Darknet骨干网中,因此我觉得可能有一些通 ...
堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
谷歌研究科学家 David Ha:Transformer 是新的 LSTM。2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。在诞生至今不足四年的时间里,Tran ...
深度学习三大谜团:集成、知识蒸馏和自蒸馏
深度学习三大谜团:集成、知识蒸馏和自蒸馏
集成(Ensemble,又称模型平均)是一种「古老」而强大的方法。只需要对同一个训练数据集上,几个独立训练的神经网络的输出,简单地求平均,便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同,即使拥 ...
Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
来自谷歌等单位的学者提出一个基于 transformer 的学习框架,用于以音乐为条件的3D舞蹈生成。设计了一个全新的网络框架,并验证得出获得高质量结果的关键。其中组件之一是深度跨模态 transformer,可以很好地学习音 ...
Transformer为何能闯入CV界秒杀CNN?
Transformer为何能闯入CV界秒杀CNN?
在自然语言处理领域中,一个重要的技术基础就是创建合理的Embedding。Embedding是NLP系统的根基,一个好的Embedding需要能够将原始文本中尽可能多的语义片段进行有效编码。这些语义信息其实并不只是代表一个词的定义 ...
加快PyTorch训练速度!掌握这17种方法,让你省时省力!
加快PyTorch训练速度!掌握这17种方法,让你省时省力!
近日,Reddit 上一个帖子热度爆表。主题内容是关于怎样加速 PyTorch 训练。原文作者是来自苏黎世联邦理工学院的计算机科学硕士生 LORENZ KUHN,文章向我们介绍了在使用 PyTorch 训练深度模型时最省力、最有效的 17 ...
步履不停:TensorFlow 2.4 新功能一览!
步履不停:TensorFlow 2.4 新功能一览!
TensorFlow 2.4 正式发布!随着对分布式训练和混合精度提供更多支持,加入新的 Numpy 前端及用于监控和诊断性能瓶颈的工具,这个版本的亮点在于推出新功能,以及对性能和扩展方面的增强。
一文搞懂 PyTorch 内部机制
一文搞懂 PyTorch 内部机制
Tensor 是PyTorch的核心数据结构。你可能对tensor的概念已经相当了解了:它是包含若干个标量(标量可以是各种数据类型如浮点型、整形等)的n-维的数据结构。我们可以认为tensor包含了数据和元数据(metadata),元数据用 ...
Jürgen Schmidhuber回顾30年前旧作,称其启发了现今流行的很多概念
Jürgen Schmidhuber回顾30年前旧作,称其启发了现今流行的很多概念
现今流行的生成对抗网络(GAN)只是对抗好奇心的一种特例?在近日 Jürgen Schmidhuber 发表的博客文章中,他重申了这样一种说法。Jürgen 表示,他在 1990 年的一篇文章中详细描述了基于控制器和世界模型这两种循环 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2021-9-26 13:42 , Processed in 0.135701 second(s), 18 queries .