炼数成金 商业智能深度学习
订阅

深度学习

深度学习中的3个秘密:集成、知识蒸馏和蒸馏
深度学习中的3个秘密:集成、知识蒸馏和蒸馏
在现在的标准技术下,例如过参数化、batch-normalization和添加残差连接,“现代”神经网络训练 —— 至少对于图像分类任务和许多其他任务来说 —— 通常是相当稳定的。使用标准的神经网络结构和训练算法(通常是带动 ...
让研究人员绞尽脑汁的Transformer位置编码
让研究人员绞尽脑汁的Transformer位置编码
不同于RNN、CNN等模型,对于Transformer模型来说,位置编码的加入是必不可少的,因为纯粹的Attention模块是无法捕捉输入顺序的,即无法区分不同位置的Token。为此我们大体有两个选择:1、想办法将位置信息融入到输入 ...
【模型压缩】深度卷积网络的剪枝和加速(含完整代码)
【模型压缩】深度卷积网络的剪枝和加速(含完整代码)
记录一下去年12月份实验室的一个工作:模型的剪枝压缩,虽然模型是基于yolov3的魔改,但是剪枝的对象还是CBL层(即Conv Layer + BN Layer + LeakyReLU Layer),主要分布在Darknet骨干网中,因此我觉得可能有一些通 ...
堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
谷歌研究科学家 David Ha:Transformer 是新的 LSTM。2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。在诞生至今不足四年的时间里,Tran ...
深度学习三大谜团:集成、知识蒸馏和自蒸馏
深度学习三大谜团:集成、知识蒸馏和自蒸馏
集成(Ensemble,又称模型平均)是一种「古老」而强大的方法。只需要对同一个训练数据集上,几个独立训练的神经网络的输出,简单地求平均,便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同,即使拥 ...
Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
来自谷歌等单位的学者提出一个基于 transformer 的学习框架,用于以音乐为条件的3D舞蹈生成。设计了一个全新的网络框架,并验证得出获得高质量结果的关键。其中组件之一是深度跨模态 transformer,可以很好地学习音 ...
Transformer为何能闯入CV界秒杀CNN?
Transformer为何能闯入CV界秒杀CNN?
在自然语言处理领域中,一个重要的技术基础就是创建合理的Embedding。Embedding是NLP系统的根基,一个好的Embedding需要能够将原始文本中尽可能多的语义片段进行有效编码。这些语义信息其实并不只是代表一个词的定义 ...
加快PyTorch训练速度!掌握这17种方法,让你省时省力!
加快PyTorch训练速度!掌握这17种方法,让你省时省力!
近日,Reddit 上一个帖子热度爆表。主题内容是关于怎样加速 PyTorch 训练。原文作者是来自苏黎世联邦理工学院的计算机科学硕士生 LORENZ KUHN,文章向我们介绍了在使用 PyTorch 训练深度模型时最省力、最有效的 17 ...
步履不停:TensorFlow 2.4 新功能一览!
步履不停:TensorFlow 2.4 新功能一览!
TensorFlow 2.4 正式发布!随着对分布式训练和混合精度提供更多支持,加入新的 Numpy 前端及用于监控和诊断性能瓶颈的工具,这个版本的亮点在于推出新功能,以及对性能和扩展方面的增强。
一文搞懂 PyTorch 内部机制
一文搞懂 PyTorch 内部机制
Tensor 是PyTorch的核心数据结构。你可能对tensor的概念已经相当了解了:它是包含若干个标量(标量可以是各种数据类型如浮点型、整形等)的n-维的数据结构。我们可以认为tensor包含了数据和元数据(metadata),元数据用 ...
Jürgen Schmidhuber回顾30年前旧作,称其启发了现今流行的很多概念
Jürgen Schmidhuber回顾30年前旧作,称其启发了现今流行的很多概念
现今流行的生成对抗网络(GAN)只是对抗好奇心的一种特例?在近日 Jürgen Schmidhuber 发表的博客文章中,他重申了这样一种说法。Jürgen 表示,他在 1990 年的一篇文章中详细描述了基于控制器和世界模型这两种循环 ...
个人深度学习工作站配置指南
个人深度学习工作站配置指南
服务器的配置以个人使用性价比为主,同时考虑到以后的扩展性像是主板和机箱这些配件配置设置一些冗余。首先是CPU平台的选择,虽然AMD这两年实在是香,但是作为生产力工具考虑到软件库的兼容性问题,还是决定选择inte ...
Pytorch中的四种经典Loss源码解析
Pytorch中的四种经典Loss源码解析
了解过Pytorch的应该知道其历史包袱比较重,它吸收了Caffe2的底层代码,然后自己借用这部分底层代码来写各种OP的逻辑,最后再暴露出一层Python接口供用户使用。因此第一次接触Pytorch源代码可能有点不太熟悉,基本上 ...
RealFormer:把残差转移到Attention矩阵上面去
RealFormer:把残差转移到Attention矩阵上面去
大家知道 Layer Normalization 是 Transformer 模型的重要组成之一,它的用法有 PostLN 和 PreLN 两种,论文 On Layer Normalization in the Transformer Architecture 中有对两者比较详细的分析。简单来说,就是 P ...
一文详解神经网络与激活函数的基本原理
一文详解神经网络与激活函数的基本原理
关于模型架构。虽然具有一个隐藏层的神经网络已经可以模拟大部分函数,但是实践证明深度神经网络(即有更多的隐藏层)在图像识别和自然语言处理等任务中具有更优的表现,因此有各类复杂的模型被设计出来,并在相应任 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2021-6-25 17:07 , Processed in 0.163571 second(s), 16 queries .