炼数成金 商业智能深度学习
订阅

深度学习

MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT
MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT
当前,卷积神经网络(CNN)和基于自注意力的网络(如近来大火的 ViT)是计算机视觉领域的主流选择,但研究人员没有停止探索视觉网络架构的脚步。近日,来自谷歌大脑的研究团队(原 ViT 团队)提出了一种舍弃卷积和自 ...
Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途
Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途
无需标签,自我分析数据!Facebook的新AI模型在革计算机视觉的命?刚刚,Facebook宣布了一个在10亿张图片上训练的AI模型——SEER,是自监督(Self-supervised)的缩写。该模型包含10亿个参数,可以在几乎没有标签帮 ...
来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步
来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步
Transformer架构在自然语言处理和其他领域的机器学习(ML)任务中表现出了巨大的成功,但大多仅限于单个领域或特定的多模态领域的任务。例如,ViT专门用于视觉相关的任务,BERT专注于语言任务,而VILBERT-MT只用于相关 ...
一文详解深度学习最常用的 10 个激活函数
一文详解深度学习最常用的 10 个激活函数
激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一 ...
增量学习(Incremental Learning)小综述
增量学习(Incremental Learning)小综述
人类有终身不断获取、调整和转移知识的能力,虽然在我们的一生中,我们确实倾向于逐渐忘记之前学习过的知识,但只有在极少的情况下,对新知识的学习会灾难性地影响已经学到的知识,这样的学习能力被称为增量学习的能 ...
更深、更轻量级的Transformer!Facebook提出:DeLighT
更深、更轻量级的Transformer!Facebook提出:DeLighT
本文提出了一个更深更轻量的Transformer,DeLighT,DeLighT更有效地在每个Transformer Block中分配参数:1)、使用DeLighT转换进行深度和轻量级的转换;2)、使用Block-wise Scaling进行跨Block,允许在输入附近有较浅 ...
盘点近期大热对比学习模型:MoCo/SimCLR/BYOL/SimSiam
盘点近期大热对比学习模型:MoCo/SimCLR/BYOL/SimSiam
很多大佬认为,深度学习的本质就是做两件事情:Representation Learning(表示学习)和 Inductive Bias Learning(归纳偏好学习)。在表示学习方面,如果直接对语义进行监督学习,虽然表现很好,但是它需要很多的样 ...
AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!
AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!
在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Tran ...
深度学习中的3个秘密:集成、知识蒸馏和蒸馏
深度学习中的3个秘密:集成、知识蒸馏和蒸馏
在现在的标准技术下,例如过参数化、batch-normalization和添加残差连接,“现代”神经网络训练 —— 至少对于图像分类任务和许多其他任务来说 —— 通常是相当稳定的。使用标准的神经网络结构和训练算法(通常是带动 ...
让研究人员绞尽脑汁的Transformer位置编码
让研究人员绞尽脑汁的Transformer位置编码
不同于RNN、CNN等模型,对于Transformer模型来说,位置编码的加入是必不可少的,因为纯粹的Attention模块是无法捕捉输入顺序的,即无法区分不同位置的Token。为此我们大体有两个选择:1、想办法将位置信息融入到输入 ...
【模型压缩】深度卷积网络的剪枝和加速(含完整代码)
【模型压缩】深度卷积网络的剪枝和加速(含完整代码)
记录一下去年12月份实验室的一个工作:模型的剪枝压缩,虽然模型是基于yolov3的魔改,但是剪枝的对象还是CBL层(即Conv Layer + BN Layer + LeakyReLU Layer),主要分布在Darknet骨干网中,因此我觉得可能有一些通 ...
堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
谷歌研究科学家 David Ha:Transformer 是新的 LSTM。2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。在诞生至今不足四年的时间里,Tran ...
深度学习三大谜团:集成、知识蒸馏和自蒸馏
深度学习三大谜团:集成、知识蒸馏和自蒸馏
集成(Ensemble,又称模型平均)是一种「古老」而强大的方法。只需要对同一个训练数据集上,几个独立训练的神经网络的输出,简单地求平均,便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同,即使拥 ...
Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
Transformer又又来了,生成配有音乐的丝滑3D舞蹈,开放最大规模数据集AIST++
来自谷歌等单位的学者提出一个基于 transformer 的学习框架,用于以音乐为条件的3D舞蹈生成。设计了一个全新的网络框架,并验证得出获得高质量结果的关键。其中组件之一是深度跨模态 transformer,可以很好地学习音 ...
Transformer为何能闯入CV界秒杀CNN?
Transformer为何能闯入CV界秒杀CNN?
在自然语言处理领域中,一个重要的技术基础就是创建合理的Embedding。Embedding是NLP系统的根基,一个好的Embedding需要能够将原始文本中尽可能多的语义片段进行有效编码。这些语义信息其实并不只是代表一个词的定义 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

社区热帖

     

    GMT+8, 2021-5-9 12:06 , Processed in 0.114191 second(s), 16 queries .