2024深度学习发论文&模型涨点,推荐关注新神器:ResNet+Transformer!代表模型EfficientRMT-Net,将Transformer和ResNet-50结构整合,准确率就提升到了99.12%
主要在于:两者的结合能够充分发挥各自优势!ResNet由于深度残差结构,能让网络训练的更深,学习到更复杂的表达,从而提供强大的特征提取能力,而Transformer擅长处理全局信息,可以在此基础上进一步理解和整合这些特征之间的复杂关系。
为了让大家获得更多idea启发,我给大家准备了9种前沿的融合方法,主要涉及在ResNet中引入Transformer的残差连接、引入跨模态信息融合机制等。
精彩论文介绍
- EfficientRMT-Net-An Efficient ResNet-50 and Vision TransformersApproach for Classifying Potato Plant Leaf Disease
「论文简述」
本文提出的方法旨在克服传统方法的局限性,这些方法通常是劳动密集型、耗时且由于疾病的不可预测性而容易出现不准确演示EfficientRMT-Net利用CNN模型进行不同的特征提取,并采用深度卷积(DWC)以减少计算需求。阶段块结构也是集成以提高可扩展性和敏感区域检测,增强跨不同的数据集。使用全局平均池化层和完全连接层。该模型专门在自定义数据集上进行了训练、验证和测试用于马铃薯叶病检测。
EfficientRMT-Net的性能与其他深度学习和迁移学习技术以建立其功效。初步结果显示EfficientRMT-Net在通用图像数据集上的准确率为97.65%,在专门的马铃薯叶片图像数据集,优于现有方法。该模型演示了在正确分类和识别马铃薯叶病方面,即使在某些情况下,也具有较高的熟练程度失真样本。
- A Three-Dimensional ResNet and Transformer-Based Approach toAnomaly Detection in Multivariate Temporal-Spatial Data
「论文简述」
多变量时间序列的异常检测是一个重要的问题,在许多领域都有应用。然而,迄今为止提出的方法的主要限制在于缺乏可以融合时间和空间特征的高度并行模型。本文提出了基于三维ResNet和Transformer的异常检测方法TDRT。TDRT可以自动学习时空数据的多维特征,提高异常检测的精度。利用TDRT方法,本文能够从多维工业控制时空数据中获得时空相关性,并快速挖掘长期依赖关系。
- LFLDNet: Lightweight Fingerprint Liveness Detection Based on ResNet and Transformer
「论文简述」
本文提出了一种新型的轻量级指纹活动性检测网络,用于鉴别指纹真伪。该方法主要包括前景提取、指纹图像块化、基于CycleGan的风格转移和带有多头自关注机制的改进ResNet。该方法可以有效地提取ROI并获得端到端的数据结构,增加了数据量。对于未知材料生成的假指纹,使用CycleGan网络提高了模型泛化能力。在改进的ResNet中引入了带有MHSA的Transformer,提高了检测性能并降低了计算开销。
- GrapeLeafNet: A Dual-Track Feature Fusion Network With Inception-ResNet and Shuffle-Transformer for Accurate Grape Leaf Disease Identification
「论文简述」在这项研究中,本文提出了一种新的双轨特征融合网络,名为“GrapeLeafNet”,用于检测葡萄叶病。它采用了双轨特征融合方法,将Inception ResNet块与用于局部特征提取的CBAM和用于全局特征提取的Shuffle Transformer。首先使用Inception ResNet块用于表示多个尺度的特征并绘制重要特征图,以及CBAM捕获显著的空间和通道依赖性。然后采用Shuffle Transformer提取图像中的长期相关性和复杂的全局特征。
- Resformer-Unet: A U-shaped Framework Combining ResNet andTransformer for Segmentation of Strip Steel Surface Defects
「论文简述」
这项工作提出了一个名为Resformer Unet的U形编码器-解码器框架,它可以 在像素级上有效地检测热轧带钢的表面缺陷。在这个框架中,卷积神经网络(CNN)和Transformer并行工作以从图像中提取多尺度特征,这增强了网络捕获全局和本地信息的能力。此外,功能耦合模块用于融合多尺度特征,从而补偿信息下采样期间发生的损耗。
- Combining ResNet and Transformer for Chinese Grammatical ErrorDiagnosis
「论文简述」
本文介绍了在NLPTEA-2020汉语语法错误诊断任务(CGED)中的系统。CGED旨在诊断缺词(M)、冗余词(R)、选错词(S)和无序词(W)四种语法错误。作者系统建立在多层双向互感编码器的模型上,并将ResNet集成到编码器中以提高性能。作者还探讨了加权平均和逐步集成选择两种集成策略,以提高单个模型的性能。
- SpikingResformer: Bridging ResNet and Vision Transformer in SpikingNeural Networks
「论文简述」
视觉Transformer在人工神经网络(ANNs)中的显著成功,使得人们对将自注意机制和基于Transformer的结构整合到峰值神经网络(snn)中越来越感兴趣。虽然现有方法提出了与snn兼容的尖峰自关注机制,但缺乏合理的缩放方法,并且这些方法提出的整体架构在有效提取局部特征方面存在瓶颈。
为了解决这些挑战,本文提出了一种新的自注意机制,即双自注意机制(DSSA)。基于DSSA,作者提出了一种新的峰值视觉Transfomer架构,称为SpikingResformer,它将基于resnet的多阶段架构与所提出的DSSA相结合,在降低参数的同时提高了性能和能效。
- Swin transformer and ResNet based deep networks for low-light image enhancement
「论文简述」
在本文中,通过结合ResNet和Swin Transformer的优点,作者设计了Swin Transfomer和基于ResNet的生成对抗性网络(STRN)用于微光图像增强。STRN由U型生成器和多尺度鉴别器。生成器由一个浅特征提取、深度特征提取和图像重建模块。为了计算全局和局部注意力,作者在训练中交替使用Swin Transformer块和ResNet深度特征处理模块。自我感知损失与空间一致性损失用于约束STRN的随机配对训练。
- A hybrid ResNet-ViT approach to bridge the global and local features formyocardial infarction detection
「论文简述」
在这项研究中,作者通过提出一种混合方法来推进MI检测结合了ResNet和Vision Transformer(ViT)模型的优势,利用了全球和本地以提高精度。本文介绍了一种具有多分支网络的纤薄模型ViT设计通道注意力机制,以增强补丁嵌入提取,解决ViT的局限性。通过通过ResNet和修改的ViT模型训练数据,本文纳入了一个双重途径特征提取策略。全局和局部特征的融合解决了鲁棒性的挑战特征向量创建。该方法通过改进展示了增强的学习能力ViT架构和ResNet架构。双路径训练丰富了特征提取,最终形成综合特征向量。初步结果显示了巨大的潜力 用于精确检测MI。本文的研究介绍了一种用于高级MI的混合ResNet ViT模型检测,突出了全局和局部特征提取之间的协同作用。这种方法适用有望提高MI分类的准确性,对改善患者护理有意义。进一步的验证和临床适用性探索是有必要的。
暂无评论内容