白红宇的博客

GPU图像处理的基本流程

现代GPU提供了顶点处理器和片段处理器两个可编程并行处理部件。在利用GPU执行图像处理等通用计算任务时，要做的主要工作是将待求解的任务映射到GPU支持的图形绘制流水线上。通常的方法是将计算任务的输入数据用顶点的位置、颜色、法向量等属性或者纹理等图形绘制要素来表达。相应的处理算法则被分解为一系列的执行步骤，并改写为GPU的顶点处理程序或片段处理程序。然后，调用3DAPI执行图形绘制操作，激活GPU上......

阅读量：797 次

GPT-4震撼发布：多模态大模型，直接升级ChatGPT、必应，开放API，游戏终结了？...

GPT-4发布：OpenAI引领下一代大语言模型2023年3月，OpenAI公司在人工智能领域掀起新一波革命性浪潮，正式发布了GPT-4。这款模型不仅在技术能力上达到了新的高度，更在应用场景上展现出前所未有的潜力。作为继GPT-3.5之后的又一重要里程碑，GPT-4的发布引发了广泛关注和讨论。功能亮点：多模态能力与更高效率GPT-4的核心亮点之一是其多模态能力。与传统的语言模型不同，这款模型能够同......

阅读量：797 次

Gemini 可以进行目标检测了！

我们对Gemini的多模态能力已经有了深刻的认识，尤其是在处理图像数据推理时，无论是图像描述、OCR、分类还是特定内容识别。与其开放模型对应的PaliGemma不同，Gemini并未明确针对目标检测任务进行训练。这一特点促使我进行了一系列实验，并撰写了本博客。PaliGemma链接https://ai.google.dev/gemma/docs/paligemma先决条件仅需Gemini的API密......

阅读量：797 次

FastestDet：比yolov5更快！更强！全新设计的超实时Anchor-free目标检测算法（附源代码下载）...

FastestDet:一个高效的ARM平台目标检测算法框架FastestDet是一个专为计算资源紧张的ARM平台设计的轻量级目标检测算法框架。它在速度和参数量上均优于现有的轻量级目标检测算法，如yolov5n、yolox-nano和nanoDet等。FastestDet的核心目标是为树莓派、RK3399和RK3568等设备提供高效的实时目标检测解决方案，同时在低功耗条件下保持良好的推理性能。算法特......

阅读量：797 次

EMF-former：一种用于医学图像分割的高效且内存友好的Transformer

标题：EMF-former：一种用于医学图像分割的高效且内存友好的Transformer摘要：医学图像分割是计算机辅助诊断的重要任务，而基于卷积神经网络的方法在局部特征提取方面表现优异，但其在捕捉全局依赖性方面存在不足。相比之下，基于Transformer的方法通过自注意力机制能够建构全局依赖关系，为局部卷积提供重要补充。然而，传统Transformer中的自注意力计算复杂度较高，且内存占用较大，......

阅读量：797 次

ECCV 2024 | Dolfin: 无自编码器的扩散布局Transformer

Dolfin:无自编码器的扩散布局Transformer作者YilinWang,ZeyuanChen,LiangjunZhong,ZhengDing,ZhuowenTu论文创新点Dolfin模型通过创新性的设计，在无需自编码器的情况下直接在原始空间进行操作，有效保留了几何特征如边界框对齐，同时显著提升了模型的透明性和可访问性。此外，Dolfin提出了一种双向扩散模型和自回归扩散模型（Dolfin-......

阅读量：797 次

ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架：ResNet50 80.1%精度，训练加速30%...

知识蒸馏，开源策略，ResNet-50性能突破：一文概述FKD算法近日，一项名为FKD（FastKnowledgeDistillation,快速知识蒸馏）的开源研究在视觉领域引发广泛关注。这项工作由卡耐基梅隆大学等单位提出的算法，在ImageNet-1K数据集上实现了ResNet-50模型的突破性性能，达到80.1%的精度，且训练速度相比传统框架节省了16%，比现有最优方法快30%。FKD算法框架......

阅读量：798 次

CVPR2023｜清华大学提出GAM：神经网络“一阶平滑优化器”，显著提升模型“泛化能力”...

神经网络收敛位置平滑性与模型泛化能力研究近年来，神经网络的收敛位置平滑性被证明与其泛化能力密切相关。清华大学崔鹏教授在CVPR2023Highlight论文中提出了一阶平滑性概念，并提出了GradientnormAwareMinimization(GAM)优化器，显著提升了模型的泛化能力。收敛位置平滑性与模型泛化大型神经网络在训练过程中对训练数据的拟合能力显著增强，但这并不意味着其在测试数据上的表......

阅读量：798 次

CVPR2023 Highlight | Side Adapter Network – 极致轻薄却性能强劲的开放词汇语义分割器...

识别并分割出任意类别的视觉元素是计算机视觉领域最具挑战性的问题之一。近期，来自华中科技大学和微软亚洲研究院的研究人员在CVPR2023Highlight中提出了一个全新的开放语义词汇语义分割架构—SideAdapterNetwork（SAN）。该架构能够赋予现有的VL预训练模型（如CLIP）进行开放词汇语义分割的能力，仅需8M额外的训练参数即可在多种数据集上大幅提升性能，同时实现15帧每秒的处理速......

阅读量：800 次

CVPR'24 超强轻量级Backbone：StarNet，替换其他骨干网络直接涨点！

星操作的重写与StarNet网络的设计与实现——一篇关于高效网络设计的深度探讨【引言】星操作（element-wisemultiplication）作为神经网络中的基本元素级操作，长期以来备受关注。然而，其在网络设计中的应用潜力仍未被充分挖掘。星操作不仅能够将输入映射到高维非线性特征空间，还展现出与传统核技巧相似的特性，但其背后的理论基础和实际应用仍存在诸多未解之谜。本文将围绕星操作的高效特性，提......

阅读量：800 次

网络通信(18)-C#TcpClient 和 TcpListener的使用实例

TcpListener服务器与TcpClient客户端在C#中的应用实例TcpListener和TcpClient是C#中用于网络通信的重要组成部分，广泛应用于需要实时数据传输或远程控制的场景。本文将详细介绍如何使用这些组件，以及它们的实际应用场景。###TcpListener服务器配置与使用TcpListener是用于监听TCP协议的服务器端组件，可以接收客户端的连接请求并处理数据传输。以下是创......

阅读量：803 次

CVPR 2025 | 计算机视觉基础模型学习到人类视觉系统的低级特征了吗？

论文信息题目：Docomputervisionfoundationmodelslearnthelow-levelcharacteristicsofthehumanvisualsystem?计算机视觉基础模型学习到人类视觉系统的低级特征了吗？作者：YanchengCai,FeiYin,DouniaHammou,RafalMantiuk论文创新点本研究通过设计全面的测试方案，对多种基础模型和生成模型的......

阅读量：801 次

CVPR 2025 | 突破注意力机制！vHeat：基于热传导的视觉表征模型

基于热传导的视觉表征模型vHeat中国科学院大学与鹏城国家实验室提出了一种全新的视觉表征模型vHeat，突破了传统视觉模型中attention机制的计算复杂度瓶颈。vHeat以物理学中的热传导原理为基础，将图片特征块视为"热源"，通过预测热传导率提取图像特征。与传统的attention机制相比，vHeat在计算复杂度（1.5次方）、全局感受野以及物理可解释性方面均有显著优势。v......

阅读量：801 次

CVPR 2025 | 学习型图像压缩中的平衡率失真优化

论文信息题目：BalancedRate-DistortionOptimizationinLearnedImageCompression学习型图像压缩中的平衡率失真优化作者：YichiZhang,ZhihaoDuan,YuningHuang,FengqingZhu论文创新点我们提出了一个创新性的平衡率失真（R-D）优化框架，将传统的单目标R-D优化转化为多目标优化（MOO）问题。通过这种方法，我们能......

阅读量：798 次

CVPR 2024 | 通过中值随机平滑实现真实世界超分辨率的通用鲁棒性

论文信息题目：UniversalRobustnessviaMedianRandomizedSmoothingforReal-WorldSuper-Resolution通过中值随机平滑实现真实世界超分辨率的通用鲁棒性作者：ZakariyaChaouai,MohamedTamaazousti论文创新点本文在超分辨率（SR）领域提出了多项创新贡献：1.**探索对抗攻击方法在SR中的应用**：首次将快速梯......

阅读量：798 次

CVPR 2024 | 视觉新突破！首个无自然语言的纯视觉大模型！

构建大型视觉模型（LVM）的探索：仅靠像素就能走多远？随着大型语言模型（LLM）的崛起，视觉模型的研究也备受关注。UC伯克利和约翰霍普金斯大学的研究者在一篇新论文中探讨了构建大型视觉模型所需的关键要素，展示了仅靠像素数据即可实现的强大潜力。研究概述研究者提出了一种基于视觉句子的统一模型框架，能够处理多种视觉任务。这一框架利用VQGAN生成视觉token，并将这些token连接成一维序列，类似于语言......

阅读量：798 次

CVPR 2024 | 结构的重要性：解决图像修复中扩散模型的语义差异问题

论文信息题目：StructureMatters:TacklingtheSemanticDiscrepancyinDiffusionModelsforImageInpainting结构的重要性：解决图像修复中扩散模型的语义差异问题作者：Liu,Y.,Zhang,X.,Wang,Z.,&Li,J.论文创新点提出了一种全新的结构引导纹理扩散模型(StrDiffusion)，通过引入稀疏结构作为辅......

阅读量：798 次

CVPR 2024 | 用于零样本学习的渐进式语义引导视觉Transformer

用于零样本学习的渐进式语义引导视觉Transformer论文信息题目：ProgressiveSemantic-GuidedVisionTransformerforZero-ShotLearning中文标题：用于零样本学习的渐进式语义引导视觉Transformer作者：ShimingChen,WenjinHou,SalmanKhan,FahadShahbazKhan<section>&l......

阅读量：798 次

CVPR 2024 | 用于基于事件目标检测的场景自适应稀疏Transformer

论文信息论文题目：SceneAdaptiveSparseTransformerforEvent-basedObjectDetection作者：彭延松、李贺碧、张悦亦、孙晓燕、吴峰GitHub地址：https://github.com/Peterande/SAST论文创新点本文提出了两大核心创新：窗口-token共稀疏化机制与场景自适应稀疏优化。窗口-token共稀疏化机制：通过引入评分模块与选择模......

阅读量：798 次

CVPR 2024 | 文本引导的变分图像生成用于工业异常检测与分割

文本引导的变分图像生成用于工业异常检测与分割MingyuLee,JongwonChoi论文创新点本文提出了一种基于文本信息的变分图像生成方法，旨在通过学习目标对象的文本信息，从大规模文本库中生成高质量的无缺陷数据图像。为解决工业图像数据中缺陷数据缺乏多样性的问题，本文开发了一种关键词到提示生成器，该生成器能够根据输入图像与文本信息的对比，自动生成最优提示词。此外，本文提出了一个基于方差感知的图像生......

阅读量：798 次