点击上方“Deephub Imba”,关注公众号,好文章不错过 !在深度学习落地过程中,有一个常见的误区:一旦推理速度不达标,大家的第一反应往往是拿着模型开到,比如:做剪枝、搞蒸馏、甚至牺牲精度换小模型。实际上生产环境中的 Python ...
开发者必须手工管理成千上万条线程的索引、内存布局和同步,仿佛一个交响乐指挥需要亲自调试每一件乐器的音准。这种复杂性将大多数开发者挡在门外,只有少数高性能计算专家才能驾驭。
机器之心报道机器之心编辑部几个小时前,NVIDIA CUDA Toolkit 13.1 正式发布,英伟达官方表示:「这是 20 年来最大的一次更新。」这个自 2006 年 CUDA 平台诞生以来规模最大、最全面的更新包括:NVIDIA CUDA Tile 的发布,这是英伟达基于 tile 的编程模型,可用于抽象化专用硬件,包括张量核心。Runtime API exposure of ...
今年,英伟达可谓是全力押注,明确表示要确保 Python 成为 CUDA 并行编程框架中的“一等公民”。 多年以来,英伟达为 GPU 开发的 CUDA 软件工具包始终缺少原生 Python 支持,现如今这种情况终于有所转变。在近期的 GTC 大会上,英伟达宣布其 CUDA 工具包将为 Python ...
2025 年12 月,NVIDIA 推出CUDA 13.1,此次更新被官方定位为“自2006 年CUDA 平台诞生以来最大、最全面的升级”。其核心亮点之一,是引入了新的编程模型CUDA Tile。这个变化,有可能不仅仅是一项技术迭代,而是标志着GPU 编程范式迈入一个新的阶段。
最多可支持 10000+ 个并发线程。 经过近 10 年的不懈努力,对计算机科学核心的深入研究,人们终于实现了一个梦想:在 GPU 上运行高级语言。 上周末,一种名为 Bend 的编程语言在开源社区引发了热烈的讨论,GitHub 的 Star 量已经超过了 8500。 作为一种大规模并行 ...
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。 而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小 ...
在中国举办的 2025 年 RISC-V 峰会上,Nvidia 宣布其 CUDA 软件平台将在 CPU 方面与 RISC-V 指令集架构(ISA)兼容。这一消息在 RISC-V 活动期间的一个演示中得到了证实 。这是在性能要求高的应用中启用基于 RISC-V ISA 的 CPU 的重要一步。 这项宣布表明,RISC-V 现在可以 ...
近日举办的2025 RISC-V中国峰会上,NVIDIA硬件工程副总裁Frans Sijstermans宣布,CUDA软件平台将支持RISC-V指令集架构处理器,为开源架构RISC-V开启进入数据中心与AI市场的大门。 据了解,过去x86与Arm架构在AI与HPC领域居于主导地位,主要原因就是和CUDA的高度整合。
科技圈近期劲爆消息接连不断:一边是经典情怀的重磅回归,雷蛇以限量1337台的布斯朗悍蛇20周年复刻鼠标,找回尘封20年之久的电竞记忆;一边是核心技术的颠覆性升级,NVIDIA ...