NVIDIA 的 cuEmbed 提升 GPU 嵌入查找性能
By: blockchain news|2025/05/16 05:15:04
分享
NVIDIA 推出了 cuEmbed,这是一个最先进的、仅头文件的 CUDA 库,旨在提升 NVIDIA GPU 上嵌入查找的效率。正如 NVIDIA 报道的那样,这一发展对那些使用推荐系统的人特别有利,因为嵌入操作可能消耗大量的计算资源。 理解嵌入查找 嵌入查找对于处理机器学习模型中的非数值数据至关重要。它们将分类数据转换为浮点数向量,从而能够将其整合到神经网络中。cuEmbed 优化的核心操作涉及根据输入索引检索并可能组合嵌入表中的向量,由于其不规则的内存访问模式,这个过程可能非常耗费资源。 用 cuEmbed 优化 GPU 性能 cuEmbed 通过实现超过峰值 HBM 内存带宽的吞吐率来应对内存密集型操作的挑战。这是通过各种优化技术实现的,如增加内存加载的数量和跨 GPU 线程合并内存访问。该库还利用缓存内存来容纳经常访问的行,从而减少内存系统压力。 实际的集成和使用 该库是开源的,允许开发人员自定义和扩展其功能。它可以无缝集成到使用 C++ 和 PyTorch 的项目中,为各种嵌入用例提供了一个多功能的解决方案。开发人员可以通过将 cuEmbed 作为子模块添加或通过 CMake 包管理器来将其包含在他们的项目中。 实际影响 cuEmbed 已在实际应用中展示了其有效性。例如,Pinterest 将 cuEmbed 集成到其基于 GPU 的推荐模型中,并报告训练吞吐量提高了 15-30%。这种性能提升强调了该库在显著增强机器学习工作负载方面的潜力。 结论 通过 cuEmbed,NVIDIA 提供了一个强大的工具来加速嵌入查找,这对于从推荐系统到图神经网络的多种应用至关重要。其开源性质邀请开发人员进一步创新,扩展其能力以满足机器学习领域的多样化需求。 nvidia cuembed gpu cuda
猜你喜欢

Matrixdock 2025:黄金代币化迈向主权级RWA的实践路径
黄金代币化,正在成为这一转变中最早接受现实检验的资产类型之一。

50美元到100万:如何用「钱包追踪」在Meme战场里活下来
我靠的不是某一笔交易的运气爆棚,而是重复捕捉可复制的市场规律。

Paradigm系项目Tempo上线测试网,值得交互吗?
现阶段的测试网已支持 EVM 基本功能,并上线了支付通道、稳定币 gas 机制以及去中心化交易组件。
当每个人都使用人工智能交易时,加密货币阿尔法在2026年将走向何方?
在2025年,人工智能交易已经成为默认交易,但阿尔法并没有消失 — — 它被拥挤所侵蚀,因为相似的数据、模型和战略导致交易者同步行动并失去优势。
真正的阿尔法已经转移到更难复制的层面,比如行为和链上数据、执行质量、风险管理和极端市场的人类判断,在这些层面,采取不同行动 — — 或者根本不采取行动 — — 比更好的预测更重要。

没有故事力,Web3将走不进辽阔之地
在 Web3 领域,讲故事的重要性,远超其他任何行业。
市场更新 — 十二月月30日
Brevis开放空投跟踪;趋势研究在一天之内增加了超过46,000ETH。

被拒500次之后,我开始做真正有人用的产品
速度、用户和分发,往往比“看起来很厉害的技术”更重要

美联储变局前夜:华尔街正为一场没有「鲍威尔」的利率之战未雨绸缪
特朗普即将提名下任美联储主席,并重申其降息要求,投资者正为迎接一个可能截然不同的央行做准备

6周3换审计师,特朗普加密公司Alt5 Sigma深陷财务危机
Alt5 Sigma 正面临财务报告混乱和潜在退市风险,六周内更换了三家审计机构,公司高管也在近期接连离职。

UNI销毁套利机会、Ondo代币化股票流动性争议,海外币圈今天在聊什么?
过去24小时里,老外最关心的是什么?

收益率86%?如何利用机器人在Polymarket上「躺赚」
这个市场的机会仍然远多于机器人的数量。

BlockBeats的2025:让1500万人见证比特币的新高
2025也许是加密货币行业的分水岭,也是BlockBeats数据创造历史的一年,全网的影响力迈上了新台阶。

质押「净流出」终结,以太坊能否迎来强势突围?
以太坊质押验证者在经历去杠杆与抛压后,正迎来资金回流与信心修复的拐点。

击穿斩杀线,年轻人为什么走向长期投机主义?
长期投机主义,将是未来一个世纪的主流社会经济主题。

12月29日市场关键情报,你错过了多少?
1.链上资金:本周19.4M美元流入Ethereum;123M美元流出Base
2.最大涨跌幅:$TOKEN、$BOB
3.Top新闻:Solana链上Meme币WhiteWhale近24小时涨幅达80%,十日内市值已上涨25倍

彭博社盘点:11笔关键交易,读懂2025年全球金融市场
从跨市场趋势到政策驱动的资产波动,其中藏着的市场规律与风险启示,对加密从业者同样值得参考,一同看清年度金融图景的全貌。

Lighter创始人最新回应发币进展,都说了些什么
代币、女巫、监管,你想知道的都在这里

美国顶流记者在Base发币,注意力完成了货币化闭环
全网刷屏、马斯克、万斯频繁互动。Nick Shirley从舆论风暴到链上变现,进行了一次现实世界流量直接金融化的现场演示
Matrixdock 2025:黄金代币化迈向主权级RWA的实践路径
黄金代币化,正在成为这一转变中最早接受现实检验的资产类型之一。
50美元到100万:如何用「钱包追踪」在Meme战场里活下来
我靠的不是某一笔交易的运气爆棚,而是重复捕捉可复制的市场规律。
Paradigm系项目Tempo上线测试网,值得交互吗?
现阶段的测试网已支持 EVM 基本功能,并上线了支付通道、稳定币 gas 机制以及去中心化交易组件。
当每个人都使用人工智能交易时,加密货币阿尔法在2026年将走向何方?
在2025年,人工智能交易已经成为默认交易,但阿尔法并没有消失 — — 它被拥挤所侵蚀,因为相似的数据、模型和战略导致交易者同步行动并失去优势。
真正的阿尔法已经转移到更难复制的层面,比如行为和链上数据、执行质量、风险管理和极端市场的人类判断,在这些层面,采取不同行动 — — 或者根本不采取行动 — — 比更好的预测更重要。
没有故事力,Web3将走不进辽阔之地
在 Web3 领域,讲故事的重要性,远超其他任何行业。
市场更新 — 十二月月30日
Brevis开放空投跟踪;趋势研究在一天之内增加了超过46,000ETH。