写CUDA到底难在哪?

2025-06-25 04:30:10

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
程序员的你,真的热爱编程吗?

程序员的你,真的热爱编程吗?

说说我自己吧。 22年初因为口罩两年再加上各种七七八八的问...

2025-06-26
你会从mac转向Windows吗?

你会从mac转向Windows吗?

自从苹果发布 M1芯片, 后去实体店上手玩了下, 当场直接决...

2025-06-26
一些大的单位为什么会自建DNS服务器?

一些大的单位为什么会自建DNS服务器?

首先,大部分非互联网企业的dns服务器的算力要求极低,低到什...

2025-06-26
独立开发者都使用了哪些技术栈?

独立开发者都使用了哪些技术栈?

iOS App上,用纯Swift,纯SwiftUI,纯客户端...

2025-06-26
有人说24GB和48GB内存容量是新一代电脑平台最均衡的方案,真的是这样吗?电脑内存应该如何选?

有人说24GB和48GB内存容量是新一代电脑平台最均衡的方案,真的是这样吗?电脑内存应该如何选?

微软在设计WINDOWS的时候必须要考虑到内存较小的普通用户...

2025-06-26