CUDA主题的文章列表，还有CUDA的技术要点_第4页

运行CUDA实例时候出现的问题

问题一：>LINK:fatalerrorLNK1123: 转换到 COFF 期间失败:文件无效或损坏将项目——项目属性——配置属性——连接器——清单文件—&mdas...

代码星球 ·2020-04-06

cuda和显卡驱动版本

TensorFlow安装时需要cuda+对应的显卡驱动。这里给出英伟达官方的cuda和驱动的对应：地址在这里然后在这里可下载最新的显卡驱动（英伟达公版的驱动，程序员友好型）最后说一下我的TensorFlow的环境：1.13+cuda10.0+anaconda3.6+py3.6+vs2017&nb...

代码星球 ·2020-04-06

CUDA编程（二） CUDA初始化与核函数

CUDA初始化在上一次中已经说过了，CUDA成功安装之后，新建一个project还是十分简单的，直接在新建项目的时候选择NVIDIACUDA项目就能够了，我们先新建一个MyCudaTestproject。删掉自带的演示样例kernel.cu。然后新建项，新建一个CUDAC/C++File,我们首先看一下怎样初始化CUD...

代码星球 ·2020-04-06

【GPU加速系列】PyCUDA（一）：上手简单操作

PyCUDA可以通过Python访问NVIDIA的CUDA并行计算API。具体介绍和安装可以参考 PyCUDA官网文档和 pycudaPyPI。本文涵盖的内容有：通过PyCUDA查询GPU信息。NumPyarray和gpuarray之间的相互转换。使用gpuarray进行基本的运算。使用Elemen...

代码星球 ·2020-04-02

【CUDA学习】GPU硬件结构

GPU的硬件结构，也不是具体的硬件结构，就是与CUDA相关的几个概念：thread，block，grid，warp，sp，sm。sp:最基本的处理单元，streamingprocessor 最后具体的指令和任务都是在sp上处理的。GPU进行并行计算，也就是很多个sp同时做处理sm:多个sp加上其他的一些资源组...

代码星球 ·2020-03-29

【CUDA学习】全局存储器

全局存储器，即普通的显存，整个网格中的任意线程都能读写全局存储器的任意位置。存取延时为400-600clockcycles 非常容易成为性能瓶颈。访问显存时，读取和存储必须对齐，宽度为4Byte。如果没有正确的对齐，读写将被编译器拆分为多次操作，降低访存性能。多个half-warp的读写操作如果能够满足合并访...

代码星球 ·2020-03-29

【CUDA学习】共享存储器

下面简单介绍一些cuda中的共享存储器和全局存储器　共享存储器，sharedmemory，可以被同一块中的所有线程访问的可读写存储器，生存期是块的生命期。Tesla的每个SM拥有16KB共享存储器。在编程过程中，有静态的sharedmemory动态的sharedmemory静态的sharedmemory在程序中定义　　...

代码星球 ·2020-03-29

pycuda-一些计算函数

单通自定义表达式评估评估GPUArray实例上涉及的表达式可能有些低效，因为为每个中间结果创建了一个新的临时表。模块pycuda.elementwise 中的功能包含有助于生成内核的工具，这些内核在一次传递中评估一个或多个操作数上的多阶段表达式。class pycuda.elementwise.El...

开发笔记 ·2020-03-17