CUDA SharedMemory

CUDAのSampleにimmaTensorCoreGemmというのがあり、CUDA 10から導入されたWarp Matrix Multiply and Accumulate (WMMA) APIを使ってuint8_tのGEMM演算を行っている。 github.com SharedMemoryのサイズが一定以上なら compute_gemm_imma という kernel を呼び…

2020-12-30

CUDA 非同期コピー

developer.nvidia.com CUDA 11.1 からグローバルメモリからシェアードメモリにコピーする際に非同期コピーが使えるようになった。今までのやり方ではレジスタを経由していたようだ。ちょっとDSPのDMA転送っぽいけどglobalからsharedへの一方通行だったり多次…

#CUDA

2020-12-30

CUDA

前書き久々にNVIDIAのCUDAを使う事になったので色々と使い方を調べて知識を更新する事にした。開発者向けの資料は https://docs.nvidia.com/cuda/index.html なおCUDAの初期版がリリースされたのが June 23, 2007; 13 years ago らしい。 NVIDIAのGPUと同じ…

#CUDA

berupon’s diary

2020-01-01から1年間の記事一覧

CUDA SharedMemory

CUDA 非同期コピー

CUDA