2020-01-01から1年間の記事一覧
CUDAのSampleにimmaTensorCoreGemmというのがあり、CUDA 10から導入されたWarp Matrix Multiply and Accumulate (WMMA) APIを使ってuint8_tのGEMM演算を行っている。 github.com SharedMemoryのサイズが一定以上なら compute_gemm_imma という kernel を呼び…
developer.nvidia.com CUDA 11.1 からグローバルメモリからシェアードメモリにコピーする際に非同期コピーが使えるようになった。今までのやり方ではレジスタを経由していたようだ。ちょっとDSPのDMA転送っぽいけどglobalからsharedへの一方通行だったり多次…
前書き 久々にNVIDIAのCUDAを使う事になったので色々と使い方を調べて知識を更新する事にした。開発者向けの資料は https://docs.nvidia.com/cuda/index.html なおCUDAの初期版がリリースされたのが June 23, 2007; 13 years ago らしい。 NVIDIAのGPUと同じ…