2020-12-31から1日間の記事一覧

CUDA SharedMemory

CUDAのSampleにimmaTensorCoreGemmというのがあり、CUDA 10から導入されたWarp Matrix Multiply and Accumulate (WMMA) APIを使ってuint8_tのGEMM演算を行っている。 github.com SharedMemoryのサイズが一定以上なら compute_gemm_imma という kernel を呼び…