c/c++语言开发共享优化的CUDA矩阵汉明距离-计算机技术网

c/c++语言开发共享优化的CUDA矩阵汉明距离

2021年1月14日下午2:04 • C/C++开发 • 阅读 9

是否有人知道优化的CUDA内核用于计算尺寸为A x N和N x B的两个矩阵之间的GEMM样式汉明距离？问题几乎与GEMM相同，而是计算每个向量{1 … N}的和（a_n！= b_n），而不是对每个向量元素进行乘法和求和。

我想在编写自己的之前validation，因为这个问题比较常见，但我还没有成功找到它的代码。修改代码的建议也很好。

编辑：

除了下面的kangshiyin的建议之外，我发现这个优化的SGEMM实现的演绎对于理解CUDA C编程指南中基本共享内存矩阵乘法示例之外的步骤非常有帮助。

你是对的，你可以通过修改gemm()代码来编写你的内核。 CUDA示例有一个简单的gemm() ，但它太简单了。性能受共享内存访问的限制，在开普勒设备上仅提供约250 Gflops。为了获得更高的性能，您可能需要检查MAGMA中的gemm()代码。

这两篇论文还告诉你如何实现和调整gemm() 。

与具有FMA指令的硬件支持的gemm()用于快速乘法和加法操作不同，您所需的操作比较和添加可能需要更多指令，因此性能应该更低。考虑到gemm()的峰值性能在Kepler上约为3 Tflops。汉明距离矩阵计算可能会得到0.5~2个Tflops。

以上就是c/c++开发分享优化的CUDA矩阵汉明距离相关内容,想了解更多C/C++开发(异常处理)及C/C++游戏开发关注计算机技术网(www.ctvol.com)!)。

本文来自网络收集，不代表计算机技术网立场，如涉及侵权请联系管理员删除。

ctvol管理联系方式QQ:251552304

本文章地址：https://www.ctvol.com/c-cdevelopment/549819.html

c/c++语言开发共享优化的CUDA矩阵汉明距离