c/c++语言开发共享有一个标准的,跨步的memcpy版本?

我有一个列向量A,长度为10个元素。 我有一个矩阵B,它是10乘10.B的内存存储是列专业。 我想用列向量A覆盖B中的第一

显然,我可以这样做:

for ( int i=0; i < 10; i++ ) { B[0 + 10 * i] = A[i]; } 

我在0 + 10 * i留下了零,以突出显示B使用列主存储(零是行索引)。

在今晚CUDA-land的一些诡计之后,我想到可能有一个CPUfunction来执行一个跨步的memcpy? 我想在低级别,性能将取决于是否存在一个跨步加载/存储指令,我不记得在x86汇编中?

    简短的回答:你写的代码和它的代码一样快。

    答案很长: memcpy函数是使用一些复杂的内在函数或汇编编写的,因为它在具有任意大小和对齐的内存操作数上运行。 如果你要覆盖矩阵的一列,那么你的操作数将具有自然对齐,你不需要采用相同的技巧来获得合适的速度。

      以上就是c/c++开发分享有一个标准的,跨步的memcpy版本?相关内容,想了解更多C/C++开发(异常处理)及C/C++游戏开发关注计算机技术网(www.ctvol.com)!)。

      本文来自网络收集,不代表计算机技术网立场,如涉及侵权请联系管理员删除。

      ctvol管理联系方式QQ:251552304

      本文章地址:https://www.ctvol.com/c-cdevelopment/549213.html

      (0)
      上一篇 2021年1月13日
      下一篇 2021年1月13日

      精彩推荐