[讨论]GPU vs CPU（TEA算法性能分析）-密码应用-看雪论坛-安全社区|非营利性质技术交流社区

[讨论]GPU vs CPU（TEA算法性能分析）

发表于: 2010-10-27 03:05 20280

[讨论]GPU vs CPU（TEA算法性能分析）

sethseth

2010-10-27 03:05

20280

刚刚开始接触GPU运算，搞了两天总算编出自己第一个并行计算的程序。看到很多基于GPU的高级加密算法相当感兴趣，但是对我来说那些算法还太高深了。所以我找了个轻量级的算法入手，以Tea加密算法为例，做了基于CPU和GPU两种框架的编码和运算性能比较。希望有兴趣的朋友一起讨论和改进两种算法，也算小小挑战一下GPU和CPU的极限吧。我会不定期的更新阶段成果，欢迎大家批评和指正。算法方面我是外行，GPU应用开发正在入门阶段。

代码暂时太乱，稍整理一下再放上来。先说一下我的开发测试平台。

硬件平台
CPU:Intel Pent(R)双核 T2370 1.73G*2
显卡:GeForce 8400M GS

软件平台
系统:Win7旗舰版 32bit
GPU开发框架:CUDA ToolKit v3.2
集成开始环境:VS2008 + CUDA_VS_Wizard_W32.2.0

测试程序
GPU程序 (TEA_CUDA)
CPU程序 (TEA_CPU)

---------------------------------------
性能比较
TEA_CUDA:
C:\Users\Seth>E:\Project\VC\TEA_CUDA\Release\TEA_CUDA.exe
GeForce 8400M GS
data len:20971520 ThreadCount:512
v_len:40960
Encrypt Time used: 0.28

TEA_CPU:
C:\Users\Seth>E:\Project\VC\TeaCPU\release\TeaCPU.exe
data len:20971520
CPU used time:0.807000
-----------------------------------------
结论：可以看出在千万字节级的数据处理上GPU是CPU的2倍以上。

不知道这个结论是否准确，明天我把整理好的代码p上来求验证。

|--------------------------------------------------------29/10/2010------------------------------------------------------------------------|

总算把思路整理清楚了，像各位大牛说的。GPU的效率应该远不止这样，选把代码传上来，只是能能GPU上把算法跑起来，称不上优化。有人帮忙测一下效果或提点建议就更好了。算法简单，只是我的程序可能写的有点小恶。我会慢慢改再加上注释的。

----------------------------------------------------------------
最新的性能比较(统计的数据依然很业余甚至不能确定正确性，各位推荐的资料我会慢慢看，谢谢大家的帮助)

C:\Users\Seth>E:\Project\VC\TEA_CUDA\Debug\TEA_CUDA.exe
Device:GeForce 8400M GS
data len:10485760 loopcount:80
encrypt time used: 0.0960(sec)
data Process rate: 104.1667(M/sec)

C:\Users\Seth>E:\Project\VC\TeaCPU\Release\TeaCPU.exe
data len:10485760
encrypt time used: 0.3960(sec)
data Process rate: 25.2525(M/sec)
-----------------------------------------------------------------

|--------------------------------------------------------5/11/2010------------------------------------------------------------------------|

优化方案:把密钥做为常量参数传入，不再为其分配全局内存。

----------------------------------------------------------------
一个小小的改动性能略有提升。

e:\Project\VC\TeaCPU\Release>E:\Project\VC\TEA_CUDA\Release\TEA_CUDA.exe
Device:GeForce 8400M GS
data len:10485760 loopcount:80
encrypt time used: 0.0800(sec)
data Process rate: 125.0000(M/sec)

e:\Project\VC\TeaCPU\Release>TeaCPU.exe
data len:10485760
encrypt time used: 0.3920(sec)
data Process rate: 25.5102(M/sec)

GPU对CPU性能比:(5:1)

-------------------------------------------------------------

登录后可查看完整内容

[培训]科锐软件逆向54期预科班、正式班开始火爆招生报名啦！！！

上传的附件：

TEA_CUDA.rar （5.11kb，126次下载）
TeaCPU.rar （3.21kb，75次下载）

收藏・7

免费・7

支持

最新回复 (14)
lixupeng 雪币： 559 活跃值： (371) 能力值： ( LV2，RANK：10 ) 在线值：发帖 31 回帖 1636 粉丝 1 关注私信	lixupeng 2 楼听说AMD要整合GPU CPU 等明年看看 2010-10-27 08:14 0
adomore 雪币： 189 活跃值： (11) 能力值： ( LV2，RANK：10 ) 在线值：发帖 12 回帖 481 粉丝 0 关注私信	adomore 3 楼 GPU浮点运算快这是肯定的！破解hash使用彩虹表不也是基于GPU运算的原理么？ 2010-10-27 11:03 0
madsys 雪币： 328 活跃值： (34) 能力值： ( LV2，RANK：10 ) 在线值：发帖 14 回帖 158 粉丝 0 关注私信	madsys 4 楼 [QUOTE=sethseth;879164]结论：可以看出在千万字节级的数据处理上GPU是CPU的2倍以上。 QUOTE] 继续优化，远远不止这个加速比 2010-10-27 17:13 0
madsys 雪币： 328 活跃值： (34) 能力值： ( LV2，RANK：10 ) 在线值：发帖 14 回帖 158 粉丝 0 关注私信	madsys 5 楼单纯彩虹表和GPU没有任何关系。彩虹表只是时空权衡的一种分支罢了，还有一些其他表，效率超过彩虹表。现在进行高速破解时，有时会利用彩虹表+GPU。算法都在优化中，但总感觉速度很慢，呵呵毕竟不是指数级的速度提升。 2010-10-27 17:15 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 6 楼请教一个很郁闷的问题用下面的函数 __global__ void encrypt1 (uint32_t* v, uint32_t* k ,clock_t* time) { clock_t start = clock(); time = clock() - start; } time的值应该非常小才对吧？可是为什么*time值会达到26ms呢谢谢 “Encrypt Time used: 26.00” 2010-10-27 23:41 0
kanghtta 雪币： 420 活跃值： (77) 能力值： ( LV13，RANK：500 ) 在线值：发帖 54 回帖 225 粉丝 3 关注私信	kanghtta 12 7 楼在任务可分的情况下，Gpu比Cpu快得多，优化要得到较大的性能提升，除了2.3 第5章的那些原则外，主要是在算法上，也可以编译出ptx asm 来看看，可能也会有些帮助。。性能分析的时候可以用下cuda里的那个excel文件，对初学者还是有一定的帮助的。。。 2010-10-28 13:33 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 8 楼非常感谢您说的excel是在哪个路径下呢 2010-10-29 01:41 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 9 楼嗯我觉得也是可是我的8400GS确实不强我想知道这样的平台理论上应该能达到什么样的速率这个结果是怎么推导出来的呢非常感谢 2010-10-29 01:44 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 10 楼 TEA好像没有用到浮点运算是不是我用的方法有问题？能给个例子吗？谢谢 2010-10-29 01:45 0
kanghtta 雪币： 420 活跃值： (77) 能力值： ( LV13，RANK：500 ) 在线值：发帖 54 回帖 225 粉丝 3 关注私信	kanghtta 12 11 楼你在sdk下的目录找下，那个表主要是用来设计 grid 和block 的维度，以便保证在每个SM中有足够多的active warp ，2.3以上的文档有专门讲优化的pdf，首先掌握基本的优化方法，host－device的通讯优化，访存优化，然后在做指令流的优化，指令优化大部分就是算法优化了 2010-10-29 12:46 0
snowshow 雪币： 202 活跃值： (11) 能力值： ( LV2，RANK：10 ) 在线值：发帖 0 回帖 59 粉丝 0 关注私信	snowshow 12 楼技术贴，留名 2010-11-16 22:23 0
madsys 雪币： 328 活跃值： (34) 能力值： ( LV2，RANK：10 ) 在线值：发帖 14 回帖 158 粉丝 0 关注私信	madsys 13 楼我在9800GT上测了一下： data Process rate: 666.6667(M/sec) block：64 thread：512 按sm比例来说，差不多。如果上590GTX，估计就很NB了。 2011-3-3 16:36 0
tashika 雪币： 497 活跃值： (78) 能力值： ( LV3，RANK：25 ) 在线值：发帖 17 回帖 170 粉丝 0 关注私信	tashika 14 楼由于数据长度不一样所以会有拖累不然提升1k倍是没问题的 2012-3-23 20:48 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 15 楼你好数据长度不一样是指的什么能详细说说么谢啦 2012-4-7 03:13 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

sethseth

发帖

回帖

RANK

关注

私信

他的文章

关于我们

联系我们

企业服务

看雪公众号

最新回复 (14)
lixupeng 雪币： 559 活跃值： (371) 能力值： ( LV2，RANK：10 ) 在线值：发帖 31 回帖 1636 粉丝 1 关注私信	lixupeng 2 楼听说AMD要整合GPU CPU 等明年看看 2010-10-27 08:14 0
adomore 雪币： 189 活跃值： (11) 能力值： ( LV2，RANK：10 ) 在线值：发帖 12 回帖 481 粉丝 0 关注私信	adomore 3 楼 GPU浮点运算快这是肯定的！破解hash使用彩虹表不也是基于GPU运算的原理么？ 2010-10-27 11:03 0
madsys 雪币： 328 活跃值： (34) 能力值： ( LV2，RANK：10 ) 在线值：发帖 14 回帖 158 粉丝 0 关注私信	madsys 4 楼 [QUOTE=sethseth;879164]结论：可以看出在千万字节级的数据处理上GPU是CPU的2倍以上。 QUOTE] 继续优化，远远不止这个加速比 2010-10-27 17:13 0
madsys 雪币： 328 活跃值： (34) 能力值： ( LV2，RANK：10 ) 在线值：发帖 14 回帖 158 粉丝 0 关注私信	madsys 5 楼单纯彩虹表和GPU没有任何关系。彩虹表只是时空权衡的一种分支罢了，还有一些其他表，效率超过彩虹表。现在进行高速破解时，有时会利用彩虹表+GPU。算法都在优化中，但总感觉速度很慢，呵呵毕竟不是指数级的速度提升。 2010-10-27 17:15 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 6 楼请教一个很郁闷的问题用下面的函数 __global__ void encrypt1 (uint32_t* v, uint32_t* k ,clock_t* time) { clock_t start = clock(); time = clock() - start; } time的值应该非常小才对吧？可是为什么*time值会达到26ms呢谢谢 “Encrypt Time used: 26.00” 2010-10-27 23:41 0
kanghtta 雪币： 420 活跃值： (77) 能力值： ( LV13，RANK：500 ) 在线值：发帖 54 回帖 225 粉丝 3 关注私信	kanghtta 12 7 楼在任务可分的情况下，Gpu比Cpu快得多，优化要得到较大的性能提升，除了2.3 第5章的那些原则外，主要是在算法上，也可以编译出ptx asm 来看看，可能也会有些帮助。。性能分析的时候可以用下cuda里的那个excel文件，对初学者还是有一定的帮助的。。。 2010-10-28 13:33 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 8 楼非常感谢您说的excel是在哪个路径下呢 2010-10-29 01:41 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 9 楼嗯我觉得也是可是我的8400GS确实不强我想知道这样的平台理论上应该能达到什么样的速率这个结果是怎么推导出来的呢非常感谢 2010-10-29 01:44 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 10 楼 TEA好像没有用到浮点运算是不是我用的方法有问题？能给个例子吗？谢谢 2010-10-29 01:45 0
kanghtta 雪币： 420 活跃值： (77) 能力值： ( LV13，RANK：500 ) 在线值：发帖 54 回帖 225 粉丝 3 关注私信	kanghtta 12 11 楼你在sdk下的目录找下，那个表主要是用来设计 grid 和block 的维度，以便保证在每个SM中有足够多的active warp ，2.3以上的文档有专门讲优化的pdf，首先掌握基本的优化方法，host－device的通讯优化，访存优化，然后在做指令流的优化，指令优化大部分就是算法优化了 2010-10-29 12:46 0
snowshow 雪币： 202 活跃值： (11) 能力值： ( LV2，RANK：10 ) 在线值：发帖 0 回帖 59 粉丝 0 关注私信	snowshow 12 楼技术贴，留名 2010-11-16 22:23 0
madsys 雪币： 328 活跃值： (34) 能力值： ( LV2，RANK：10 ) 在线值：发帖 14 回帖 158 粉丝 0 关注私信	madsys 13 楼我在9800GT上测了一下： data Process rate: 666.6667(M/sec) block：64 thread：512 按sm比例来说，差不多。如果上590GTX，估计就很NB了。 2011-3-3 16:36 0
tashika 雪币： 497 活跃值： (78) 能力值： ( LV3，RANK：25 ) 在线值：发帖 17 回帖 170 粉丝 0 关注私信	tashika 14 楼由于数据长度不一样所以会有拖累不然提升1k倍是没问题的 2012-3-23 20:48 0
sethseth 雪币： 116 活跃值： (41) 能力值： ( LV3，RANK：20 ) 在线值：发帖 4 回帖 49 粉丝 1 关注私信	sethseth 15 楼你好数据长度不一样是指的什么能详细说说么谢啦 2012-4-7 03:13 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复