首页
社区
课程
招聘
[原创]脱离Office环境提取word中的数据
发表于: 2011-5-26 11:15 28223

[原创]脱离Office环境提取word中的数据

loudy 活跃值
10
2011-5-26 11:15
28223
收藏
免费 7
支持
分享
最新回复 (47)
雪    币: 90
活跃值: (25)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
26
这个还是有难度,谢谢lz
2011-7-3 15:59
0
雪    币: 202
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
27
haodongdong, xuexiyixia
2011-7-4 09:00
0
雪    币: 839
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
28
感谢楼主分享,下载学习学习!
2011-7-4 09:08
0
雪    币: 2548
活跃值: (970)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
29
感谢下载留名的各位了
2011-8-11 12:05
0
雪    币: 321
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
30
弄得我不留名都不好意思了。

顺便弱弱的问一下,能读加了密的么?
2011-8-11 14:01
0
雪    币: 2548
活跃值: (970)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
31
呵呵,不回也没事啊,对大家有帮助就行。
虽然没试过,想来应该没法读加密的,没研究过,不知道什么算法
2011-8-12 12:03
0
雪    币: 342
活跃值: (199)
能力值: ( LV7,RANK:100 )
在线值:
发帖
回帖
粉丝
32
挺不错的,就是代码风格不太好,遇到崩溃的问题几乎没法维护,大量的硬编码,奇怪的变量名。
2011-9-2 17:11
0
雪    币: 202
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
33
楼主很强大,金山公司应该有这些文件结构的全部东东,这样写软件就可以脱离OFFICE的环境了
2011-9-3 11:59
0
雪    币: 2548
活跃值: (970)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
34
呵呵,谢谢提醒,确实代码风格不好,时间一紧就忘了风格,也没调,除了我自己还真难看清除代码。。。以后是得注意才行。。。。
2011-9-6 21:08
0
雪    币: 2548
活跃值: (970)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
35
金山应该已经研究得非常透彻了,不像我这样小打小闹的,但是他们不会开源的,呵呵
2011-9-6 21:09
0
雪    币: 615
活跃值: (187)
能力值: ( LV9,RANK:140 )
在线值:
发帖
回帖
粉丝
36
这个dll有2个bug:
1.在分析doc文件的时候,调用完函数文件句柄没释放,导致程序没关闭的情况下其它程序无法访问生成的txt文件
2.在某些doc文件读取的时候异常,BOOL Analysis2003::GetTableSid()函数中,GetIt(IsOne, wordDirEntry->_EleName)的,wordDirEntry指针不为NULL,但是wordDirEntry->_EleName异常
2011-9-19 21:08
0
雪    币: 615
活跃值: (187)
能力值: ( LV9,RANK:140 )
在线值:
发帖
回帖
粉丝
37
pre2007.dll这个DLL文件解压完docx文件后好像不会释放内存,一个4 MB的docx文件解压后连带标签格式
生成的xml文件有一百多MB,反复调用pre2007.dll解压内存会耗尽~
2011-9-21 14:21
0
雪    币: 304
活跃值: (507)
能力值: ( LV3,RANK:30 )
在线值:
发帖
回帖
粉丝
38
这个是可以做成商业间谍软件的
嘿嘿嘿嘿嘿...
2011-9-23 00:47
0
雪    币: 56
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
39
不错,下来看看!
2011-9-23 09:42
0
雪    币: 2548
活跃值: (970)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
40
分析得很透彻,我主要是看一下word格式,别的没怎么注意,半成品,如果你有时间可以完善一下哈。。。
2011-9-25 22:04
0
雪    币: 2548
活跃值: (970)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
41
不用这么邪恶吧。。。。。
2011-9-25 22:08
0
雪    币: 377
活跃值: (25)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
GVU
42
楼主这代码阅读真让人头疼, 没注释, 变量名也奇怪, 什么xx什么yy的看不懂, 把office2007的文件解压到Windows的一个文件夹中去了, zip有解压到内存中的接口, 而且也不需要全部解压出来。 2007的倒是很容易解析。 2003的结构有点复杂, 主要是微软和甲骨文的文档都说得云里雾里的, 唯有看楼主的代码了, 首先先感谢楼主分享经验, 代码很难阅读, 我阅读了半天还是无法理解, 主要是目录链的分析, 不知道目录链是怎么解析出来的, 头疼。 如果楼主能看到, 能否给我解释一下, 先感谢了。
2011-12-12 09:54
0
雪    币: 494
活跃值: (15)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
43
好东西,搜藏了,楼主辛苦了。
2011-12-12 10:30
0
雪    币: 29
活跃值: (11)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
44
佩服。一直想好好分析一下MS Office系列文档的物理结构,可惜,没有太多时间。
2011-12-13 02:42
0
雪    币: 561
活跃值: (124)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
45
mark学习
2011-12-13 23:19
0
雪    币: 200
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
46
不错的 谢谢哦
2011-12-14 09:56
0
雪    币: 209
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
47
最近一直在看这方面的东西 正好楼主的东西可以回去试试
2011-12-14 22:29
0
雪    币: 377
活跃值: (25)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
GVU
48
虽然过去一段时间了, 可是我还是忍不住要说一下, 楼主的代码真是神级的代码, 我现在都内出血了。 楼主没有任何注释, 变量名也很奇怪, 硬编码很多, 不知道楼主能否提供一下你的参考资料, 我这里有OpenOffice的资料, 不过他上面只是说了一下复合文档的结构, 举例是Excel, 只说了一下扇区链、目录流等, 但是没有细说里面的数据是怎么组织的, 如何提取。 微软的公布了文档, 但是没在里面找到相关的有用信息, 大公司的文档就是让人头疼。 楼主能提供一下你当初的参考资料吗, 关于Office1997-2003的提取的, 我的邮箱是owhao@126.com, 先在这里谢谢了。
2011-12-22 11:14
0
游客
登录 | 注册 方可回帖
返回
//