-
-
[原创]遵循微软帮助文档写的提取Word97-2003文本源码
-
发表于: 2012-6-18 18:10 4470
-
因为之前要提取各种文件格式的文本内容, 中途研究Office97-2003的文本提取, 参考了看雪上的一个帖子, 但是那个帖子所提供的源码很乱, 注释也甚少, 又参考了OSChina上的一个源码, 前面一大段写得还好, 思路很明了, 但是后面很长一段代码无法看懂, 例如这种问题:微软帮助文档已经说明了一些结构体的具体成员, 但是这个代码没有使用结构体, 而是直接操作二进制数组。还是老实参考微软提供的文档吧。 说实在的, 第一次看微软提供的文档, 会有一种凌乱的感觉, 但当你仔细阅读下来, 发现写得很详尽, 而且后面还附带有Example。 最后参考微软的文档, 将Word97-2003的文本提取写了出来, 置于其他格式还得研究, 而Office2007以后是一个zip压缩包, 文本可以从解压后的xml文件中提取。
附上一个参考链接:http://msdn.microsoft.com/zh-cn/library/dd904907.aspx
下面附上源码:
Office2Text.rar
[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!
赞赏记录
参与人
雪币
留言
时间
心游尘世外
为你点赞~
2024-5-31 01:53
QinBeast
为你点赞~
2024-5-31 01:44
伟叔叔
为你点赞~
2024-5-2 22:42
飘零丶
为你点赞~
2024-3-29 00:07
shinratensei
为你点赞~
2024-1-30 03:27
一笑人间万事
为你点赞~
2023-3-7 00:42
赞赏
他的文章
- [原创]遵循微软帮助文档写的提取Word97-2003文本源码 4471
- 求两个字符串数组取相同项插入新数组的最优算法 5196
- 检测特定软件的思路 5997
- 涉密计算机里面的线路边界检查是什么意思??? 5061
谁下载
zhangtaixi
asd
Supernal
xss
dico
hybrid
wujingyi
xicao
zxuqing
ozone
haohaook
coolwxd
adcoolice
bingobingo
pandaforum
hone
pengge
achillis
sytexboy
三秋叶
tiansxue
夜星海
pedex
wxpsafe
洪流
leeone
cdty
夕阳夕笑
baijianli
neoGFH
chhzh
达文西
MRHuang
jguoguo
zyqqyz
hezhang
GVU
光棍节
yzxdev
Kisesy
勾起
ailangzhou
南乙
labbs
yflx
forlovefor
ahuaHack
lionoil
吴氏小豆
矜持路人
uor
看原图
赞赏
雪币:
留言: