首页
社区
课程
招聘
[原创]遵循微软帮助文档写的提取Word97-2003文本源码
发表于: 2012-6-18 18:10 4470

[原创]遵循微软帮助文档写的提取Word97-2003文本源码

2012-6-18 18:10
4470

因为之前要提取各种文件格式的文本内容, 中途研究Office97-2003的文本提取, 参考了看雪上的一个帖子, 但是那个帖子所提供的源码很乱, 注释也甚少, 又参考了OSChina上的一个源码, 前面一大段写得还好, 思路很明了, 但是后面很长一段代码无法看懂, 例如这种问题:微软帮助文档已经说明了一些结构体的具体成员, 但是这个代码没有使用结构体, 而是直接操作二进制数组。还是老实参考微软提供的文档吧。 说实在的, 第一次看微软提供的文档, 会有一种凌乱的感觉, 但当你仔细阅读下来, 发现写得很详尽, 而且后面还附带有Example。 最后参考微软的文档, 将Word97-2003的文本提取写了出来, 置于其他格式还得研究, 而Office2007以后是一个zip压缩包, 文本可以从解压后的xml文件中提取。

附上一个参考链接:http://msdn.microsoft.com/zh-cn/library/dd904907.aspx

下面附上源码:
Office2Text.rar


[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!

上传的附件:
收藏
免费 6
支持
分享
最新回复 (0)
游客
登录 | 注册 方可回帖
返回
//