和平社区

 找回密码
 注 册

QQ登录

只需一步,快速开始

楼主: 东山三

[分享] 《和平县志98版》文本 —— 文化

[复制链接]
发表于 2013-2-13 18:58:18 | 显示全部楼层
本帖最后由 香夭 于 2013-2-13 18:59 编辑

转换后的word档,请自行对照。
扫描的图片文档转换为word档,可编辑、检索.doc

发表于 2013-2-13 19:08:15 | 显示全部楼层
本帖最后由 香夭 于 2013-2-13 21:22 编辑

略为试用了此软件,挺不错,OCR识别率挺高,转换后的word档的排版格式有些不对,从新编辑排版即可,比一个字一个字的码强。
win8下试用有些问题--------win8企业版  64位
xp下试用没问题-----Windows XP pro with sp3 VOL 微软原版

评分

参与人数 1经验 +5 收起 理由
东山三 + 5 谢谢提供测试信息

查看全部评分

 楼主| 发表于 2013-2-13 19:20:31 | 显示全部楼层
本帖最后由 东山三 于 2013-2-13 19:21 编辑

谢谢您能用心找到“泰比”这个OCR软件。

看样例,“泰比”文本识别率是挺不错的。

因为经历过前边的人工一边看图片一边打字的低效率,我们也曾在网上搜索能较好从图片转换出文字的软件。目前我们使用的是微软的OneNote 2010试用版。从目前几篇的识别效果来看,也还是挺不错的。

如果我们现在不缺软件了,而是需要多个人来参与人工校对OCR软件转换出来的文本,您愿意参与吗(目前已经约转换好六篇)?
发表于 2013-2-13 21:21:57 | 显示全部楼层
过了年就要漂泊他乡,没时间。
发表于 2013-2-13 21:32:43 | 显示全部楼层
本帖最后由 香夭 于 2013-2-13 21:44 编辑
东山三 发表于 2013-2-13 19:20
谢谢您能用心找到“泰比”这个OCR软件。

看样例,“泰比”文本识别率是挺不错的。

直接将扫描的图片用ABBYY FineReader转的pdf文档一点错都没有,格式版式也一样,无须校对。扫描然后转档再保存为pdf格式即可。
转word档会有一些识别不出,版式也有些错位。需从新排版。
建议扫描后直接转换为pdf格式。一样可以编辑、检索。转档后还无须从新排版,校对。省时省力。一个人就可轻松完成。

个人觉得扫描后直接转pdf比转word要好很多。

用本坛原档扫描件转的pdf,一点错都没有,版式,格式和书本的一致,可检索,可编辑。跟看原书没什么区别,唯一的区别就是电子文档与纸质的区别。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注 册

x
 楼主| 发表于 2013-2-14 08:22:02 | 显示全部楼层
香夭 发表于 2013-2-13 21:21
过了年就要漂泊他乡,没时间。

在哪个地方发展?

挺可惜的,从回复来看,感觉您做事挺认真的,如来人工排版,那效果应该不错。
 楼主| 发表于 2013-2-14 08:29:19 | 显示全部楼层
香夭 发表于 2013-2-13 21:32
直接将扫描的图片用ABBYY FineReader转的pdf文档一点错都没有,格式版式也一样,无须校对。扫描然后转档再 ...

目前,个人认为坚持要直接“掏”出文字的原因是:可以用文字重新制作各人喜好的版本,如喜欢PDF的就制作成PDF;喜欢Word的就用Word版本……

PDF是在保留原有格式,图表,图片等有优势。但觉得《县志》多数时候是一种工具书,分节、分章编排成文字在网络上发布,会比PDF版本更好被搜索与收录。
发表于 2013-2-15 16:57:24 | 显示全部楼层
本帖最后由 香夭 于 2013-2-15 17:36 编辑
东山三 发表于 2013-2-14 08:29
目前,个人认为坚持要直接“掏”出文字的原因是:可以用文字重新制作各人喜好的版本,如喜欢PDF的就制作成 ...

目前,个人认为坚持要直接“掏”出文字的原因是:可以用文字重新制作各人喜好的版本,如喜欢PDF的就制作成PDF;喜欢Word的就用Word版本……
-----------
世上的人如此多,人的喜好亦是如此多而别样。
有人想要ppt档,你是不是也要弄一个ppt档出来?
有人想要Excel档,你是不是也要弄一个excel档出来?
有人想要纯文本的txt,你是不是也要弄一个txt文档出来?
有人说我想要漫画版的,你是不是也要弄个漫画版的出来?
有人说我没电脑想要DVD,你是不是也要刻DVD光盘?
....
...
.
多此一举。


PDF是在保留原有格式,图表,图片等有优势。但觉得《县志》多数时候是一种工具书,分节、分章编排成文字在网络上发布,会比PDF版本更好被搜索与收录......
-----------------------
这是和平县县志,不是书店里的畅销书。谁会看和平县的县志?除了和平人,只有撰写志书、历史学家、研究社会学搞社会研究等的一些相关领域的人才会看。再有一类就是用来收藏的,但是只有原版原书才有收藏价值。谁会拿word文档用来作收藏呢?
和平人又有多少会看和平县志?有百分之一不?和平图书馆里有没有县志可看?又有多少人会去借阅?你觉得网上会比现实中有更多人的搜索并查阅和平县志?那么坐在电脑前的又是什么人呢?还是前面的那句话“多此一举”。
真正搞学术研究的是不会拿网上的东西来作为主要参考依据的。因为网上的东西太容易被篡改。


PDF是在保留原有格式,图表,图片等有优势。但觉得《县志》多数时候是一种工具书,分节、分章编排成文字在网络上发布会比PDF版本更好被搜索与收录。......
-----------------------
既然你认为县志是工具书,那就先看看什么是工具书?
定义:把某一门类或各种门类的知识资料,按一定的编排方法汇集在一起,专供人们查阅、征引,以解决各种具体问题的一种特定类型的图书。如字典、词典、类书、索引、历史年表、年鉴、百科全书等。引:http://www.zdic.net/cd/ci/3/ZdicE5ZdicB7ZdicA575923.htm
再来看看什么是县志?
定义:记载一个县的历史、地理、风俗、人物、文教、物产等的专书。 引:http://www.zdic.net/cd/ci/7/ZdicE5Zdic8EZdicBF38258.htm  看清楚了,是专书不是工具书。
专书的定义:就某一专题而编写的著作。  引:http://www.zdic.net/cd/ci/4/ZdicE4ZdicB8Zdic93213779.htm

从县志的定义可以看出,县志本身就是一部按历史、地理、风俗、人物、文教、物产等分好章节的书。你却要再分章分节,还是多此一举。

现在的pdf阅读器都有某些控件支持在线搜索(得先上传至网上),国内外的浏览器大都支持pdf文件内容的搜索。所以你还又是多此一举。

真有心做的话,做一个可以编辑、检索的pdf文件放在网上提供下载就够了。你看看你吧,一本县志,却发了这么多的贴,差不多整个版面都是你发的关于同一个命题的帖子...浮夸!






 楼主| 发表于 2013-2-17 10:09:52 | 显示全部楼层
香夭 发表于 2013-2-15 16:57
目前,个人认为坚持要直接“掏”出文字的原因是:可以用文字重新制作各人喜好的版本,如喜欢PDF的就制作成 ...

香夭,您说得不错。

县志的PDF初版已经做好了(约42.2M),等社区管理员发布链接。

另,如果发帖粘文本,也不再开新帖。

谢谢指正。{:soso_e113:}
发表于 2014-7-2 11:15:15 | 显示全部楼层
谢谢,没想到有我表大伯父的资料和祖父战友的资料。非常感谢。
我亲大伯父的书法60,70年代曾经代表国家去日本参展,因打成地主仔和反革命后代,未署名。
您需要登录后才可以回帖 登录 | 注 册

本版积分规则

站点统计|小黑屋|手机版|Archiver|和平家园 ( 粤ICP备13078947号-1 )

GMT+8, 2024-4-26 21:49 , Processed in 0.018238 second(s), 16 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表