公版书收集方法

时间:2022-07-31 05:44:11 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
公版书籍的收集方法详细介绍



互联网发展到现在,基本上已经实现了纸质媒介向平面媒介的过度,古今中外,凡是已经公开出版或发表过的书籍,基本上都已经更新发布到了互联网上,这其中自然包含公版书籍,公版书籍大都是比较古老的文字,有着极佳的阅读和参考价值,所以,这部分图书,在打造平面阅读平台之时,应该都是最先考虑的对象,在世界范围内,人类对于文字向数字化转变的工程很早就已经实施,并且在不断的进行着优化,最早开始于1971年的古腾堡工程,就是致力于文本著作的电子化、归档以及发布,它也是世界最早的数字图书馆,而谷歌也在2004年悄悄启动了数字图书馆的建设,并且成为了这一领域的老大哥,在谷歌数字图书馆里,公版图书已经达到了100万册以上,当然,这些公版图书来自全世界各地,在中国,2010年,盛大文学对外发布电子书战略,建立云中书城,形成了庞大的电子图书产业链条,2011年,云中书城又推出了“公版书计划”,推进数字阅读精品化。

以上的发展历程告诉我们,公版书籍早已盛行于网络,散布在各个角落,所以,对于Iread来讲,对于打造公版书籍平台来讲,我们在收集公版书籍资源的时候,网络,是我们首当其冲要寻找的,我们要做的,就是尽可能的想办法,从网络中提取这部分资源,以达到二次使用的目的,这部分资源省略了手工码字、输入的过程,也就减少了人员消耗,不仅能够为平台的初期建设铺平道路,而且能够在短时间内形成一定的资源量化。当然,要找寻公版书籍并不十分容易,首先,公版书籍没有一个明确的目录,抛开古书不谈,对于一本近代书,不好鉴定是否为公版;其次,互联网上虽然有着很多公版书籍资源,却也没有明确的标示出来,而且,并不能一键下载。所以,先期,我们只能最大化的去寻找和收集。

经过一天一夜的摸索和寻找,现将目前我已掌握的收集方法做一下详细介绍,供参考使用:



第一种方法:利用云中书城现有的公版书籍资源

刚才提到了,云中书城是第一个公开推出“公版书籍”的电子商家,所以,我们不妨利用这部分资源。

http://www.yuncheng.com/category/search?cate=%E5%9B%BE%E4%B9%A6&subcate=%E4%BC%A0%E7%BB%9F%E5%9B%BE%E4%B9%A6&level3=%E5%85%AC%E7%89%88%E4%B9%A6&level4=%E4%B8%AD%E6%96%87



在打开的页面左边,标记有中文和外文两种分类,其中中文公版书籍有347本,外文公版书籍有7843本。云中书城的电子书虽然是免费的,不过显示在网页上的是纯文本格式,节、段落划分的并不十分清晰,更为吃惊的是,像《宋史》这本多达983万字的著作,竟然连个分页都没有,打开网页直接卡死,其他的凡是在100万字以上的著作,都是这个样子,密密麻麻的文字全在一个页面里,阅读体验可想而知。

那么,怎样利用这部分资源呢,可以用把书籍的页面文字复制到TXT文档中,编辑格式之后导入Iread软件里进行制作。英文公版书籍全部是英文原本,不带翻译。



第二种方法:利用“中国古籍全录”网站资源 首先,打开此站链接:http://guji.artx.cn

然后就会看到整个页面里,均匀的,明确的标注着各类古籍文献或著作的分类,这个网站里基本上涵盖了中国古代所有的古籍文献,而且所有的资源都是免费阅读的,质量也是严


谨的,上乘的,打开每一本著作,在给出的页面中,明确的划分着各个章节和回目的标题, 显而易见,一目了然,是不可多得的公版书籍资源。

这部分资源的利用,和云中书城的方法一样,也可以把页面文字复制到TXT文档中,编辑格式之后导入Iread软件里进行制作。



第三种方法:利用谷歌在线图书 相比较以上两个资源站来讲,谷歌的优越性和技术含量自然是最高的,然而技术越先进,在免费获取上就越有限制和门槛,是需要研究一番的,所以,我把谷歌排在三种方法的最后。

首先,打开谷歌图书官网:http://books.google.com.hk/?hl=zh-CN&sourceid=cnhp 然后在打开的页面中,随便点击一本书,在弹出的页面右上角,会出现一个锯齿状的图标,点击锯齿图标右边的小三角号,会找到高级图书搜索,这一步很重要,因为谷歌的图书资源过于庞大,而且许多图书的阅读权限都不一样,所以必须通过搜索来缩小查找范围。需要说明的是,谷歌的在线图书,相当一部分都是扫描上去的,所以很多图书都有现成的PDF格式,但是,能够直接下载PDF到本地保存的却是需要寻找的,这部分图书并没有集中到一起。另外呢,谷歌还有很多在线图书是提供全文免费阅读的,但大部分都是只提供部分阅读的,对于能够全文阅读的这部分图书来说,却又不一定提供PDF直接下载。说到底,我们要针对谷歌的这两种形式的免费资源,谋划不同的利用方式。

先说第一种利用方式:点击高级搜索,在出现的搜索条件页面中,找到“搜索”一栏,选择“仅限google电子书”,往下,我们只需在“名称”和“作者”这两栏里任选其一,点击进行搜索即可,在搜索的结果页面,会给出相关书籍名单,这部分书籍都是可以直接下载PDF格式到本地的,怎么下载呢?仍然找到右上角的锯齿形图标,点击小三角,这时里面会出现“下载PDF,点击,输入验证码,保存到本地即可。个人点评:此方法的短处是,这样搜索出来的书籍,页面内容大都不是文字,而是直接扫描上去的书籍图片,好处是,可以直接下载PDF文件,下载到本地以后,通过Iread转换精灵,很容易制作成电子书籍。

再说第二种利用方式:点击高级搜索,在出现的搜索条件页面中,找到“搜索”一栏,选择“仅限全书浏览”,往下,我们仍然只需要在“名称”和“作者”这两栏里任选其一,点击进行搜索即可,在搜索的结果页面,会给出相关书籍名单,这里面,都是可以免费阅读全文的书籍,但是是否能够下载PDF格式却是需要人工分辨的,也就是说,有的提供了PDF载,有的没有提供,这需要我们点击锯齿形图标查看是否写有“下载PDF”字样。个人点评:此方法的短处是,搜索出来的结果并非全部可以利用,需要人工分辨,好处是,这部分书籍的页面都是文字形式,如果提供了FPD下载的,会节省很多时间,转换出来的效果也很好。

关于谷歌资源利用的进一步思考:

之所以把谷歌排在最后,不仅是因为资源提取过程相对繁琐,而且还因为谷歌虽然很多都是公版书籍,但是即使通过搜索功能,也不能直接搜索出这部分资源,只能是在我们自己掌握公版书籍的一些详细名单之后,再进行定向搜索。而且,谷歌所有的PDF文件页面里,都含有googleLOGO,虽然颜色很浅,但还是不尽如人意,不知道能否通过技术手段,对页面的LOGO进行批量抹除。

在阅读过程中,还发现这样一个细节,那就是谷歌所有的图书都提供了html转载代码,点击页面内容上方的超链接图标就会出现HTML代码,我将代码拿到DZ论坛帖中做了实验,http://www.wuxialt.com/forum.php?mod=viewthread&tid=126&extra=page%3D1

打开这个帖子,我们会看到,整本书的电子版可以实现上下翻滚,而且这个界面里,除了页面右侧的浅色LOGO水印,没有其他的LOGO链接,于是,我在想,Iread软件里是否可以增加书籍制作页面嵌入Html代码,并且能够将页面自动分页的功能,如此一来,谷歌的


Html代码转载功能,倒是可以做一番文章。我对谷歌的定位是,用来搜索一些冷门公版资源。



以上三种方法是暂时摸索出来的,不管哪一种方法,都需要二次修改,区别只是改动的多与少的问题,希望能够带来一些启发,也希望能够有其他的更加便捷的方法出现。现在我觉得最重要的,是想办法通过出版社,总结出一份大概的公版书目录,这样再找起来就容易多了,能够免费下载PDF资源的论坛和网站有很多,有了目录,一切都好办。

让我们再努努力。

牛涵林

201296日星期四


本文来源:https://www.wddqw.com/doc/350f5d2f0722192e4536f624.html