公版书收集方法

时间：2022-07-31 05:44:11 阅读：最新文章文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

公版书籍的收集方法详细介绍

互联网发展到现在，基本上已经实现了纸质媒介向平面媒介的过度，古今中外，凡是已经公开出版或发表过的书籍，基本上都已经更新发布到了互联网上，这其中自然包含公版书籍，公版书籍大都是比较古老的文字，有着极佳的阅读和参考价值，所以，这部分图书，在打造平面阅读平台之时，应该都是最先考虑的对象，在世界范围内，人类对于文字向数字化转变的工程很早就已经实施，并且在不断的进行着优化，最早开始于1971年的古腾堡工程，就是致力于文本著作的电子化、归档以及发布，它也是世界最早的数字图书馆，而谷歌也在2004年悄悄启动了数字图书馆的建设，并且成为了这一领域的老大哥，在谷歌数字图书馆里，公版图书已经达到了100万册以上，当然，这些公版图书来自全世界各地，在中国，2010年，盛大文学对外发布电子书战略，建立云中书城，形成了庞大的电子图书产业链条，2011年，云中书城又推出了“公版书计划”，推进数字阅读精品化。

以上的发展历程告诉我们，公版书籍早已盛行于网络，散布在各个角落，所以，对于Iread来讲，对于打造公版书籍平台来讲，我们在收集公版书籍资源的时候，网络，是我们首当其冲要寻找的，我们要做的，就是尽可能的想办法，从网络中提取这部分资源，以达到二次使用的目的，这部分资源省略了手工码字、输入的过程，也就减少了人员消耗，不仅能够为平台的初期建设铺平道路，而且能够在短时间内形成一定的资源量化。当然，要找寻公版书籍并不十分容易，首先，公版书籍没有一个明确的目录，抛开古书不谈，对于一本近代书，不好鉴定是否为公版；其次，互联网上虽然有着很多公版书籍资源，却也没有明确的标示出来，而且，并不能一键下载。所以，先期，我们只能最大化的去寻找和收集。

经过一天一夜的摸索和寻找，现将目前我已掌握的收集方法做一下详细介绍，供参考使用：

第一种方法：利用云中书城现有的公版书籍资源

刚才提到了，云中书城是第一个公开推出“公版书籍”的电子商家，所以，我们不妨利用这部分资源。

首先，打开云中书城“公版书”分类的链接：http://www.yuncheng.com/category/search?cate=%E5%9B%BE%E4%B9%A6&subcate=%E4%BC%A0%E7%BB%9F%E5%9B%BE%E4%B9%A6&level3=%E5%85%AC%E7%89%88%E4%B9%A6&level4=%E4%B8%AD%E6%96%87

在打开的页面左边，标记有中文和外文两种分类，其中中文公版书籍有347本，外文公版书籍有7843本。云中书城的电子书虽然是免费的，不过显示在网页上的是纯文本格式，章节、段落划分的并不十分清晰，更为吃惊的是，像《宋史》这本多达983万字的著作，竟然连个分页都没有，打开网页直接卡死，其他的凡是在100万字以上的著作，都是这个样子，密密麻麻的文字全在一个页面里，阅读体验可想而知。

那么，怎样利用这部分资源呢，可以用把书籍的页面文字复制到TXT文档中，编辑格式之后导入Iread软件里进行制作。英文公版书籍全部是英文原本，不带翻译。

第二种方法：利用“中国古籍全录”网站资源首先，打开此站链接：http://guji.artx.cn

然后就会看到整个页面里，均匀的，明确的标注着各类古籍文献或著作的分类，这个网站里基本上涵盖了中国古代所有的古籍文献，而且所有的资源都是免费阅读的，质量也是严

谨的，上乘的，打开每一本著作，在给出的页面中，明确的划分着各个章节和回目的标题，显而易见，一目了然，是不可多得的公版书籍资源。

这部分资源的利用，和云中书城的方法一样，也可以把页面文字复制到TXT文档中，编辑格式之后导入Iread软件里进行制作。

第三种方法：利用谷歌在线图书相比较以上两个资源站来讲，谷歌的优越性和技术含量自然是最高的，然而技术越先进，在免费获取上就越有限制和门槛，是需要研究一番的，所以，我把谷歌排在三种方法的最后。

首先，打开谷歌图书官网：http://books.google.com.hk/?hl=zh-CN&sourceid=cnhp 然后在打开的页面中，随便点击一本书，在弹出的页面右上角，会出现一个锯齿状的图标，点击锯齿图标右边的小三角号，会找到高级图书搜索，这一步很重要，因为谷歌的图书资源过于庞大，而且许多图书的阅读权限都不一样，所以必须通过搜索来缩小查找范围。需要说明的是，谷歌的在线图书，相当一部分都是扫描上去的，所以很多图书都有现成的PDF格式，但是，能够直接下载PDF到本地保存的却是需要寻找的，这部分图书并没有集中到一起。另外呢，谷歌还有很多在线图书是提供全文免费阅读的，但大部分都是只提供部分阅读的，对于能够全文阅读的这部分图书来说，却又不一定提供PDF直接下载。说到底，我们要针对谷歌的这两种形式的免费资源，谋划不同的利用方式。

先说第一种利用方式：点击高级搜索，在出现的搜索条件页面中，找到“搜索”一栏，选择“仅限google电子书”，往下，我们只需在“名称”和“作者”这两栏里任选其一，点击进行搜索即可，在搜索的结果页面，会给出相关书籍名单，这部分书籍都是可以直接下载PDF格式到本地的，怎么下载呢？仍然找到右上角的锯齿形图标，点击小三角，这时里面会出现“下载PDF”，点击，输入验证码，保存到本地即可。个人点评：此方法的短处是，这样搜索出来的书籍，页面内容大都不是文字，而是直接扫描上去的书籍图片，好处是，可以直接下载PDF文件，下载到本地以后，通过Iread转换精灵，很容易制作成电子书籍。

再说第二种利用方式：点击高级搜索，在出现的搜索条件页面中，找到“搜索”一栏，选择“仅限全书浏览”，往下，我们仍然只需要在“名称”和“作者”这两栏里任选其一，点击进行搜索即可，在搜索的结果页面，会给出相关书籍名单，这里面，都是可以免费阅读全文的书籍，但是是否能够下载PDF格式却是需要人工分辨的，也就是说，有的提供了PDF下载，有的没有提供，这需要我们点击锯齿形图标查看是否写有“下载PDF”字样。个人点评：此方法的短处是，搜索出来的结果并非全部可以利用，需要人工分辨，好处是，这部分书籍的页面都是文字形式，如果提供了FPD下载的，会节省很多时间，转换出来的效果也很好。

关于谷歌资源利用的进一步思考：

之所以把谷歌排在最后，不仅是因为资源提取过程相对繁琐，而且还因为谷歌虽然很多都是公版书籍，但是即使通过搜索功能，也不能直接搜索出这部分资源，只能是在我们自己掌握公版书籍的一些详细名单之后，再进行定向搜索。而且，谷歌所有的PDF文件页面里，都含有google的LOGO，虽然颜色很浅，但还是不尽如人意，不知道能否通过技术手段，对页面的LOGO进行批量抹除。

在阅读过程中，还发现这样一个细节，那就是谷歌所有的图书都提供了html转载代码，点击页面内容上方的超链接图标就会出现HTML代码，我将代码拿到DZ论坛帖中做了实验，试验贴链接：http://www.wuxialt.com/forum.php?mod=viewthread&tid=126&extra=page%3D1

打开这个帖子，我们会看到，整本书的电子版可以实现上下翻滚，而且这个界面里，除了页面右侧的浅色LOGO水印，没有其他的LOGO链接，于是，我在想，Iread软件里是否可以增加书籍制作页面嵌入Html代码，并且能够将页面自动分页的功能，如此一来，谷歌的

Html代码转载功能，倒是可以做一番文章。我对谷歌的定位是，用来搜索一些冷门公版资源。

以上三种方法是暂时摸索出来的，不管哪一种方法，都需要二次修改，区别只是改动的多与少的问题，希望能够带来一些启发，也希望能够有其他的更加便捷的方法出现。现在我觉得最重要的，是想办法通过出版社，总结出一份大概的公版书目录，这样再找起来就容易多了，能够免费下载PDF资源的论坛和网站有很多，有了目录，一切都好办。

让我们再努努力。

牛涵林

2012年9月6日星期四

本文来源：https://www.wddqw.com/doc/350f5d2f0722192e4536f624.html

相关文章：

正在阅读：

我的善行日记01-01

上一篇：互联网书城简章下一篇：[书香相伴莱芜书城新年读书会快乐阅读过大年]莱芜樊登读书会