基于深度哈希的大规模幼儿图书页面检索方法研究 幼儿图书配套的动画、游戏、增强现实应用等电子资源以图文并茂、形声并举的多媒体优势提升了纸质书本的表现力和感染力。然而,当前纸质图书与电子资源之间普遍缺乏自动化关联的机制,导致用户难于便捷、精确、快速地访问与图书内容对应的电子资源。本文将关联纸质图书与电子资源看作一个基于内容的图像检索问题,研究基于深度哈希网络的大规模幼儿图书页面检索方法,设计并实现百万级规模的图书页面检索系统,为用户提供一种“扫描即访问”的方式来精确定位与图书内容对应的电子资源。针对便捷、精确、即时响应三个目标,提出了“预处理”—“特征提取”—“哈希加速”的三步式图书页面检索框架,并从以下几个方面开展了研究:(1)图书页面图像预处理。为降低用户拍摄的图书页面图像中的背景和几何畸变对检索的不利影响,提出了一种由粗到精的无交互图像分割和几何畸变校正算法。首先利用图书页面与背景的颜色分布差异性,采用朴素贝叶斯方法对图书页面和背景像素进行分类,经聚类后确定图书页面的粗略位置;然后,利用图书的粗略位置初始化DenseCut图像分割算法,分割得到精确的图书页面区域;最后通过透视变换将图书页面区域校正为矩形,纠正几何畸变。实验结果表明,所提出的图书页面图像预处理方法可以有效降低背景和几何畸变对检索精度的不利影响,并且具有良好的实时性。(2)基于卷积神经网络的图书页面图像特征提取。由于图书页面中包含了异常丰富的视觉信息,图书页面检索精度高度依赖于海量的标注数据集。为此,提出了基于卷积神经网络的图书页面图像特征提取方法。首先,使用任务无关数据集(ImageNet)预训练卷积神经网络:然后,使用小规模的图书页面数据集精调网络,使得卷积神经网络的知识域从图像分类迁移到图书页面检索;最后提取卷积神经网络的中间层作为图书页面检索特征。实验结果表明,采用所提出方法提取的图像特征在百万级图书页面数据集上取得了优秀的检索精度,并且具有较大的特征压缩潜力。(3)基于深度哈希网络的图书页面检索加速。使用欧式距离度量两个卷积神经网络输出的高维浮点特征的相似度计算量较大,在大规模数据集上进行图书页面检索无法满足即时响应要求。因此,提出了一种基于深度哈希网络的检索加速方法。首先,利用切片层将高维特征向量均分为若干特征片段;接着,由映射层分别将各个特征片段转化为[0,1]单个浮点特征值;然后,利用阈值化层将映射层输出的浮点值转化为1比特哈希值(0或1),完成高维度浮点特征值到低维度哈希码的转换;最后,使用海明距离度量两个哈希码的相似度。实验结果表明,采用所提方法将特征向量转换为64比特哈希码后,遍历百万级数据集的距离度量运算耗时仅为0.33s。在以上研究的基础上,实现了一个大规模图书页面检索及电子资源关联系统。实验表明,该系统在一个规模为155万的图书页面数据集上取得的Top-1命中率为82.55%、Top-5命中率为88.67%,在单服务器(一片英伟达1080Ti GPU)上的检索速度为0.61秒/张。用户使用该系统以无约束方式对图书拍照即可精确定位并访问与图书内容对应的电子资源。 本文来源:https://www.wddqw.com/doc/e5ccd3651b37f111f18583d049649b6649d7092c.html