以下是小编帮大家整理的数据挖掘在数字图书馆中的应用研究,本文共9篇,欢迎大家分享。

篇1:数据挖掘在数字图书馆中的应用研究
文本数据挖掘在数字图书馆中的应用研究
文本数据挖掘在数字图书馆中的应用进行探索研究,重点对数字图书馆文本分类的'构建与实现进行研究,并将开方拟合检验方法、KNN分类算法等经典理论应用到数字图书馆文本分类模型中,以提高数字图书馆检索能力以及检索准确性.
作 者:叶福军 作者单位:浙江传媒学院动画系,浙江,杭州,310018 刊 名:硅谷 英文刊名:SILICON VALLEY 年,卷(期): “”(7) 分类号:G25 关键词:文本数据挖掘 数字图书馆 文本分类篇2:基于数据挖掘的数字图书馆个性化服务
基于数据挖掘的数字图书馆个性化服务
随着网络用户群的日益增长,更多的`用户期望能得到具有针时性的、个性化的信息服务和用户支持.数据挖掘技术因其在海量信息资源中的智能表现,为数字图书馆的个性化服务建设提供不可或缺的技术支撑.
作 者:骆颖 作者单位:重庆三峡学院图书馆,重庆,404000 刊 名:黑龙江科技信息 英文刊名:HEILONGJIANG SCIENCE AND TECHNOLOGY INFORMATION 年,卷(期):2009 “”(5) 分类号:G25 关键词:数据挖掘 数字图书馆 个性化服务篇3:数字挖掘方法在遥感分类中的应用研究
数字挖掘方法在遥感分类中的应用研究
随着空间信息领域技术的提高,利用卫星遥感数据获取地表信息的数据量也飞速的增长,快速有效地在海量遥感数据源中获取感兴趣的地表信息成为一项重要的研究方向.数据挖掘方法具有从海量数据集中提取隐含其中信息的功能,使得数据挖掘方法在遥感图像分类和专题信息提取中具有较好的应用,但不同的数据挖掘算法具有各自的'独特性,使得在遥感分类中使用数据挖掘方法并不容易,本文通过介绍几种常用的数据挖掘算法,分析和探讨了这些方法在遥感分类应用中的优势和局限性,为在遥感分类中更好的、有针对性的选择数据挖掘算法提供借鉴.
作 者:赵勇 刘凯 ZHAO Yong LIU Kai 作者单位:赵勇,ZHAO Yong(天津测绘院,天津,300381)刘凯,LIU Kai(广州地理研究所,广东广州,510070)
刊 名:北京测绘 英文刊名:BEIJING SURVEYING AND MAPPING 年,卷(期): “”(3) 分类号:P237 关键词:数据挖掘 神经网络 决策树 支持向量机 粗糙集篇4:基于数据挖掘的数字图书馆检索技术研究论文
摘 要:现如今,数字图书馆在国内外引起了广泛的关注,成为图书馆领域的研究热点。本文先对数字图书馆的概念、组成和作用进行概述,然后从数字图书馆的检索技术方面对数据挖掘的概念、主要方式和常用的技术方法进行详细论述,并具体分析了数据挖掘在数字图书馆的检索技术领域中发挥的作用,得出数据挖掘在未来的图书馆发展中具有非常可观的应用前景的结论。
关键词:数据挖掘 数字图书馆 应用前景 检索技术
1 数字图书馆
1.1 概念解析
作为高新技术下的产物,数字图书馆的研究不仅在科学技术领域突飞猛进,而且也为人类的社会事业做出了突出贡献。不同于现实中的图书馆,数字图书馆是虚拟的,它将分散的各种信息资源以数字化的形式存储,以网络化的方式实现互联,以此提供及时的信息,实现资源共享。它是以网络环境为基础的可共享的可扩展的网络知识系统,是一种能方便快捷地为用户提供数字化信息资源的高水平服务机制,也是面向未来互联网发展的信息管理模式。只有深入理解数据挖掘技术,才能不断促进数字图书馆检索技术的发展,从而充分发挥出数字图书馆在图书馆领域的重要作用。
1.2 组成及作用
数字图书馆包括能够服务于广域网的网络设备和通信条件,还有一整套用于信息的管理维护和用户服务的软件系统,这个软件系统可以划分为5个模块:权限管理模块、获取与创建模块、存储与管理模块、访问与查询模块以及动态发布模块。
数字图书馆是在传统图书馆的基础上发展而来,既包含了传统图书馆中的功能,还融合了档案馆、博物馆等中的功能,可以为公众提供综合信息的访问服务,在社会文化、电子政务、大众媒介等公众信息传播中广泛应用。
篇5:基于数据挖掘的数字图书馆检索技术研究论文
数据挖掘在具体的数字图书馆检索中的概念指的是,在没有给出明确假设的前提下对图书信息资源进行挖掘,也可以理解为在大量的图书统计数据中对内在规律和特点进行分析,这里的挖掘对象可能是不同类型,不同物理服务器上的数据库。现在市场上已经出现了很多“数据挖掘系统”,但大多数只能称的上是机器学习系统或是实验系统原型,因为这些系统更多地是进行数据检索,并不能真正地处理大量数据,实现数据挖掘。真正的数据挖掘既涉及多种学科技术的集成,又包涵数据库技术、统计学、高性能计算、数据可视化、信息检索、模式识别等领域。借助数据挖掘,数字图书馆用户可以从数据库中及时准确地检索到自己所需的信息资料。所以,数据挖掘技术处在数据库系统的前沿,在信息技术领域里拥有非常光明的发展前途。
随着数据库系统在图书馆领域的广泛应用,系统中的数据,特别是全球存储的数据快速增长。然而,调查结果显示如此海量的数据无法都被有效利用。如果能在数据海洋中抽取出有效的信息,将会大大提高信息的.利用率,创造更大的实用价值,而这恰恰是产生数据挖掘技术的原因。
总而言之,数据挖掘就是从大量的、模糊的、不全面的、随机的数据中提取出隐含在其中的、潜在的、有用的信息资源,把数据应用从一般的简单查询提升到挖掘数据知识的高度,提高信息的利用率。
篇6:基于数据挖掘的数字图书馆检索技术研究论文
3.1 数据挖掘的主要实现方式
数字图书馆检索技术中的数据挖掘的主要实现方式可以简单地分为两种,即直接数据挖掘和间接数据挖掘。直接数据挖掘是在可用的数据资源的基础上创建一个模型,根据此模型对剩余的数据和数据库中表的属性进行描述。间接数据挖掘是利用所有的变量建立某种关系,而不再是选出具体的变量对其建立模型描述。
3.2 数据挖掘的常用技术
目前,数字图书馆检索技术中的数据挖掘的常用技术可以分为以下几类。
3.2.1 传统统计分析
传统统计分析技术使用了很多分析方法,如相关分析、回归分析等,大多数情况下,这种技术是由系统对数字图书馆用户提出的假设进行验证。
3.2.2 传统主观导向系统
传统主观导向系统技术要有经验模型,在专业领域中的应用较为广泛。它主要是运用从简单的走向分析到以高等数理知识为基础的分析方法。
3.2.3 决策树
决策树相对来说是一种简单的表示方法,这种技术的思路在于根据分类规则将事例层层归类成不同的类别。由于其分类规则易于理解,在数字图书方面较能被用户所接受。
3.2.4 神经元网络技术
神经元网络技术作为计算机领域中的重要方法之一,已经在各个工业部门广泛应用。它是模拟人的脑神经学习的技术,在数字图书馆领域,利用这种技术可以有效解决从模糊数据导出概念和确定走向中出现的复杂问题。
3.2.5 基于事例的推理方法
基于事例的推理方法关键在于系统会根据当前的情形,从已有的相似事例中筛选出一个最佳的解决方案。在数字图书馆中,这种技术可以用于很多问题的求解,特别是那些在一般情况下难以处理的疑难问题,采用此技术往往会得到比较不错的解决效果。
篇7:数字图书馆中大数据存储的应用研究论文
图书馆、阅览室的数据存储系统与其他行业的存储系统有较大不同,主要表现在:①数据量庞大。一座大型图书馆每年的数据增量可达10TB以上;②存储周期长。图书馆数据需要较长的存储时间,甚至可达50年以上;③数据类型多样。现代图书具有影像、图像、文字、声音等数据,均需要存储;④高度的可靠性和安全性要求。作为一所信息化程度较高的图书馆,为了构建一个满足业务需要的高效数据存储系统,可以利用数据压缩、重复数据删除、自动精简配置、自动分层存储等现代数据存储技术,对大数据进行高效的存储和管理。
一、数字图书馆大数据存储容量不足的问题
现代图书馆是一个十分复杂的机构,完备的图书馆除了具有对借阅人员信息、图书还借与出人信息、图书设备信息等硬数据进行管理外,数据量最大最复杂的当属对图书资料本身的软数据管理以及现代电子图书资料的储存与管理,特别是大型图书馆或高校图书馆,门类齐全、借阅量大、内容及设备多样,更使得它所产生的数据结构复杂且数据增量大。
图书馆的数据量随时间线性增长,随着各种类型的数字化图书及设备越来越多,信息化程度的不断加强,对图书及读者管理规范程度的不断提高,以及读者对资源要求的不断加深,致使数据容量加速增长。
当前大型图书馆每年的数据增量大约为20~30TB,如此浩大的数据量,对于一个拥有100TB存储容量的图书馆一也只能满足3一5年的`数据存储需要,因此需要采取有效的应对措施予以解决。
日前,许多高校图书馆的存储设备容量利用率不到50%,大有潜力可挖。在图书馆实际管理工作中,在缺乏技术的情况下,经常采取整理碎片的技术来提高存储空间利用率和数据查询效率,这对于一般性的小容量操作是可行的,但对于大型数据系统其耗费的时间是难以估计的。况且,碎片的整理并不能有效消除分配卷中未使用的空间,达不到精简配置的目的。
二、数字图书馆大数据存储容量不足的应对
措施日前许多图书馆采取的办法是由被购买了电子图书的商家作数据备份,这显然不是最有效的数据存储机制。为了大幅度提高数据存储效率,最有效的办法是采用数据压缩技术和重复数据删除技术。
1、利用压缩技术提高空间利用率
对于书籍等图书资料文件,其文件内和文件间存在大量的相似性关系,Delta压缩技术则可以对文件内和文件间的数据进行比较,删除文件内和文件间的冗余数据,达到数据压缩的日的,相似程度越高,压缩比越小。
2、利用消重技术提高空间利用率
图书馆数据在存储过程中往往有大量的备份数据,数据经过多次备份后,产生较多的数据重复,重复数据删除技术在备份过程中能够较好地消除重复数据,进而节约空间。对于重复数据备份,可以分为时间数据消重和空间数据消重。对于电子书籍等产生的数据一般属于自然数据,其主要特点是,数据的变化率较低、完备的数据备份、数据长期保存、数据内容可以感知等,因此,适合采用时间数据消重。因此,就本校图书馆的数据整理,大约每三个月进行一次。
图书馆数据量庞大,仅仅一所5000人规模学校的中型图书馆,其电子图书数据量就可达到15TB以上。因此,不能简单采用与中小备份类似的解决方案,由于存在大量的图形文件及影像文件等,其海量数据备份是一个非常耗时的过程,在热备份情况下,可能需要花费近一个月时间。最佳实践做法是,采用备份设施来拷贝数据并同时保证应用程序仍然可以让客户端使用。重要数据的备份可以使用有冗余级别配置的主机或硬盘RAID。两个独立硬件控制的RAID阵列的软件镜像可以用来备份其关键数据。这种技术可以保证当某个磁盘或阵列发生故障时整个系统仍然可以使用,任何网络组件的故障,如网卡、视频设备、IDE控制器、电源等可以容易地替换而不影响运行。最经济且非常有效的数据备份方案可以采取冗余技术RAID4,即若干个数据盘带一个冗余盘,在这些盘中的相应块内,存储的相应位的1的个数必须是偶数个。当某一个数据盘发生故障而更换了新盘后,只要按照偶数个1的原则就可以将损坏了的数据恢复到新盘中。
在实际操作中,可以有多种备份方案,通常采用停机备份:正常关闭待操作数据,进行数据的冷备份。备份所有数据文件、控制文件、日志文件和参数文件,把冷备份拷贝到新存储设备上,然后新建一个同名实例,最后再把备份数据文件重新打开即可。
3、提高存储空间的利用率
对于某项应用,传统空间分配方案采用完全供给,以确保该应用拥有足够的增长空间,这势必造成大量的存储空间闲置,在空间浪费的同时也造成了能源损失。采用自动精简配置是一种较新的存储空间管理技术。利用自动精简配置技术,能够帮助用户在不降低性能的情况下,大幅度提高存储空间利用效率,能使用户实现接近100%的存储空间利用率,因为数据需要多少空间系统则按需要进行分配,基本不产生多余的空间。自动精简配置技术的一个明显的优势在于可自动扩展分配卷,无须手动扩展,而且当需求变化时,无需更改存储容量设置;通过虚拟化技术集成存储,减少超量配置,降低总功耗。这也是解决机房耗能问题的很有效的方法。
三、总结
总的来说,对于数字图书馆大数据的存储和管理都十分关键,有效地存储和管理大数据是现代图书馆信息化管理的必要基础,良好的数据管理技术能够为图书馆管理工作的顺利开展提供保障。所以,加强大数据存储工作的管理,是未来数字图书馆发展的重要保证。
参考文献
[1]彭磊.建立SAN(存储局域网)——高校图书馆数据存
篇8:数据挖掘技术在企业决策系统中的应用研究
数据挖掘技术在企业决策系统中的应用研究
本文首先讨论了数据挖掘技术,给出了一种企业决策系统.并就决策系统的`构成、流程和采用的数据挖掘技术进行了探讨.
作 者:师东生 Shi Dongsheng 作者单位:内蒙古科技大学信息工程学院,内蒙古包头,014010 刊 名:计算机光盘软件与应用 英文刊名:COMPUTER CD SOFTWARE AND APPLICATIONS 年,卷(期): “”(4) 分类号:N37 关键词:数据挖掘 数据仓库 企业决策系统篇9:支持向量机在数据挖掘中的应用研究论文
支持向量机在数据挖掘中的应用研究论文
摘 要:支持向量机(Support Vector Machine, SVM)是数据挖掘和机器学习中的一个很有效的工具。结合支持向量机在数据挖掘和机器学习中的应用, 介绍了支持向量机的基本原理, 发展方向及其研究热点。
关键词:支持向量机; 数据挖掘; 机器学习オ
1 SVM的提出和基本思想
支持向量机是Vapnik等人提出的,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,已应用于手写体识别、三维目标识别、人脸识别、文本图像分类等实际问题中,性能优于已有的学习方法,表现出良好的学习能力。它是从线性可分情况下的线性分类面发展而来的,接着利用核函数很好的解决了非线性可分情况。
2 支持向量机的几个发展
(1)模糊支持向量机,引入样本对类别的隶属度函数,这样每个样本对于类别的影响是不同的,这种理论的应用提高了SVM的抗噪声的能力,尤其适合在未能完全揭示输入样本特性的情况下。
(2)最小二乘支持向量机。这种方法是在1999年提出,经过这几年的发展,已经应用要很多相关的领域。研究的问题已经推广到:对于大规模数据集的处理;处理数据的鲁棒性;参数调节和选择问题;训练和仿真。
(3)加权支持向量机(有偏样本的加权,有偏风险加权)。
(4)主动学习的支持向量机。主动学习在学习过程中可以根据学习进程,选择最有利于分类器性能的样本来进一步训练分类器,特能有效地减少评价样本的数量。
(5)粗糙集与支持向量机的结合。首先利用粗糙集理论对数据的属性进行约简,能在某种程度上减少支持向量机求解计算量。
(6)基于决策树的支持向量机。对于多类问题,采用二岔树将药分类的样本集构造出一系列的两类问题,每个两类构造一个SVM。
(7)分级聚类的支持向量机。基于分级聚类和决策树思想构建多类svm,使用分级聚类的方法,可以先把n-1个距离较近的类别结合起来,暂时看作一类,把剩下的一类作为单独的一类,用svm分类,分类后的下一步不再考虑这单独的一类,而只研究所合并的n-1类,再依次下去。
(8)算法上的提高。Vapnik在1995年提出了一种称为“chunking”的块算法,即如果删除矩阵中对应Lagrange乘数为0的行和列,将不会影响最终结果。Osuna提出了一种分解算法,应用于人脸识别领域。Joachims在1998年将Osuna提出的分解策略推广到解决大型SVM学习的算法。Platt于1998年提出了序贯最小优化每次的工作集中只有2个样本。
(9)核函数的构造和参数的选择理论研究。基于各个不同的应用领域,可以构造不同的核函数,能够或多或少的引入领域知识。现在核函数广泛应用的类型有:多项式逼近、贝叶斯分类器、径向机函数、多层感知器。参数的选择现在利用交叉验证的`方法来确认。
(10)支持向量机从两类问题向多类问题的推广。Weston在1998年提出的多类算法为代表。在经典svm理论的基础上,直接在目标函数上进行改进,重新构造多值分类模型,建立k分类支持向量机。通过sv方法对新模型的目标函数进行优化,实现多值分类。
一对多(one-against-rest)――Vapnik提出的,k类――k个分类器,第m个分类器将第m类与其余的类分开,也就是说将第m类重新标号为1,其他类标号为-1。完成这个过程需要计算k个二次规划,根据标号将每个样本分开,最后输出的是两类分类器输出为最大的那一类。不足:容易产生属于多类别的点(多个1)和没有被分类的点(标号均为-1)――不对,训练样本数据大,训练困难,推广误差无界。
层(数分类方法),是对一对一方法的改进,将k个分类合并为两个大类,每个大类里面再分成两个子类,如此下去,直到最基本的k个分类,这样形成不同的层次,每个层次都用svm来进行分类――1对r-1法,构建k-1个分类器,不存在拒绝分类区。
3 主要研究热点
从上面的发展中,我们可以总结出,目前支持向量机有着几方面的研究热点:核函数的构造和参数的选择;支持向量机从两类问题向多类问题的推广;更多的应用领域的推广;与目前其它机器学习方法的融合;与数据预处理(样本的重要度、属性的重要度、特征选择等)方法的结合。
参考文献
[1]@张学工.统计学习理论的本质[M].北京:清华大学出版社,2000.
[2]@NelloCristianini,JohnShawe-Taylor.支持向量机导论[M].北京:电子工业出版社,2004.
文档为doc格式