数据挖掘是当前数据库研究、开发和应用最活跃的分支之一,它在科学发现、商业零售以及信用管理、医学等领域已得到广泛应用。随着高校图书馆自动化程度与数字图书馆建设的不断发展,图书馆要处理和提供的信息越来越多,越来越复杂。图书馆如何运用这一新技术挖掘丰富的信息资源,为服务读者和科学管理提供可靠的依据,值得图书馆界深入研究。
数据挖掘的定义与方法
数据挖掘(DataMining,DM)也称知识发现(KnowledgeDiscoveryfromDatabase,KDD),是从大量的、不完全的、先前不知道的、模糊的、可能有污染的随机详细数据中提取隐含的、潜在有用的信息和知识的过程。挖掘的对象是数据库和数据仓库,旨在通过对数据的统计、分析、综合、归纳和推理,揭示事件间的相互关系,预测未来的发展趋势,起到辅助实际工作问题求解的作用。整个知识发现过程由若干挖掘步骤组成:
(1)数据选择。根据挖掘要求,将多个数据库中的数据进行合并处理,提取与KDD相关的数据,KDD将主要从这些数据中进行数据提取。
(2)数据预处理与转换。从与KDD相关的数据集合中除去明显错误的数据和冗余的数据,进一步精减所选数据中的有用部分,缩小处理范围,提高数据分析质量。并将数据转换成为规范形式,以使数据挖掘更有效。
(3)数据挖掘。就是选择合适的挖掘算法,对数据进行分析,以得出真正合理有用的知识。
(4)知识描述。根据数据挖掘的目的对提取的信息进行分析,把有价值的信息挑选出来,将发现的知识以用户能理解的方式提供给用户。
(5)知识评价。用户根据已有的知识对挖掘的结果进行合理性分析,若有不合理的方面,再重复上述步骤,以保证挖掘结果的合理性。
数据挖掘在图书馆的应用
1分析读者需求,优化信息资源建设
高校图书馆的文献采购常常面临两个问题:①每年的文献购置费是有限的,书库、阅览室等各种可使用的空间也是有限的,如何有效地使用有限的经费,充分利用宝贵的空间,添置读者真正需要的文献,提高文献资源的利用效率;②根据学校的专业设置及教学科研情况,文献购置费在各门学科之间如何分配,各种文献载体形式之间如何平衡,才能使文献购置费发挥最大效益。传统图书馆大多由专门采访人员独自确定或与少数专家商计决定,不可避免地带有一定的主观性以及个人喜好,难免造成经费浪费及馆藏信息资源的缺漏。利用数据挖掘技术可以解决以上问题。图书馆每天产生大量可以对采访工作产生指导作用的数据,利用模糊聚类分析技术,通过对图书馆业务系统的借阅、流通状况、检索请求及馆藏书目库进行分析挖掘,按类统计文献拒借集和频繁借阅集,并以此分析出文献的利用率,及时补充短缺的文献,剔除过时的文献或减少部分文献的采购复本量。
2加强书库科学管理,提高服务质量
书库的频繁倒架以及图书的残破率、丢失率是经常遇到的问题,如何防微杜渐也是值得挖掘的一个方面。通过对历年借阅数据的相关分析,增长幅度相应较大的图书种类在上架的时候应根据预测的趋势预留架位;通过对注销数据的分类分析统计及与样本库比较以确认若丢失率超过一定比例的原因出在哪些方面,给出在制度上或人员上加强管理的建议。对于那些借阅频率较大且连续续借的文献,应以量化的方式反馈给采访部门以加重采购的力度;对罚赔款数据的挖掘则可提供对诸如特定书刊的借阅期限和人员限制等的建设性建议,以提高服务质量。
3优化数字图书馆的信息内容
数字图书馆是一种数据信息系统,这一系统不但拥有内容丰富、形式多样的数字化信息资源,而且依赖于现代高新技术的支持,高效地满足用户的需求。目前,数字图书馆的信息内容包括大量的数字化馆藏、种类繁多的数据库、全文Web资源链接以及互联网上的大量信息。这大量的数据,只有通过组织、分析和挖掘,找出数据背后真正有价值的知识信息,才是用户实际需要的。采用数据挖掘技术,将其用于数字图书馆的信息发现和信息提供的全过程,可向用户提供更优化的信息服务,满足用户的个性化需求。
4针对用户特点提供个性化服务
有了数据挖掘技术,图书馆完全可以根据用户以前借阅的文献资料,甚至经常访问的网页(Web服务器访问日志)进行分析、挖掘,进行用户的背景分析、用户群体的分类分析、用户偏好分析、用户检索满意度分析等,了解他们的兴趣爱好、研究方向,得出特定用户的特定检索规律和知识模型,无需用户先提出信息请求,便可确定个性化服务内容,主动将相关文献送到他们手中。个性化服务的内容包括:(1)当发现新的相关信息或书目数据时,及时推送给用户;(2)当用户访问图书馆网站时,根据用户的兴趣度,为用户提供定制的Web页面;(3)跟踪用户的兴趣变化模式,发现用户的最新需要;(4)根据用户的兴趣,提供相应的预测报告、动态分析等,提供个性化决策支持服务。个性化服务的过程包括:构建个性化用户动态需求模型;搜索、挖掘针对特定需求的相关信息;按照特定主题,将搜索、挖掘到的信息进行过滤、加工和组合,整合成相对完整的信息集合;以在线或离线形式,主动发送给用户;按照特定主题,对信息集合进行分析开发,产生新的知识;以在线或离线形式,主动发送到用户。
数据挖掘在应用中存在的问题
(1)缺少数据挖掘人才。数据挖掘技术是新兴的数据分析技术,是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。目前图书馆缺少精通数据挖掘技术的综合性人才,而对大型数据库和数据仓库有感性认识的就更少了。
(2)缺少国产数据挖掘软件。国外关于数据挖掘软件相关技术的研究和开发已经很先进。国内由于数据积累不够充分、全面,业务模型构建困难及缺少有经验的实施者等诸多原因,数据挖掘未能得到很好的应用,而软件的发展也受到限制。国内对于数据挖掘软件的研究大部分还处于科研阶段。国外数据挖掘软件在国内使用面临汉化、汉字库支持、用户习惯、适应国情等问题。而且几乎没有面向图书馆应用的专业数据挖掘软件,只有一些网络专业信息挖掘工具。
(3)已有数据挖掘软件有待改进。目前主流的数据挖掘软件专业化水平太高,易用性与通用性不够,培训时间较长、上手慢。同时需提高挖掘结果的可理解性,即数据挖掘技术应进一步为用户理解和接受,也可理解为如何用用户的语言来表达知识。
(4)数据挖掘软件处理数据的能力需进一步提高。处理数据的能力不仅指能处理海量的数据,还包括能处理各种类型数据和数据源。现在的原始数据的格式越来越多样化,尽管在数据挖掘进行之前要通过数据仓库对最初的数据进行初步筛选,但基本上不会影响其数据形式。所以,数据挖掘软件必须提高对于各种类型数据,包括半结构和无结构数据的处理能力,其算法必须是高效率的、可伸缩的。
文章源自: