档案内容的变革直接影响了档案管理的方法,在传统的档案管理中,档案管理工作人员只需要按照纸质档案的归档和保存方式进行档案管理即可,可以说管理方法是不变的,在档案数字化管理的过程中,与档案存储、档案安全维护相关的管理行为需要工作人员能够熟练操作并解决与计算机使用相关的问题,而这些技术又是完全不同的,例如归档和调取在计算机上的路径截然不同,音频、视频与文档形式的档案资料整合所需要用到的软件工具也完全不同。数字化的档案管理办法完全是基于计算机和网络使用的,这是档案管理方法与现代社会主流文化接轨的象征。
(二)档案管理目的更加多元化
数字化档案管理的第三个特征就是档案管理目的更加多元化。以往的档案管理主要目的在于通过提供以往工作记录,协助单位预测发展目标,为单位多种决策提供帮助和建议,但不能为普通职员提供相应的档案服务,上海业务数字图书馆,也不能通过档案管理工作体现单位在同等社会组织中的地位,这主要是由于档案资料共享和调取步骤繁琐造成的档案管理目的单一。而数字化档案管理能够实现档案异地调取,从网络平台上实现档案共享亦非难事,这使得“方便个人调用档案”、“实现服务性档案管理”也成为档案管理的目的,国家相关部门亦可通过对各单位档案的综合分析得出社会发展的基本面貌。
(1)采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
(2)导入/预处理
采集端本身会有很多数据库,如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,业务数字图书馆公司,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(3)统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高层级数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
业务数字图书馆建设-上海业务数字图书馆-北京兴源科创科公司由北京兴源科创科技发展有限责任公司提供。“兴源科创,致力于“智慧档案馆”“智慧图书馆”建设等业务。”选择北京兴源科创科技发展有限责任公司,公司位于:北京市昌平区北七家镇宏福10号院1号楼4036、4037室,多年来,兴源科创坚持为客户提供好的服务,联系人:智经理。欢迎广大新老客户来电,来函,亲临指导,洽谈业务。兴源科创期待成为您的长期合作伙伴!