开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统 。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型 。关系型数据库包含了传统关系数据库系统以及NewSQL数据库 。
开发大数据安全技术:改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术 。
四、大数据分析及挖掘技术
大数据分析技术:改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术 。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 。
数据挖掘涉及的技术方法很多,有多种分类法 。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法 。
机器学习中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等 。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等 。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等 。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法 。
数据挖掘主要过程是:根据分析挖掘目标,从数据库中把数据提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘 。传统的数据挖掘软件,一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模 。
数据挖掘的计算复杂度和灵活度远远超过前两类需求 。一是由于数据挖掘问题开放性,导致数据挖掘会涉及大量衍生变量计算,衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大,特别是大量机器学习算法,都是迭代计算,需要通过多次迭代来求最优解,例如K-means聚类算法、PageRank算法等 。
猜你喜欢
- 澳洲土著人的生活 澳大利亚土著人
- 线切割编程代码大全 线切割编程软件有几种
- 袁大头银元十年造价格 「银元八年造市场价」
- 房屋常识:请问大家:过户国有土地使用证需要邻居签字吗有人了解吗谢谢!
- 数码知识:苹果手机怎么抹掉所有数据抹掉所有数据教程
- 砍价免费拿黑幕大揭秘 拼多多免费拿套路是什么
- 受大家欢迎的胡锡进个人资料介绍 环球时报胡锡进是什么人
- mysql批量insert正确方式 mybatis批量insert数据动态表明
- 造梦西游3宠物领悟技能等级 造梦西游3宠物技能大全
- 大都会人寿入职首周3w 大都会人寿上班靠谱吗
