的意志为转移
从1986年开始到2010年的20年时间里Y全球数据的数量增长
了100倍Y今后的数据量增长速度将更快Y我们正生活在一个
数据爆炸的时代。
数据分析过程包括X数据采集与预处理数据存储与管理数据处理与
分析数据可视化等
?
1?数据采集与预处理X采用各种技术手段把外部各种数据源产生的数
据实时或非实时地采集预处理并加以利用
?
2?数据存储与管理X利用计算机硬件和软件技术对数据进行有效的存
储和应用的过程Y其目的在于充分有效地发挥数据的作用
?
3?数据处理与分析X数据分析是指用适当的分析方法?来自统计学
机器学习和数据挖掘等领域?Y对收集来的数据进行分析Y提取有用信
息和形成结论的过程
?
4?数据可视化X将数据集中的数据以图形图像形式表示Y并利用数据
分析和开发工具发现其中未知信息的处理过程。
数据采集与预处理包含了数据采集和数据预处理两大任务
数据采集是指从传感器和智能设备企业在线系统企业离线
系统社交网络和互联网平台等获取数据的过程需要采集的
数据包括RFID数据传感器数据用户行为数据社交网络交
互数据及移动互联网数据等各种类型的结构化半结构化及非
结构化的海量数据
数据采集技术是大数据技术的重要组成部分Y已经广泛应用于
国民经济各个领域Y随着大数据技术的发展和普及Y大数据采
集技术会迎来更加广阔的发展前景。
数据预处理目标是为后续的数据分析工作提供可靠和高质量的
数据Y减少数据集规模Y提高数据抽象程度和数据分析效率
数据预处理任务主要包括数据清洗数据集成数据转换和数