2、职位时曾说,大家还没搞清PC时代时候,移动互联网来了,还没搞清移动互联网时候,大数据时代来了。第3页你想像不到。到底有多少这个世界数据第4页近年来,全球数据存放量展现爆炸式增加,美国互联网数据中心指出,互联网上数据每年将增加50%,每两年便将翻一番,当前世界上90%以上数据是最近几年才产生。据中为咨询预测,到20,全球数据量将到达35ZB(相当约90亿块4TB硬盘容量)。依据国际数据企业(IDC)测算,似乎没有足够磁盘空间存放。就传统IT企业来看,其结构化和非结构化数据增加也是惊人。企业存放结构化数据为4EB,到年将增至29EB,年复合增加率逾20%。非结构化数据发展更猛。为22EB
3、,年将增至1600EB,年复合增加率约60%,远远快于摩尔定律。第5页那么,庞大数据到底来自哪里呢?!第6页据统计,国家图书馆藏书量有2600万册,假如从数据来看话,一个家庭一年产生数据相当于半个国家图书馆数据总量。而大数据并非现在才出现,比如在古代人口普查,中国在东汉时期就有几千万人,这显然也是庞大数据。大数据并不是什么崭新概念,好几十年前CERN科学家就在处理每秒上看PB(PetaBytes)巨量资料。那为何一直到近几年大数据这颗塬子弹才暴发呢。现今要处理资料量更庞大、资料产生跟处理速度更惊人、资料起源更多样,于是处理、储存大量资料新技术跟工具快速发展,像是开源软体Had
4、oop跟NoSQL资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前科技作出区分,于是大数据一词因应而生。第7页大数据特点Volume(大量)Velocity(高速)Variety(多样)veracity(真实性)数据量大、数据种类多、要求实时性强、数据所蕴藏价值大。在各行各业均存在大数据,不过众多信息和咨询是纷繁复杂,我们需要搜索、处理、分析、归纳、总结其深层次规律。最终是价值,从大量低质量、低价值数据中获取知识,如同从大海中捞针,获取数据成本很高,但有待挖掘价值大。大数据挖掘和处理。从技术上看,大数据与云计算关系就像一枚硬币正反面一样密不可分。大数据必定无法用单
5、台计算机进行处理,必须采取分布式计算架构。它特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依靠云计算分布式处理、分布式数据库(PaaS)和云存放、虚拟化技术(IaaS)。大数据挖掘和处理必须用到云技术。第8页第9页科学技术及互联网发展,推进着大数据时代降临,各行各业天天都在产生数量巨大数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。微博留言产生数据,视频产生数据,手机通话产生数据,商品标签产生数据,快递包裹、物品流通产生数据,移动终端和互联网普及更是加紧产生数据。越来越多配置了连续测量、汇报运行情况传感器设备出现
9、音频等)模型预测:预测模型、机器学习、建模仿真。结果呈现:云计算、标签云、关系图等。大数据主流技术第11页大数据处理之一:采集利用数个数据库来接收发自客户端数据,而且用户能够经过这些数据库来进行简单查询和处理工作。大数据处理之二:导入/预处理统计与分析主要利用分布式数据库或分布式计算集群来对存放于其内海量数据进行普通分析和分类汇总等,以满足大多数常见分析需求。大数据处理之三:统计/分析统计与分析这部分主要特点和挑战是分析包括数据量大,其对系统资源,尤其是I/O会有极大占用。大数据处理之四:挖掘与前面统计和分析过程不一样是,数据挖掘普通没有什么预先设定好主题,主要是在现有数据上面进行基于
10、各种算法计算,从而起到预测(Predict)效果,从而实现一些高级别数据分析需求。第12页大数据技术环境:在新兴信息技术推进下逐步趋向成熟云计算云计算服务和云应用在云平台支撑下让庞大数据得以保留和处理。移动互联网移动互联网能更准确、更加快地搜集用户信息,比如位置、生活信息等数据。社交网络提供大量UGC、内容、音频、文本信息、视频、图片等非结构化数据。物联网物联网不停应用与发展促使数据大量增加。第13页大数据分析离不开数据质量和数据管理,高质量数据和有效数据管理,不论是在学术研究还是在商业应用领域,都能够确保分析结果真实和有价值。大数据分析基础就是以上五个方面,当然愈加深入大数据分析
11、话,还有很多很多愈加有特点、愈加深入、愈加专业大数据分析方法。大数据分析使用者有大数据分析教授,同时还有普通用户,不过他们二者对于大数据分析最基本要求就是可视化分析,因为可视化分析能够直观展现大数据特点,同时能够非常轻易被读者所接收,就如同看图说话一样简单明了。大数据分析理论关键就是数据挖掘算法,各种数据挖掘算法基于不一样数据类型和格式才能愈加科学展现出数据本身具备特点,也正是因为这些被全世界统计学家所公认各种统计方法(能够称之为真理)才能深入数据内部,挖掘出公认价值。另外一个方面也是因为有这些数据挖掘算法才能更加快速处理大数据,假如一个算法得花上好几年才能得出结论,那大数据价值也就无从说
14、mazon,Google,eBay,Twitter和Facebook正使用海量信息外部特征认识消费行为,预测特定需求和整体趋势。目前,国内新建了许多大数据中心,规模不一。在中国,baidu和阿里巴巴大数据中心名气较大,另外,罗克佳华在鄂尔多斯和山西太原建设大数据中心凭借北部省份能源优势,建成5万平方米全国单体面积最大大数据中心,是当前亚洲最大云计算中心。大数据发展现实状况“读心术”、“未卜先知”,都是大数据分析头上刺眼光环。不论你信不信,“数据”真会说话。人们在互联网上一切行为都会留下数据,而经过对这些数据分析,就能够得到消费习惯、职业、喜好甚至性格等信息。在这些信息基础上,政府能
18、且类型更丰富数据,贩卖路径扩大,将带来更大范围数据安全问题及隐私泄露。为处理这类问题发生,应从问题发生源头即数据存放安全防护上处理。实现大数据安全,从技术角度出发,有以下几个方向:1、研究、制订及实施大数据安全标准2、研究大数据安全关键技术3、基于大数据研究网络安全分析技术第22页大数据意义和前景大数据是对大量、动态、能连续数据,经过利用新系统、新工具、新模型挖掘,从而取得含有洞察力和新价值东西,是继云计算、物联网之后IT产业又一次颠覆性技术变革。云计算主要为数据资产提供了保管、访问场所和渠道,而数据才是真正有价值资产。企业内部经营交易信息、物联网世界中商品物流信息,互联网世界中人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施承载能力,实时性要求也将大大超越现有计算