电信运营商大数据应用和实践

电信运营商大数据应用和实践

钱岭

中国移动通信有限公司研究院

2012年6月

目录

1323

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

全球数据量高速增长,全球数据量高速增长,信息成为企业战略资产

•信息社会的信息增量在高速发展

•随着互联网/移动互联网、数码设备、物联网/传感器等技术的发展,全球数据生产在高速增长•据IDC 研究报告,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB (35,000,000PB ),为2009年(0.8ZB )的44倍

•信息成为企业战略资产,市场竞争和政策管制要求越来越多的数据被长期保存

•企业越来越需要长期保存各类数据,以进行用户行为分析、市场研究,信息服务企业更是需要积累越来越多的信息资源

•为了遵从萨巴斯、上网日志审计等管制要求,企业需要长期保存越来越多的生产数据

大数据实时处理技术

①发生了什么?

②为什么会发生?

③将会发生什么?

④正在发生什么?

⑤希望发生什么?

战略与战术的结合

数据仓库的几项趋势:性能优化、内存数据库、实时海量数据分析主要是批处理批处理统计查询主要关键技术 基于内存的分

析:访问内存获得数据而非磁盘,如SAP HANA 并行计算:采用并行计算

大规模并行计算技术,如Facebook 。

SAP HANA/内存数据库:单PC 服务器(32核、0.5T 内存、1.3TB 数据)每小时完成10000个查询,每个查询在秒时间

---Gartner 2011

事件驱动

动态查询分析动态查询功能逐渐增加分析预测预测挖掘模型持续数据更新及快快速响应查询速响应

Facebook Insight for Website /HBase 数据库使用大规模HBase 集群,每天处理200亿消息

大数据非结构化数据大数据非结构化数据的管理结构化数据的管理

10年间,年间,在非结构化数据占比加大的同时,在非结构化数据占比加大的同时,业界对非结构化数据的重视极度上升,业界对非结构化数据的重视极度上升,超越结构化数据

主要关键技术 低成本低成本、、海量数据存

储管理。储管理。单系统需要管理高达10PB 甚至更大规模的数据 搜索引擎技术(搜索引擎技术(IR )。

包括自然语言理解、索引等技术 大规模并行计算:采大规模并行计算

用大规模并行计算技术

目前,基于Google 搜索引擎基础设施研发的开源软件Hadoop 系列是非结构化数据处理的最

佳工具,具备成本低、存储规模大、易集成、相关工具多的特点。

目前Hadoop目前Hadoop是大数据领域的事实标准Hadoop 是大数据领域的事实标准

可扩展性好:最大可以达到

4000节点

通用性强:可以用于各种类型数据的处理,MapReduce 几乎就是标准接口

系统高可用,数据可靠:数据三个副本,自动负载均衡 易于管理:磁盘和节点自动管理

社区活跃,衍生产品多

•••••

Yahoo 最大Hadoop 集群约4000节点,所有Hadoop 服务器超过1万台。用于完成从广告推荐,用户行为分析在内的各种计算

Facebook 拥有超过2000节点的至少2个Hadoop 集群,用于数据批处理和即席查询,同时将HBase 用于实时数据统计

淘宝拥有超过2000节点的Hadoop 集群,用于替代现有的Oracle 系统,完成数据分析工作

eBay 部署超过500节点的Hadoop 集群(Cloudera 提供),用于点击流分析等,目前超过1500节点

百度拥有超过4000台服务器的Hadoop 集群,用于日志分析、机器学习等应用

目录

3123

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

海量数据的出现、海量数据的出现、数据结构的改变,数据结构的改变,对数据管理及数据管理及分析带来挑战

•传统数据仓库难以满足日益增长的业务数据带来的存储、传统数据仓库难以满足日益增长的业务数据带来的存储、计算需求

–随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等

•传统数据仓库难以满足非结构化数据的处理要求

–移动互联网和物联网业务带来的非结构化数据、半结构化数据(如网页)对分析系统提出了不同以往的处理要求,如自然语言处理、网页分类等

电信运营商大数据应用和实践

钱岭

中国移动通信有限公司研究院

2012年6月

目录

1323

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

全球数据量高速增长,全球数据量高速增长,信息成为企业战略资产

•信息社会的信息增量在高速发展

•随着互联网/移动互联网、数码设备、物联网/传感器等技术的发展,全球数据生产在高速增长•据IDC 研究报告,未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35ZB (35,000,000PB ),为2009年(0.8ZB )的44倍

•信息成为企业战略资产,市场竞争和政策管制要求越来越多的数据被长期保存

•企业越来越需要长期保存各类数据,以进行用户行为分析、市场研究,信息服务企业更是需要积累越来越多的信息资源

•为了遵从萨巴斯、上网日志审计等管制要求,企业需要长期保存越来越多的生产数据

大数据实时处理技术

①发生了什么?

②为什么会发生?

③将会发生什么?

④正在发生什么?

⑤希望发生什么?

战略与战术的结合

数据仓库的几项趋势:性能优化、内存数据库、实时海量数据分析主要是批处理批处理统计查询主要关键技术 基于内存的分

析:访问内存获得数据而非磁盘,如SAP HANA 并行计算:采用并行计算

大规模并行计算技术,如Facebook 。

SAP HANA/内存数据库:单PC 服务器(32核、0.5T 内存、1.3TB 数据)每小时完成10000个查询,每个查询在秒时间

---Gartner 2011

事件驱动

动态查询分析动态查询功能逐渐增加分析预测预测挖掘模型持续数据更新及快快速响应查询速响应

Facebook Insight for Website /HBase 数据库使用大规模HBase 集群,每天处理200亿消息

大数据非结构化数据大数据非结构化数据的管理结构化数据的管理

10年间,年间,在非结构化数据占比加大的同时,在非结构化数据占比加大的同时,业界对非结构化数据的重视极度上升,业界对非结构化数据的重视极度上升,超越结构化数据

主要关键技术 低成本低成本、、海量数据存

储管理。储管理。单系统需要管理高达10PB 甚至更大规模的数据 搜索引擎技术(搜索引擎技术(IR )。

包括自然语言理解、索引等技术 大规模并行计算:采大规模并行计算

用大规模并行计算技术

目前,基于Google 搜索引擎基础设施研发的开源软件Hadoop 系列是非结构化数据处理的最

佳工具,具备成本低、存储规模大、易集成、相关工具多的特点。

目前Hadoop目前Hadoop是大数据领域的事实标准Hadoop 是大数据领域的事实标准

可扩展性好:最大可以达到

4000节点

通用性强:可以用于各种类型数据的处理,MapReduce 几乎就是标准接口

系统高可用,数据可靠:数据三个副本,自动负载均衡 易于管理:磁盘和节点自动管理

社区活跃,衍生产品多

•••••

Yahoo 最大Hadoop 集群约4000节点,所有Hadoop 服务器超过1万台。用于完成从广告推荐,用户行为分析在内的各种计算

Facebook 拥有超过2000节点的至少2个Hadoop 集群,用于数据批处理和即席查询,同时将HBase 用于实时数据统计

淘宝拥有超过2000节点的Hadoop 集群,用于替代现有的Oracle 系统,完成数据分析工作

eBay 部署超过500节点的Hadoop 集群(Cloudera 提供),用于点击流分析等,目前超过1500节点

百度拥有超过4000台服务器的Hadoop 集群,用于日志分析、机器学习等应用

目录

3123

大数据处理技术发展概况电信运营商大数据需求中国移动大数据应用实践

海量数据的出现、海量数据的出现、数据结构的改变,数据结构的改变,对数据管理及数据管理及分析带来挑战

•传统数据仓库难以满足日益增长的业务数据带来的存储、传统数据仓库难以满足日益增长的业务数据带来的存储、计算需求

–随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等

•传统数据仓库难以满足非结构化数据的处理要求

–移动互联网和物联网业务带来的非结构化数据、半结构化数据(如网页)对分析系统提出了不同以往的处理要求,如自然语言处理、网页分类等


相关文章

  • 电信专业大学生暑期设备维护社会实践报告
  • 一.实践课题:设备维护 课题背景:epon技术随着电信技术的开展所涉及的范围越来越宽泛,包括语音,宽带,itv等等一系列的实用技术.由此而带来的就是epon设备以及其他电信设备的大量增多,所以设备的安装调试以及日常维护工作显得尤为重要. 二.实践目的:了解电信设备的安装维护以及交换专业coms系统等 ...

  • 学术报告心得体会
  • 上周四,我在信息学院听了一场3G方面的技术讲座,讲座的内容主要是对3G、WLAN、Bluetooth三种通信技术之间关系的分析,通过讲座我对这三种技术的原理和关系有了更深入的了解,获益良深。 讲座是由华为通信公司的一位研究人员讲授的,讲座内容主要分三个部分,第一部分介绍了当前通信技术发展的背景以及这 ...

  • 电子信息工程专业生产实习报告
  • 电子信息工程专业生产实习报告 一、生产实习的目的 生产实习是电子信息工程专业以及其他任何专业十分重要的实践性教学环节,是培养学生实际动手能力和分析问题解决问题能力、理论与实践相结合的基本训练,同时也是学生毕业设计选题及设计工作原始资料的来源,为学生进行毕业设计打下扎实基础。认真抓好生产实习的教学工作 ...

  • 电信认识实习心得
  • 今天下午我们东华理工大学08级通信专业去了抚州中国电信实习.今天天气很好,在两位老师的带领下我们步行从学校到抚州市的中国电信听了讲座和参观了一些工作室. 半天的实习,时间飞逝,总得来说,真是短了些,但是在这有限的时间里,我们积极争取还是有所收获的.我初步体会到了电信行业的一些工作程序.我个人觉得有些 ...

  • 电信公司实习报告
  • 每一个在校大学生都要在走出学校之前,去社会上进行实习,以检验自己学的东西是否能用得上,能用的了多少,而我也一样,二零零九年六月份我就要从合作民族师专毕业了,学习了三年的计算机应用技术,我也一直想着找一家计算机技术比较适用的单位去练习一下自己,这个机会来了,二零零八年八月二十日,我来到了学校附近的一个 ...

  • 20XX年最新应用电子专业毕业实习报告
  • 电子信息工程专业生产实习报告 一、生产实习的目的 生产实习是电子信息工程专业以及其他任何专业十分重要的实践性教学环节,是培养学生实际动手能力和分析问题解决问题能力、理论与实践相结合的基本训练,同时也是学生毕业设计选题及设计工作原始资料的来源,为学生进行毕业设计打下扎实基础。认真抓好生产实习的教学工作 ...

  • 毕业生通信工程认识实习报告范文
  • 前言内容 作为学习通信工程专业的学生,作为以后即将成为一名通信人的学生来说,了解通信基础知识,掌握通信专业的学习方法,明白通信行业最前沿的科技知识,是关系到自己前途,关系到自己人生价值能否实现的人生大事. 通过近一周的学习,我们从感性上学到了很多东西,也对我们将来的学习和研究方向的确定产生了深远的影

  • 电信局中心数据技术岗位竞聘演讲稿
  • 尊敬的各位领导和评委: 大家好! 公司的这次人力资源改革是公司本年度的一项重大举措,得到了广大员工的积极响应。从公司的利益最大化考虑,也为了实现个人发展,我选择参加业务支撑中心数据技术支持岗位的竟聘。 首先我谈一下对xxx数据业务的认识: 目前对电信运营商来说,用户高增长的重要性已经让位给了运营收入 ...

  • 电子商务专业见习汇报
  • 作为学习电子商务专业的学生,作为以后即将成为一名电子商务人的学生来说,了解通信基础知识,掌握通信企业的运营方式,明白通信行业最前沿的科技知识,是关系到自己前途,关系到自己人生价值能否实现的人生大事. 通过对中国电信公司的认识学习,我们从感性上学到了很多东西,也对我们将来的学习和研究方向的确定产生了深

  • 大学生到移动电信公司的实习报告范文
  • 在学院的统一部署下,我今年暑假利用二十五天的时间在中国移动集团吉林分公司完成了我的暑期管理实习任务. 中国移动通信集团公司吉林省移动通信公司是遵照国务院关于政企分开,邮电分营.电信重组改革精神的要求,于1999年8月12日独立运营,是中国移动通信集团全资子公司,辖8个地市分公司,三个直属单位和40个 ...