互联网大数据

互联网大数据来源

广义的互联网大数据既包括各种互联网Web应用中不断积累产生出来的数据,也包括Web后台的传统业务处理系统产生的数据。狭义的主要指基于互联网Web应用所产生的数据。主要包括以下几种类型:

  • 社交媒体:例如微博,网路论坛等各种社交平台,不断产生的即时信息(UGC)。
  • 社交网络:社交网络主要源于社交平台,更侧重于人际关系数据,而社交媒体更侧重于内容。
  • 百科知识库:例如百度百科、维基百科,这对于大数据应用中进行知识获取、分析和推理具有重要价值。
  • 新闻网站:是一个重要组成部分,涵盖社会新闻、科技新闻、国际新闻等。
  • 评论信息:股票评论、商品评论、酒店评论。服务质量评论,各类评论信息为相应的技术研究和应用开发提供了充足的数据。
  • 位置型信息:主要记录了人们日常移动的位置和轨迹,对数据分析有较高的价值。

互联网大数据的特征

大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。

规模性

随着信息化技术的高速发展,数据开始爆发性增长。大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。


多样性

多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。
数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。
而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大体可以分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。
数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中有70%-85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。
数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。


高速性

这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。


价值性

尽管企业拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。

爬虫技术体系构成

bigdata.jpg

最后修改:2021 年 06 月 24 日 02 : 18 PM
如果觉得我的文章对你有用,请随意赞赏