大数据在智慧校园的应用

2015-07-31颂大教育
  一、大数据和智慧校园都属于技术驱动的革命
 
  美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。可见,由于信息技术的发展,互联网的数据是以指数速度增长的。但数据的海量增长还不能说是进入了大数据时代。要进行大数据处理,必须具备将分散的数据进行有效存储并通过网络集中处理的能力,因此要有数据采集能力、数据传输能力、数据存储能力、数据处理能力,另外,这些原始数据价值密度很低,必须要把有价值的信息从大量数据中分离出来。提炼水平越高,能够提取出的价值越高,如果信息提炼水平不够,大数据只是无用的垃圾。因此,从大数据技术的产生和发展看,它是一个技术驱动的革命。

\
 
  表1列出了Gartner 2012-2014年十大战略技术,从表中可以看到,移动应用、云技术、物联网、大数据都是近三年的十大战略技术,其中,大数据技术是受到前面三个技术的驱动而发展的:移动应用、物联网采集和传输了海量的数据,而云存储使数据的存储集中化,云计算及其它先进的计算技术如高性能计算等为海量数据的处理提供了基础。
 
  另外,大数据的技术本身也在发展。表2为中国计算机学会大数据专家委员会发布的2013年度和2014年度大数据发展趋势的预测,分为核心技术、技术生态、产业生态三个方面,从表中可以看出,在技术生态和产业生态方面,2013年和2014年的发展是有继承关系的,但在核心技术方面,技术的发展的轮廓更清晰和明确。

\
  技术驱动的革命与需求驱动的革命不一样,需求驱动的革命,其应用是非常明确的,而技术驱动的革命,其应用往往不是很明确的。大数据技术最初应用于运营商、网络安全、电子商务等方面,在智慧校园的应用则刚开始。
  一般认为,智慧校园是数字化校园的升级版本, 而智慧校园的关键特征就是“智慧”,包括泛在接入、智能感知、个性化配置、双向互动等、大数据的支持和开放学习环境等。智慧校园也是技术驱动的革命,是物联网、虚拟化技术、云计算技术、移动互联网、大数据技术等驱动而成的。图1是智慧校园的体系结构,一般认为,物联网分为感知层、网络层、应用层,比对图1,可以看出,智慧校园突出了数据层的处理以及平台的能力,可以说,大数据处理是智慧校园的特征之一。
\
               图1 智慧校园的体系结构

智慧校园的大数据处理,包括:建立数据采集和存储的基础设施、建立统一数据标准、建设公共数据交换平台、建立数据仓库系统、建设智能数据分析系统、建设智能决策系统等。大数据技术可以给学校管理水平和模式带来变革:即由经验管理到数据管理,由粗放式管理迈向精细化管理,而数据的知识,将成为个人知识结构中的必备要素和基础。
 
  一般对大数据在智慧校园应用的研究,都集中在应用层的数据,而对其分析和处理也面向应用层的。其实,大数据的分析和应用都可以在各个技术层面,下面介绍三个例子,前两个是基于网络层的数据分析,后一个是基于应用层的数据分析;同时前一个应用于网络层,后两个应用于应用层。
 
  二、基于SDN的网络质量和安全感知及智能调度
 
  互联网和云计算推动大数据技术发展,同时又对网络构成巨大的压力。实际上,构成大数据的大部分数据实际上是非结构化数据。结构化数据可以通过传统数据库架构来处理,但对非结构化数据的调度和处理对底层网络提出了新的挑战。例如,Facebook连续阶段之间的数据传输占33%的总运行时间,在很多情况下,通信阶段占总运行时间的50%以上。为了解决大数据的调度和处理的瓶颈,需要网络层具备按需动态分配资源的能力,这与云计算类似。互联网原有的架构体系不支持网络拓扑结构和资源的动态调整,软件定义网络(Software Defined Network,简称SDN)技术的发展为解决这个问题提供了可能。
 
  SDN的思路与通信网络的下一代网络(Next Generation Network,简称NGN)类似,就是把网络控制功能从网元中抽取出来,集中在一个特定的网元中,NGN 集中在软交换中,而SDN集中在控制器中,见图2。我认为,资源虚拟化和集中控制是目前IT技术的发展趋势,所以,SDN的发展体现了这个趋势。

\
                 图2 SDN结构

传统的网络虽然存在对网络质量和安全等的实时监控,但由于控制不是集中的,所以,如果发现网络质量和安全等问题,需要对网络的交换、路由和安全设备进行策略调整,这种调整一般是局部、手工或者半自动的,过程也比较繁琐,而采取SDN的架构,则可以实现基于大数据智能感知的全网自适应调度。
     \
 
            图3 IPv4/IPv6网络数据包情报分析系统

图3 根据这个原理设计的IPv4/IPv6网络数据包情报分析系统,这个系统可进行全网通信质量数据、网络安全事件、网络和安全设备日志、终端用户行为及iPCA流量异常数据等的采集,从大量数据流中快速筛选出指定特征数据包,采用PPM概率预测、模式匹配算法,并利用GPU硬件对数据处理作并行加速,发现通信质量问题和安全隐患,通过SDN控制器实行全网路由、流控、安全等策略的调整,并下发调整后的策略至全网相关设备。由于SDN控制器将全网的物理资源虚拟为资源池,可以根据区域、用户、网络质量状态或安全事件动态分配网络和安全资源。
 
  三、基于网络状态感知的区域云应用资源调度
 
  众所周知,云计算对网络的依赖性很强。这里的网络,包括两部分,第一是从客户端到服务器端的数据通信传输网络,可称为服务网,第二部分是云内资源之间的数据通信传输网络,可为资源网。而对于后者,现有的云计算研究往往忽略,而假设为带宽为无限大、传输时间为0的无障碍网络。这个假设,对于应用范围局限于一个园区网的私有云是成立的,因为在这种情况下,私有云的资源集中于园区网的数据中心或计算中心内,数据中心或计算中心内部的网络可以容易实现宽带连接,对于小规模的客户端数据,可以满足云内数据传输的要求。但对于应用范围较大,例如覆盖整个地理区域,应用范围为广域网的区域云来说,这个假设就不再成立了。
 
  由于区域云的通信网络是个结构复杂的广域网,存在数据传输的瓶颈和运营商网间互联互通的问题,传统的云计算资源调度技术直接应用于区域云遇到了困难。利用基于网络层大数据分析技术可以解决这个问题,其原理是:(1)通过监控用户对数据的需求及相关参数对数据资源进行动态规划和调整,使得用户可以就近访问云服务的数据资源,从而减少对区域云跨地域节点间骨干网络的带宽消耗,提高数据访问的效率;(2)基于时间局限性定义文件远程请求热度、文件平均请求跨度的概念,使得跨地域节点请求较多的热点数据能够动态的、快速的在区域云内扩散;(3)综合运用CDN(内容分发网络)缓存和P2P调度算法,各分区采用CDN缓存,分区之间采用P2P调度。
 
  四、教育资源的个性化推送和学习行为设计
 
  实际上,近年国家和地方对资源建设投入巨大。仅在高等教育领域,国家和地方就已投入数十亿元建设精品课程资源逾2万门。而在基础教育领域,京、沪、粤等省级教育资源库均已拥有百万条以上资源容量。尽管教育资源已经初具规模,但其发挥的实际作用却明显低于预期。高等教育层面,近50%学生很少使用精品课程;基础教育层面,国家基础教育资源网课件仅下载642万次,即在全国1.5亿名小学和初中生中,平均每100人只下载过4次课件。而在教育资源的积压闲置的同时,广大一线教师、特别是边远地区基础教学人员,仍然在迫切寻求优质教育资源。据研究,为准备一节公开课,一线教师平均竟要花费28小时以搜寻合适的教学资源。

  一方面是资源高度闲置,另一方面是师生找不到合适资源,资源建设的这种“结构化缺乏”带来了资源建设的可持续问题。利用基于大数据分析技术的教育资源个性化推送,可以缓解这一矛盾。其实,在网络购物系统或者网络广告系统中,商品的个性化推送早近年就开始应用,其原理就是根据用户的需求个性化地推送其感兴趣的商品。教育资源的个性化推送,用得比较多的是网络图书馆,而其它资源的推送,是最近两三年才受到重视的。
 
      \

图4 教育资源个性化推送示意图
  图4是关于教育资源个性化推送的示意图。要实现教育资源的个性化推送,需要解决三个核心问题?(1)如何对资源和受众的特征进行分类?(2)如何感知受众的需求?(3)如何评估资源和受众需求的匹配程度?
 
  对于第1个问题,一些商品如图书等分类是有国家标准的,但对于教育资源,目前的分类还处于研究阶段,我认为应结合教育学关于学习规律的研究以及资源本身的特点进行分类。例如:科目、知识点、年级、知识结构、进度、难易度、受众的学习习惯(如对图像、声音、文字等的敏感程度等)等,由于这个问题比较专业,受篇幅限制,不在本文讨论。
 
  对于第2个问题,解决办法一般采取调查法、基于受众的网络行为数据的动态感知、基于受众应用数据的动态感知等。其中调查法比较简单,本文简单说明后两种。实际上,受众的网络行为一定程度反应出其需求,例如:其搜索的关键词、浏览的内容、浏览时长等,并且,受众的兴趣和需求是动态变化的,因此,通过动态收集受众的行为数据可以感知其需求。基于受众的应用数据感知其需求和基于受众的行为数据感知原理一样,不过,对应用数据的分析必须结合背景数据,例如,分析一个学生的成绩的好坏要结合其他学生的成绩。
 
  对于第3个问题,我提出“有效信息量”的概念用来评估教育资源对受众需求的匹配程度。以英语学习为例,如果内容太难,一句都听不懂,有效信息量为0;内容太浅,全都是知道的,有效信息量也为0; 而内容适中,学到新的知识,则有效信息量大于0。因此,资源对受众的有效信息量越大,推送的优先程度就应该越高。
\
图5 基于受众网络行为数据的教育资源个性化推送系统  

图5为我们研究团队实现的基于受众网络行为数据的教育资源个性化推送系统示意图。
文章关键词: 智慧 校园 数据