你的位置:首页 > 新闻动态 > 刊文精选

2022年第38期·面向拔尖人才培养的大数据知识点和能力点研究

2023-8-28 9:42:59点击:

[出处] 教育教学论坛_2022年第38期

王宏志,刘显敏,史 宁

(哈尔滨工业大学 英才学院,黑龙江 哈尔滨 150001)

大数据产业是指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动以及相关信息技术服务。大数据产业是智力密集型产业,需要大量专业技术和应用人才,目前具有较全面大数据知识和技能的人才还非常缺乏,难以满足发展需要。为了保障我国大数据产业的健康快速发展,高等学校承担着为国家培养大数据基础研究、产品研发和业务应用等各类人才的社会重任。为更好地构建拔尖人才培养体系,加强体系建设,结合当下人才培养现状对目前大数据相关职位进行了需求调研工作,本文结合当前需求,提出了可供参考的体系建设,为拔尖人才培养提供了新的角度。

一、大数据职位需求

针对网络公司的职位需求,对目前大数据行业市场进行调研。虽然很多岗位有不同的名字,但职位需求基本相似,根据职位需求,将岗位分为以下五类。

(一)平台开发类

该类岗位主要进行平台开发工作。按照顺序进行进阶,最基础的职位是大数据研发工程师,进阶则是大数据平台开发工程师,最终可以到达大数据平台架构师的高度。

1.大数据研发工程师。该职位主要进行大数据平台上的应用开发,属于应用层开发。一般要求应聘人员为计算机相关专业,有扎实的计算机理论基础;熟练掌握Java、Python服务端编程,有良好的编码习惯;深入理解MapReduce,熟练使用Storm、Hadoop和Spark,并阅读部分源码;熟练使用HDFS、Hbase、Kafka、ElasticSearch和Solr;深入理解Lucene、ElasticSearch、Solr等,有优化经验者优先;具备良好的学习能力、分析解决问题能力;具有高度的责任心和团队合作精神;有大数据平台产品建设经验者优先。

2.大数据平台开发工程师。该职位要求胜任大数据平台的框架方面的修改工作,需要有非常丰富的开源平台框架经验。其基本工作要求为:扎实的数据结构及算法功底,优秀的工程实现能力;熟悉Linux开发环境,精通C/C++、Java;有Storm、Hadoop、Spark、Kafka、Hbase等开源框架经验者优先;有机器学习知识背景,有实践经验更佳;优秀的分析问题解决问题能力、学习能力、团队合作意识。

3.大数据架构师。该职位需要有非常丰富的工作经验,并对大数据平台有非常深入的了解,能够进行平台构建等相关开发。基本工作要求为:扎实的Java基础知识,5年以上的Java Spring研发和大型系统架构经验,熟悉分布式系统的设计和应用,熟悉大数据领域的开源产品,清楚原理和机制;熟悉Hadoop、Hbase、MYSQL等数据存储产品使用方法和特性;有基于Kylin或Greenplum等平台应用研发经验者优先;有云平台架构研发经验和5人以上团队管理经验者优先;清晰的逻辑分析和表达能力,热爱技术,乐于分享,对行业和技术的发展有自己的见解,在大数据领域内有深入的研究和积累者优先;有Spring Cloud Data Flow开发经验者优先。

(二)平台运维类

该类岗位主要进行大数据平台的运维工作。其基础为大数据运维工程师,为系统提供运维工作,其进阶为大数据运维架构工程师,负责更加复杂的运维工作。

1.大数据运维工程师。该职位主要对大数据平台进行运维工作,主要负责日常维护工作。基本工作要求为:计算机相关专业本科以上学历,2年以上大型系统运营经验。有监控和容灾的实际经验;具备发现问题、分析问题、解决问题的能力;能出具系统优化的整体解决方案;具备良好的自学能力。责任心强,有良好的对外沟通和团队协作能力;运营过Hadoop、Spark、Hive、Hbase、Storm、PostgreSQL等相关系统,有从事过海量数据分布式处理、各种分布式计算,或者分布式存储、分布式计算系统相关的工作经验。

2.大数据运维架构师。该职位需要有非常丰富的运维工作经验,并需要从系统架构层面进行运维思考。其基本工作要求为:负责分布式集群的运维,包括版本升级、系统优化、故障处理、集群监控;掌握Hadoop、Hive、Spark、Yarn、Kafka、Hbase、Flume、ES 等组件的安装、配置、使用和优化;熟悉源码者优先;熟悉 HDP 者优先;掌握Linux 操作系统的配置、管理及优化,能够独立排查及解决操作系统层的各类问题;熟悉至少一门脚本语言(Python/Shell),有自动化运维工具开发经验者优先。

(三)数据分析类

该类岗位主要进行数据分析方面的工作,分为大数据分析师和大数据算法工程师,其中大数据分析师主要对数据进行基础分析,而大数据算法工程师则主要通过机器学习和数据挖掘算法进行分析设计,属于更加有难度的工作。

1.大数据分析师。该职位需要运用数据分析的基本手段对大数据进行分析并生成分析报告。一般要求应聘人员熟悉各种数据挖掘算法(如逻辑回归、决策树、贝叶斯、神经网络等)及其原理,能根据业务分析专题,建立挖掘模型,选择最合适和高效的算法并实现;熟练使用R、Mahout、SPSS、SAS中某一种或多种分析软件,熟悉SQL语言;具有海量数据挖掘及分析相关项目经验,熟悉文本分类、聚类、机器学习,有相关项目经验者(互联网分析挖掘经验、文本挖掘经验,微博数据可视化和图片识别经验)优先;能跟进业务线项目的数据分析工作,完成上线前后的数据调研、效果评估等分析报告;能够根据产品运营数据,出具产品分析报告,并对产品提出优化建议

2.大数据算法工程师。该职位需要机器学习和数据挖掘的相关知识,并涉及一些算法设计相关内容。基本工作要求为:精通SPSS Clementine、SAS EM等各类型数据分析工具,能制作专业分析报告,精通统计学,数据挖掘技术,尤其是回归模型、决策树模型;熟悉常用数据挖掘算法,包括但不限于决策树、逻辑回归、支持向量机、神经网络等;有金融、通信或互联网某一行业实际数据挖掘项目经验,并对此行业业务有深刻认识;熟悉Hadoop的体系架构和运行原理,熟悉Hadoop 的MapReduce 原理,有使用Python、Shell、Java的MapReduce开发实战经验者优先;熟悉Java、Scala、R、Python至少一种;了解大数据框架Hadoop、Spark等。

(四)大数据科学家

这个岗位有其特殊性,既要求对数据分析有一定了解,也要求对大数据平台有一定了解。基本要求是其中一项突出,另一项需要了解并会使用。其基本工作要求为:要求具备编程、计算机科学相关专业背景。掌握处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能;除了数学、统计方面的素养之外,还需具备使用SPSS、SAS等主流统计分析软件技能;数据可视化,对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化。

(五)产品运营类

这个岗位主要是负责产品运营,由于其与大数据相关,所以有其专业特殊性。

1.数据产品经理。需要利用大数据分析相关知识对产品进行设计,需要极强的综合能力。一般要求3年以上数据分析、数据挖掘、推荐系统等相关产品策划经验;熟悉DSP、SSP、ADX平台,了解广告RTB原理和算法;熟悉精准投放和DMP用户画像的领域知识等;熟悉广告平台运营模式,充分理解品牌广告和效果类广告的投放特点;对机器学习、概率统计、最优化算法原理有深入理解;具备较强的团队协作能力和沟通能力,思维活跃,学习能力强。

2.数据运营专员。需要利用大数据分析,进行运营体系的构建与支持,需要数据建模等相关知识。要求应聘人员可以根据公司业务发展规划,构建高效的大数据运营支撑体系,提升大数据对生产经营的支撑能力;根据生产需要,负责个性化分析应用的支撑工作,包括需求分析、口径管理、脚本开发、数据提取、数据分析等工作;基于大数据分析结果,主导用户和产品的大数据运营专项策划并组织实施,确保关键运营指标的达成;负责用户行为数据建模,主动挖掘用户特征并将结果应用于业务推广,提升业务推广的质量和效率;根据公司发展战略,主动发现运营中存在的问题,并形成大数据分析报告给公司领导或业务部门决策。

具体的职位体系图谱如图1所示。其更能直观地展示出我们的市场调研结果。

图1 大数据职位体系

二、课程体系

大数据的兴起与众多领域的大型数据集的出现直接相关。科学、社会科学、商业、人文和工业都在产生前所未有的原始数据或结构化数据。数据量的增长导致我们通常无法在没有自动化软件的帮助下进行直接有效的人工分析。大数据是将计算机科学领域和用于询问数据提取有用信息的统计领域汇集在一起的新兴学科。多领域交叉学科对课程体系设置有了新的要求。

我们根据每个职位的要求,整理出能力点,并根据其具体需求,整理出知识点,根据知识点,结合ACM DSTF中推荐的相关课程体系设置课程,通过对知识点的总结和归纳,使课程在符合学生学习能力的合理可接受范围。我们将课程分为6大部分。

(一)计算机基础课

数据科学严重依赖计算和计算设备:收集和存储数据,了解数据的数字表示影响精度的方式,以及不同处理器类型和配置如何影响计算效率的方式,了解在处理过程中存储和移动数据。由于大数据专业学生将与其他系统进行交互,因此他们应该能够开发能够独立或与现有软件和/或工具集成的程序。鉴于它们在许多数据科学应用中的作用,对矩阵表示和操作给予了特殊的要求。该类课程为基础必修课,主要为学生建立牢固的计算机知识体系。主要包括程序语言设计:Java基础开发、C++、Python基础开发(二选一)、计算机系统、数据结构与算法、数据库系统、计算机网络、软件工程等课程。对应职业需求中语言类、计算机基础类需求,如:Java基础扎实,熟悉io、多线程、集合等基础框架;熟悉分布式、缓存、消息、搜索等机制;了解Sring MVC等框架;了解计算机网络;具有防火墙、入侵防御、VPN等网络安全系统的应用经验等。

(二)数据科学基础课

该课程为大数据方向的基础课程。在我们日益依赖各种形式的决策数据的数量和质量时,大数据专业学生负有保护数据完整性和正确使用数据的道德责任。数据挖掘的核心是处理、分析和呈现数据,以获得有价值的信息。分析的基本类型包括聚类、分类、回归、模式挖掘、预测、关联和异常值检测,并注意各种形式的数据,包括时间序列数据和Web数据。该接口的质量显著影响所有形式的可用性,并包括广泛的技术:动画、可视化、模拟、语音、视频、识别(人脸、手写等)和图形。这部分课程包括统计语言编程:R语言编程、应用统计、数据挖掘、实用机器学习、数据管理、数据分析与管理建模、数据可视化等课程。修读完该部分课程,学生将具备基础的数据分析能力,明晰基础的数据分析流程。满足职业需求中“了解数据挖掘算法如逻辑回归、决策树、贝叶斯、神经网络等及其原理,能根据业务分析专题,建立挖掘模型,选择最合适和高效的算法;熟练使用统计工具;熟练使用数据分析工具:熟练使用R、Mahout、SPSS、SAS中某一种或多种分析软件,熟悉SQL语言;熟悉Java、Scala、R、Python至少一种;精通SPSS Clementine、SAS EM等各类型数据分析工具,能制作专业分析报告”等要求。有助于从事数据分析师、数据运营专员等一系列基础数据岗位。

(三)大数据基础课

管理和处理大量数据时,相关的计算问题通常会随着数据量的增加而增加。大数据应用程序受益于可扩展的数据存储方法,可能跨越各种计算机,同时便于在适当的时间范围内进行处理。大数据应用程序还受益于可扩展的数据存储方法,这些方法可容纳大量数据,同时便于在适当的时间范围内进行处理。大数据专业学生还应该能够实现和理解数据收集和分析算法,具备基本的算法问题解决技能。他们应该了解算法的时空考虑,以及围绕数值计算的部分性拉尔问题。机器学习是指用于识别数据模式的广泛算法,先构建模型,然后生成模型,并可能进行产品化。机器学习方法的一个主要的类别可以描述为“监督学习”,包括分类和回归的技术;另一类为“无监督学习”,包括聚类和降维技术。数据科学家应了解这些类型的算法,包括此类学习所特有的挑战和方法。这些方法对数据科学至关重要。数据科学家应该了解他们应用的算法,并做出关于其使用的原则性决策。

(四)大数据专业课

“大数据”用来描述真正大型的系统,包括无法容纳在单个服务器上的视频、图像、手写等文件。此类系统具有规模问题:如何存储大量数据,如何确定数据是否高质量,如何以高效的方式处理数据,以及如何获得有用的见解。这些问题将在规模、数据存储、高性能计算和复杂性理论标题下讨论。这样的系统可能很复杂,因此要考虑到对大数据应用程序的软件支持。这类课程为大数据方向的进阶课程,包括linux系统的配置与维护、NoSQL与大数据管理系统、大数据工具箱、大数据计算平台的搭建部署及维护、MapReduce编程、大数据系统调优与运维工具、大数据可视化工具、设计模式(选修)、系统架构开发导论(选修)等课程。修读完该部分课程,学生预期可掌握大数据平台的搭建与编程工作,并会对系统进行调优与运维。设计模式与系统架构开发导论两门选修课程,可为学生提供未来的架构师基础。学完本部分课程,程度较好的同学可从事架构师见习工作,一般的同学可从事平台开发工程师、研发工程师、运维工程师、算法工程师等一系列工作。

(五)大数据实训课程

在技术活动中,大数据专业学生应该以负责任的方式行事,为专业带来荣誉。对于所学知识,应当积极投入训练,确保实践效果,从做中学,及时巩固所学知识,促进理论与实践相融合。同时,在实践过程中,除了熟练知识技能之外,还会遇到课堂上没有遇到的新知识、新问题,通过进一步学习,扩展知识面,进一步提升自己的专业技能。这部分课程包括大数据课程设计I-III、项目实训等课程,通过3个课程设计和一个项目实训,提高同学的动手能力。目前对大数据从业者的项目经验要求较高,据此设计了本次的实训课程。对应有Spark、Storm、Kafka等主流大数据计算组件开发和使用经验;熟练使用Spark机器学习算法包;熟悉高并发、高性能的分布式系统的设计及应用、调优;有基于Kylin或Greenplum等平台应用研发经验;熟悉Hadoop ecosystem,包括Hadoop(MapReduce,YARN,HDFS)、Spark、HBase、Hive、Flink、Storm、Drill、Presto、Impala等,具备两年以上开发和使用经验等需求,用以丰富同学们的项目经验。

(六)大数据方向课

大数据专业学生掌握大数据相关领域的应用信息,有益于实现知识落地,同时也能把握行业发展方向,启发研究内容。这部分课程包括工业大数据、金融大数据、教育大数据、商务大数据等。该课程为同学提供了一个了解相关的领域的平台,大数据的应用范围广泛,提早对方向进行了解有助于就业和择业。

结语

高校是国之重器,国家最优秀的科研人才集中在这里,弥补大数据行业的人才缺口是国家和高校面临的重要挑战和机遇。为实现创新驱动和应用引领,必须发挥高校的创新优势,加强大数据基础研究,建立数据科学理论体系,在办学过程中总结数据科学与大数据技术专业的办学经验,摸索规律,积极探索出一条适合中国国情的数据科学与大数据技术专业的科学研究与人才培养之路,为国家培养更多优秀的大数据技术专业人才。