张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

工业大数据挖掘的利器——Spark MLlib

格创东智 2019-01-10 13:40 次阅读
格物汇之前刊发的《工业大数据处理领域的“网红”——Apache Spark》中提到,在“中国制造2025”的long88.vip龙8国际路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。Apache Spark 作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选。Spark有一个机器学习组件是专门用于解决海量数据如何进行高效数据挖掘的问题,那就是SparkMLlib组件。今天的格物汇就给大家详细介绍一下Spark MLlib。 Spark MLlip 天生适合迭代计算 在介绍Spark MLlib 这个组件前,我们先了解一下机器学习的定义。在维基百科中对机器学习给出如下定义: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进的计算机算法的研究。 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 很明显,机器学习的重点之一就是“经验”,对于计算机而言,经验就是需要进行多次迭代计算得到的,Spark 的基于内存的计算模式天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和网络,所以说Spark正是机器学习的理想的平台。在Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较,如图下图所示。 Spark MLlib 算法以及功能 MLlib由一些通用的学习算法以及工具组成,其中包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体主要包含以下内容: >>>> 回归(Regression) 线性回归(Linear 广义线性回归(Generalized Linear) 决策树(Decision Tree) 随机森林(Random Forest) 梯度提升树(Gradient-boosted Tree) Survival Isotonic >>>> 分类(Classification)   逻辑回归(Logistic,二分类和多酚类) 决策树(Decision Tree) 随机森林(Random Forest) 梯度提升树(Gradient-boosted Tree) 多层反馈(Multilayer Perceptron) 支持向量机(Linear support vector machine) One-vs-All 朴素贝叶斯(Naive Bayes) >>>> 聚类(Clustering)   K-means 隐含狄利克雷分布(LDA) BisectingK-means 高斯混合模型(Gaussian Mixture Model)   协同过滤(Collaborative Filtering) >>>> 特征工程(Featurization) 特征工程(Featurization) 特征提取 转换 降维(Dimensionality reduction) 筛选(Selection) >>>> 管道(Pipelines) 组合管道(Composing Pipelines) 构建、评估和调优(Tuning)机器学习管道 >>>> 持久化(Persistence) 保存算法,模型和管道到持久化存储器,以备后续使用 从持久化存储器载入算法、模型和管道 >>>> 实用工具(Utilities) 线性代数(Linear algebra) 统计 数据处理 其他 综上可见,Spark在机器学习上发展还是比较快的,目前已经支持了主流的统计和机器学习算法。 Spark MLlib API 变迁 Spark MLlib 组件从Spark 1.2版本以后就出现了两套机器学习API: spark.mllib基于RDD的机器学习API,是Spark最开始的机器学习API,在Spark1.0以前的版本就已经存在的了。 spark.ml提供了基于DataFrame 高层次的API,引入了PipLine,可以向用户提供一个基于DataFrame的机器学习流式API套件。 Spark 2.0 版本开始,spark mllib就进入了维护模式,不再进行更新,后续等spark.ml API 足够成熟并足以取代spark.mllib 的时候就弃用。 那为什么Spark要将基于RDD的API 切换成基于DataFrame的API呢?原因有以下三点: 首先相比spark.mllib,spark.ml的API更加通用和灵活,对用户更加友好,并且spark.ml在DataFrame上的抽象级别更高,数据与操作的耦合度更低; spark.ml中无论是什么模型,都提供了统一的算法操作接口,例如模型训练就调用fit方法,不行spark.mllib中不同模型会有各种各样的trainXXX; 受scikit-learn 的Pipline概念启发,spark.ml引入pipeline, 跟sklearn,这样可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来,使得工作流变得更加容易。 如今工业互联网飞速发展,企业内部往往存储着TB级别甚至更大的数据,面对海量数据的难以进行有效快速的进行数据挖掘等难题,Spark提供了MLlib 这个组件,通过利用了Spark 的内存计算和适合迭代型计算的优势,并且提供用户友好的API,使用户能够轻松快速的应对海量数据挖掘的问题,加快工业大数据的价值变现。作为TCL集团孵化的创新型科技公司,格创东智正在致力于深度融合包括Spark在内的大数据、人工智能、云计算等前沿long88.vip龙8国际与制造行业经验,打造行业领先的“制造x”工业互联网平台。随着未来Spark社区在AI领域的不断发力,相信Spark MLlib组件的表现会越来越出色。 本文作者:格创东智大数据工程师黄欢(转载请注明作者及来源)
收藏 人收藏
分享:

评论

相关推荐

Spark基础及源码分析视频

    本视频面向拥有Java语言基础的同学,以Java语言为蓝本,深入浅出的讲解scala语言的语
发表于 09-26 00:00 36115次 阅读
Spark基础及源码分析视频

SugarTalk004期之2019国际智能制造生态链峰会

人类社会进入工业化时代已经有260年,但真正给制造业赋予智能化的能力,也是在计算机发明之后,这段期间....
的头像 TechSugar 发表于 03-21 18:16 144次 阅读
SugarTalk004期之2019国际智能制造生态链峰会

10月量产!8K项目带动千亿级新一代信息long88.vip龙8国际产业链

在富士康超视堺第10.5代显示器全生态产业园区研发long88.vip龙8国际展示中心内,两台尺寸一致的电视正不停播放着相同....
的头像 CINNO 发表于 03-21 18:02 225次 阅读
10月量产!8K项目带动千亿级新一代信息long88.vip龙8国际产业链

中国制造企业转型升级的问题在哪儿?制造企业高管走出去看什么?

当前,中国制造企业面临提高运营效率、推进节能减排、提高产品质量、提升产品创新能力、实现数字化和智能化....
的头像 电子发烧友网工程师 发表于 03-21 15:39 113次 阅读
中国制造企业转型升级的问题在哪儿?制造企业高管走出去看什么?

国务院的工作报告明确提出了要推动工业互联网和“智能+”

从全球工业互联网发展趋势来讲,利用数字孪生体构建工业互联网体系,已经成为了常规做法。国内对数字孪生体....
的头像 电子发烧友网工程师 发表于 03-21 11:40 236次 阅读
国务院的工作报告明确提出了要推动工业互联网和“智能+”

谷云松: 工业互联网需要“回归工业软件本身”

目前,国内工业互联网领域的发展形势一片大好,所有人都在期待制造业能够通过新long88.vip龙8国际、新理念得到新发展。身....
的头像 工业4俱乐部 发表于 03-21 11:36 318次 阅读
谷云松: 工业互联网需要“回归工业软件本身”

人工智能与工业互联网的结合是大势所趋,现在只是刚刚开始

人工智能AI与工业互联网IIoT、大数据分析、云计算和信息物理系统的集成将使工业以灵活、高效和节能的....
的头像 电子发烧友网工程师 发表于 03-21 11:35 418次 阅读
人工智能与工业互联网的结合是大势所趋,现在只是刚刚开始

word count词频和TopK统计

Spark学习笔记(二)算子综合案例实战
发表于 03-21 11:09 23次 阅读
word count词频和TopK统计

工业互联网有利于推动制造业融通发展促进创新创业

工业互联网的本质和核心是通过工业互联网平台把设备、生产线、工厂、供应商、产品和客户紧密地连接融合起来....
发表于 03-21 09:08 17次 阅读
工业互联网有利于推动制造业融通发展促进创新创业

如何识别工业互联网的三重境界

工业互联网平台在当下已经是炙手可热了,正式进入政府工作报告。工业互联网也成为新基础设施的一部分。为行....
发表于 03-21 09:04 25次 阅读
如何识别工业互联网的三重境界

博世力士乐电子传动与控制有限公司二期扩建项目正式破土动工

“这一扩建项目旨在将西安工厂发展成为智能制造和工业自动化方案的整体供应商,以及全球‘未来工厂’示范基....
的头像 博世资讯小助手 发表于 03-20 17:42 965次 阅读
博世力士乐电子传动与控制有限公司二期扩建项目正式破土动工

关于AWE2019:康佳电视推Micro LED概念机

这款Micro LEDlong88.vip龙8国际概念机Mini LED TV采用巨量转移long88.vip龙8国际Mini LED背光、147%....
的头像 电子发烧友网工程师 发表于 03-20 16:02 331次 阅读
关于AWE2019:康佳电视推Micro LED概念机

开源工业互联网联盟秘书处决定提供“理事+”服务

据开源工业互联网联盟理事长胡权介绍,开源工业互联网创新中心可以聚焦到教育培训、自动化产线、云服务平台....
的头像 电子发烧友网工程师 发表于 03-20 14:41 173次 阅读
开源工业互联网联盟秘书处决定提供“理事+”服务

新势力之碧桂园建筑long88的“搬砖梦”

3月13日讯,奇点汽车已于近日与西门子(中国)签署战略合作协议,双方将在智能制造和大数据等方面进行合....
的头像 电子发烧友网工程师 发表于 03-20 14:31 267次 阅读
新势力之碧桂园建筑long88的“搬砖梦”

工业4.0资本汇——智能制造项目投融资沙龙”2019年启动会

2018年3月,智语科技在杭州成立,公司集结了拥有15年连续创业的运营大咖和近20多年人工智能领域研....
的头像 电子发烧友网工程师 发表于 03-20 13:42 314次 阅读
工业4.0资本汇——智能制造项目投融资沙龙”2019年启动会

谭建荣: 呼吁民企“拥抱”智能制造

呼吁民营企业抓住转型机遇,谋求新发展
的头像 浙江省物联网产业协会 发表于 03-20 11:38 204次 阅读
谭建荣: 呼吁民企“拥抱”智能制造

中国工业从制造迈向智造的十个路径方向

一般来讲,以下十个路径方向是中国工业从制造迈向智造的必经之路,只不过对于不同的行业和不同的企业来说,....
发表于 03-20 08:46 60次 阅读
中国工业从制造迈向智造的十个路径方向

企业在实施智能制造之前需要考虑三个支点

《论智能制造》系列中的“论智能制造的三个阶段”中,谈到了对三个阶段的基本认识。而如何实施智能制造,则....
发表于 03-20 08:43 44次 阅读
企业在实施智能制造之前需要考虑三个支点

中小企业实现智能制造之路的挑战及供应链管理

当然美国的制造业领先企业也对制造业的智能化趋势进行了布局和研究,比如GE公司提出的工业互联网(Ind....
发表于 03-20 08:39 56次 阅读
中小企业实现智能制造之路的挑战及供应链管理

智能制造促进传统行业转型升级 好处多多

万科董事会主席郁亮表示,科技和互联网是房地产行业发展进阶的重要驱动力,在传统的住宅开发、物业服务以及....
的头像 电子发烧友网工程师 发表于 03-19 17:33 1309次 阅读
智能制造促进传统行业转型升级 好处多多

美的工业互联网平台 M.IoT:让未来工厂触手可及

KUKAlong88、美的long88、高创传动、瑞仕格、工业互联网平台M.IoT……都来了
的头像 工控头条 发表于 03-19 17:27 849次 阅读
美的工业互联网平台 M.IoT:让未来工厂触手可及

大数据时代还需要数据治理吗?如何面向用户开展大数据治理?

该电力公司的大数据治理的起点是先以元数据为基础,构建数据资产管理体系。从用户的视角说明白企业数据有哪....
的头像 电子发烧友网工程师 发表于 03-19 14:43 821次 阅读
大数据时代还需要数据治理吗?如何面向用户开展大数据治理?

关于人工智能应用于工业场景中的各种实际案例

人工智能AI与工业互联网IIoT、大数据分析、云计算和信息物理系统的集成将使工业以灵活、高效和节能的....
的头像 电子发烧友网工程师 发表于 03-19 14:37 359次 阅读
关于人工智能应用于工业场景中的各种实际案例

中德互联网回顾,德国人民用不用互联网?

目前德国银行业正在联合推广Paydirekt移动电子支付,未来会不会像支付宝和微信支付那样通过App....
的头像 嵌入式资讯精选 发表于 03-18 17:04 385次 阅读
中德互联网回顾,德国人民用不用互联网?

工业互联网成两会热点,工业互联网是物联网在工业的应用

今年工业互联网的另外一个关键词是落地。工业互联网已经从理论探讨进入落地实践阶段。在工业互联网峰会上,....
的头像 许永硕 发表于 03-18 11:51 408次 阅读
工业互联网成两会热点,工业互联网是物联网在工业的应用

中国家电及消费电子博览会: 美的发布新品牌,展示工业互联网布局

中国家电及消费电子博览会(AWE)开幕前夕,美的集团在年度战略发布会上分享了对未来的洞察:美的认为,....
的头像 电子发烧友网工程师 发表于 03-17 11:16 693次 阅读
中国家电及消费电子博览会: 美的发布新品牌,展示工业互联网布局

济南将在新一轮智能制造发展中抓住机遇

  long88制造是一个漫长的产业链。从上游控制系统的编制、金属材料的制造,到新零部件——减速器的制造,....
发表于 03-17 10:53 56次 阅读
济南将在新一轮智能制造发展中抓住机遇

全国智能制造专家共同商讨云制造的发展问题

近日,由南京智能制造研究院发起的首届江苏省工业云制造创新中心专家委员会成立,并在宁召开首次专家研讨会....
发表于 03-17 10:40 70次 阅读
全国智能制造专家共同商讨云制造的发展问题

江西省5G发展规划:2023年全省5G产业规模达到1000亿元

未来5年,江西省将重点落实以“6431”为核心的5G发展总体布局,即推进5G与VR、工业互联网、车联....
的头像 电子发烧友网工程师 发表于 03-17 10:00 374次 阅读
江西省5G发展规划:2023年全省5G产业规模达到1000亿元

深南电路年营收超76亿,PCB业务贡献最大、增长最快

根据国际研究暨顾问机构Gartner报告预估,2019年全球穿戴式装置出货量将达到2.25亿台,年增....
的头像 电子发烧友网工程师 发表于 03-16 11:20 532次 阅读
深南电路年营收超76亿,PCB业务贡献最大、增长最快

江苏拓斯达(吴中)项目正式开工开业

江苏拓斯达(吴中)项目是拓斯达在长三角的重要战略布局,其功能定位是立足华东,辐射华北。项目一期占地9....
的头像 电子发烧友网工程师 发表于 03-16 11:04 469次 阅读
江苏拓斯达(吴中)项目正式开工开业

工业互联网对制造业发展的重要性

建设和发展工业互联网,对推动制造业转型升级,大力发展数字经济,打造制造强国、网络强国具有重要意义。
的头像 电子发烧友网工程师 发表于 03-16 07:57 753次 阅读
工业互联网对制造业发展的重要性

天泽智云的工业智能是怎么玩的?

面对制造业用户“数据孤岛”和“需求非标”的双重挑战,关注工业和制造领域的服务商,都会特别关注项目型思....
的头像 电子发烧友网工程师 发表于 03-15 16:50 522次 阅读
天泽智云的工业智能是怎么玩的?

详细解读了航天科工为国际工业互联网建设贡献的“中国方案”

其次是企业形态将向“极大化”和“极小化”两端快速演变:极大化的平台将产业链的纵横业务数据囊括其中,通....
的头像 电子发烧友网工程师 发表于 03-15 16:42 656次 阅读
详细解读了航天科工为国际工业互联网建设贡献的“中国方案”

两会热点:政府是如何看待工业互联网的?

一是数据采集难。当前,许多工业企业特别是中小微企业,多数机器设备没有联网,少数设备联了网,但是这些设....
的头像 电子发烧友网工程师 发表于 03-15 16:38 640次 阅读
两会热点:政府是如何看待工业互联网的?

50家企业的领袖汇聚一堂,共同探讨行业趋势走向

张小飞认为,long88进入战争年代。战之谋略即谋战略,胜战役,远战斗。智能制造=long88+智能软硬件+集成....
的头像 电子发烧友网工程师 发表于 03-15 15:23 411次 阅读
50家企业的领袖汇聚一堂,共同探讨行业趋势走向

继实施洛阳格力中央空调项目后,格力再次“牵手”洛阳

据悉,洛阳格力洗衣机、晶弘冰箱生产基地项目,是洛阳市和高新区引进的重点建设项目,总投资约50亿元人民....
的头像 电子发烧友网工程师 发表于 03-15 15:18 1769次 阅读
继实施洛阳格力中央空调项目后,格力再次“牵手”洛阳

科大讯飞展出了iFLYOS 软硬一体化的智能硬件端到端解决方案

具体来说,iFLYOS 是一套软硬一体化的端到端系统解决方案。科大讯飞以 iFLYOS 云端语音操作....
的头像 电子发烧友网工程师 发表于 03-15 13:58 597次 阅读
科大讯飞展出了iFLYOS 软硬一体化的智能硬件端到端解决方案

来看看Spark和Flink各自的优劣和主要区别

Flink是统一的流和批处理框架,基本数据模型是数据流,以及事件(Event)的序列,Flink从设....
的头像 电子发烧友网工程师 发表于 03-15 09:30 250次 阅读
来看看Spark和Flink各自的优劣和主要区别

IPv6规模部署是网络强国建设的要求之一部署IPv6迫在眉睫

专家介绍,目前中国IPv6普及率不足1%,落后于全球平均水平,IPv6是万物互联、万网融合的基础设施....
发表于 03-15 09:15 97次 阅读
IPv6规模部署是网络强国建设的要求之一部署IPv6迫在眉睫

5G与AI的互促式发展将形成乘法效应带来颠覆性的创新机遇

工业互联网是新一代信息通信long88.vip龙8国际与工业经济深度融合下的关键基础设施,不仅代表全球产业布局的新方向,也是....
发表于 03-15 09:08 75次 阅读
5G与AI的互促式发展将形成乘法效应带来颠覆性的创新机遇

工业互联网是实现智能制造的抓手,推动工业互联网是长期的工作

工业互联网分为广义的工业互联网和狭义的工业互联网。广义的工业互联网就是第四次工业革命的代名词。和德国....
的头像 人工智能学家 发表于 03-14 17:25 810次 阅读
工业互联网是实现智能制造的抓手,推动工业互联网是长期的工作

山东新松人工智能研究院合作共建签约暨揭牌仪式在济南举行

据悉,山东新松人工智能研究院由山东省科学long88.vip龙8国际厅、沈阳新松long88自动化股份有限公司合作共建。该研究院将....
的头像 long88long88.vip龙8国际与应用 发表于 03-14 15:31 1002次 阅读
山东新松人工智能研究院合作共建签约暨揭牌仪式在济南举行

TCL将在今年重点发力AI+IoT了,必将引发一场行业“共震”

其实早在3月6日,微博就上演了AI赴约的精彩一幕:在王煜全的推动下,TCL电子CEO王成在微博上邀请....
的头像 MCA手机联盟 发表于 03-14 14:02 521次 阅读
TCL将在今年重点发力AI+IoT了,必将引发一场行业“共震”

走向“智能+”时代,“中国智造”迎来了发展的春天

山东济南高新区的浪潮集团智能工厂,拥有中国第一条高端装备智能生产线。在这里,智能AGV小车、激光叉车....
的头像 深圳创新龙8国际娱乐网站研究院 发表于 03-14 11:08 671次 阅读
走向“智能+”时代,“中国智造”迎来了发展的春天

中国联通与OpenStack联合共同探索StarlingX开源边缘云平台

边缘计算的基本理念是将计算任务放在接近数据源的计算资源上运行,可以有效减小计算系统的延迟,减少数据传....
发表于 03-14 08:47 146次 阅读
中国联通与OpenStack联合共同探索StarlingX开源边缘云平台

海尔的三大创新向行业透露了信号?海尔为什么强调整体创新体系,强调用户体验、交互?

海尔在家电领域的发明专利非常多,我国家电领域80%的国际标准来源于海尔。但海尔并没有强调long88.vip龙8国际本身,更....
的头像 HOPE开放创新平台 发表于 03-13 17:14 967次 阅读
海尔的三大创新向行业透露了信号?海尔为什么强调整体创新体系,强调用户体验、交互?

探访村田创新智造园:一个指令搞定智能化

我们都知道,智能制造首先最重要的一步就是实现自动化及联网化。根据无锡村田电子有限公司副总经理钟伟跃介....
的头像 第一手机界 发表于 03-13 17:08 812次 阅读
探访村田创新智造园:一个指令搞定智能化

第二十届深圳国际机械制造工业展览会(SIMM2019)3月鹏城启幕

第二十届深圳国际机械制造工业展览会(SIMM 2019深圳机械展)将于3月28-31日在深圳会展中心....
发表于 03-13 16:56 576次 阅读
第二十届深圳国际机械制造工业展览会(SIMM2019)3月鹏城启幕

Hanlp分词1.7版本在Spark中分布式使用记录

新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过...
发表于 03-11 15:38 171次 阅读
Hanlp分词1.7版本在Spark中分布式使用记录

采用VMware和CentOS及Hadoop的Spark安装和配置

5 基于 Mac 平台 VMware 虚拟机的 Spark 安装 (5)
发表于 03-08 16:35 48次 阅读
采用VMware和CentOS及Hadoop的Spark安装和配置

2019人工智能博览会用AIlong88.vip龙8国际联通未来世界

                           &nb...
发表于 02-18 15:10 311次 阅读
2019人工智能博览会用AIlong88.vip龙8国际联通未来世界

spark集群使用hanlp进行分布式分词操作说明

本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作,文章整理自【qq_33872191】的博客,感...
发表于 01-21 10:45 165次 阅读
spark集群使用hanlp进行分布式分词操作说明

智能工厂、数字化工厂与智能制造的区别

智能工厂作为工业智能化发展的重要实践模式,已经引发行业的广泛关注。到底什么是智能工厂?智能工厂的核心架构是怎样的?能为企...
发表于 01-09 15:46 283次 阅读
智能工厂、数字化工厂与智能制造的区别

UWB高精度厘米级定位方案

中国古代人类为了不让自己迷失在茫茫大自然中,白天用太阳辨别方向,日出为东,日落为西,中午太阳在南;夜间则用北斗七星来辨别...
发表于 12-14 17:44 758次 阅读
UWB高精度厘米级定位方案

智能制造专家李明支招包装行业智能制造发展之路

12月12日下午,2018珠三角印刷包装智能long88.vip龙8国际交流会暨中山市印刷包装协会会员大会成功举办。广东省包装long88.vip龙8国际协会会长黄启洪、中山市...
发表于 12-14 16:03 354次 阅读
智能制造专家李明支招包装行业智能制造发展之路

hadoop和spark的区别

学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个...
发表于 11-30 15:51 446次 阅读
hadoop和spark的区别

智能制造对产业发展的有什么颠覆性意义?

智能制造是什么 当前,全球制造业正加快迈向数字化、智能化时代,智能制造对制造业竞争力的影响越来越大。 智能制造就是面向产...
发表于 11-15 10:50 482次 阅读
智能制造对产业发展的有什么颠覆性意义?