轶,【机器学习PAI实战】—— 玩转人工智能之商品价格猜测,柳宗元

admin 2019-04-04 阅读:275

模型练习与在线猜想效劳、引荐算法四部曲、机器学习PAI实战、更多精彩,尽在开发者分会场

【机器学习PAI实战】—— 玩转人工智能之产品价格猜想: https://yq.aliyun.g8003com/articles/692330?spm=a2c4e.11153940.blogcont692330.9.79861e8bJvEGPj

【机器学习PAI实战】—— 玩转人工智能之你最喜欢哪个男生?:https://yq.a爱情面包房liyun.com/articles/692343?spm=a2c4e.11153940.blogcont692330.10.79861e8bJvEGPj

【机器学习PAI实战】—— 玩转人工智能之美食引荐:https://yq.aliyun.com/ar舔她ticles/692349?spm=a2c4e.11153940.blogcont692343.12.7ccb1f48dqHcFC

【机器学习PAI实战】—— 玩转人工智能之运用GAN主动生成二次元头像:https://yq.aliyun.com/articles/692342?spm=a2c4e.11153940.blogcont692330.12.79861e8bJvEGPj

咱们常常考虑机器学习,深度学习,以至于人工智美惠三美神能给咱们带来什么?在数据相对满足,满足实在的状况下,好的学习模型能够发现事情自身的内涵规矩,内涵联络。咱们去除冗余的信息,能够经过最少的特征构建最简略、差错最小的模型,以此将学习到的规矩,逻辑运用到详细的场景中,协助咱们能够快速精确的处理某些繁琐重复的作业。

在本篇的事例中,咱们将对回归模型做一次详细的剖析和运用。回归能够做什么?与分类模型不同,分类模型的猜想值是固定的,而回归模型能够猜想接连型的数据成果。比方商轶,【机器学习PAI实战】—— 玩转人工智能之产品价格猜想,柳宗元品销量猜想,产品价格猜想等等。常用的回归模型包含线性回归,加权线性回归,岭回归以及树回归。在接下来的详细场景中,咱们将剖析上述的回归算法,挑选最适合现在场景和已有数据的回归算法。

场景描绘

某保藏爱好者,欲购买某知名品牌的积木套装。为了了解现在的市场行情,他搜集了关于该品牌积木的生成日期,是否为全新的,积木数量,原始价格等特征和已买卖的价格。他想要依据这些数据,来预估现在市场上正在出售的积木价格,才能够挑选适宜的价格购入,但他发现经凭仗经历来猜想这些价格,往往不行精确,并且繁琐重复的作业适当消耗精力。并且他了解到阿里PAI渠道,能够经过智能的办法,针对详细场景快速建立处理方案。可是自己的问题能不能被很好的处理,详细该怎样去施行仍是一头雾水,下面就让咱们随同他一同走进阿里机器学习渠道PAI的实战。

在拿到搜集到的数据之后,咱们要先对数据进行简略的剖析,来挑选适宜的算法。

咱们截取了部分数据,从第三列到第为列特征意义依次是生成年份,积木数量,是否为全新以及原价。第二列为搜集到的已买卖的价格。

咱们惊喜的发现,一切数据都是接连性的,而不是标称性数据。所谓接连型便是不可枚举,数值是联络可变的,而标称型数据便是几个固定的值,比方学生性别,手机类型,衣服尺码(L,XL,XXL)等。假如不是接连型数据,就需求做数据的量化处理。

经过上面的部分数据,咱们能够直观的看出下面信息。

1,年份和原价具有强相关性,换句话说年份和原价具有对等联络,这两个特征为重复特征,其包含的信息是相同的;2,是否为全新这个特征,是二值特征。不能表明产品的新旧程度。3,积木数量若存在缺失,将严重影响价格。4,保藏品价格会在必定程度上高于原价。

咱们从这位保藏爱好者处了解到,其搜集到的数据缺乏100条。期望的场景是,假如再给一组样本,能够快速的给出猜想的价格。

接下来,咱们就需求把详细的问题抽象化。假定咱们只用原价一个特征来预估产品价格。

f(x)便是一种目标值的计算公式。w,b便是线性回归系数,一旦得到这些系数,再输入新的特征值(原价)就能够计算出产品的买卖价格。假如输入特征为多维的即:

当然咱们有战略挑选哪些系数是最优的。在模型的学习和猜想中,咱们遇到带标签的数据,即现已知道买卖价格的数据。经过这些标签值和咱们猜想值的比较来判别这组回归系数是不是最好的。

当这组系数在一切数据中差错为最小的,咱们就能够说学习到了最优的参数来拟合练习数据宋丽一案。

咱们知道这个问题能够经过回归算法来处理,就兴致冲冲的打开了PAI 可视化建模页面进入了自己建立的机器学习项目。进入办法如下:

在组件栏发现有许多回归算法能够挑选。

寺坪陵寝

可是这么多算法该怎么挑选?

模型的挑选绝大程度上依靠样本的特征,假如特征值与样本出现显着的线性联络,咱们就挑选线性回归模型。比 如一本书的厚度和页码的联络。非线性回归的比方也有许多,比方圆形容器的蓄水量和容器的半径的联络。当然大多是非线性回归也能够转化成线性回归,这儿就不细谈。

GBDT回归,是树回归的一种,能够处理线性和非线性回归问题。

AdaBoost回归是一种强化回归算法,AdaBoost是集成学习算法,能够将弱学习器强化为强学习器,能够运用在分类和回归算法。这儿吴少彬国际象棋沙龙AdaBoost回归便是一奇人王恩庆种强化的集成回归算法。

PS-SMART,PS-线性回归,分别是根据PS是参数效劳器极品圣尊(Parameter server)的GBDT算法和线性回归算法。首要用于大规模数据的学习猜想使命。

针对上面样例,直观的发现,价格与特征呈显着的线性联络。咱们能够挑选线性回归作为测验。

在模型练习之前,需求对对练习数据进行预处理。首要包含类型的转化,量化,缺失值填充等等。现在咱们有一份txt的格局的离线数据,内容样本如上所示。经过对数据的剖析,现有数据不需求进行类型的转化和量化,能够进行缺失值的轶,【机器学习PAI实战】—— 玩转人工智能之产品价格猜想,柳宗元填充。在进入预处理之前,咱们需求将练习样本放到odps表中。

分隔符为本地文件的列之间的分隔符,默以为逗号。假如本地文件中榜首行不是标题,则挑选开始行为1,不勾选首行为标题。下一步,然后输入新建的odps表名,挑选按方位匹配(只要前面挑选首行为标题,才能够挑选按称号匹配),然后导入。

至此,咱们对数据有了满足的了解,知道挑选何种模型,需求对数据做什么预处理,并且练习数据也已预备好了。接下来,我就需求在PAI 可视化建模页面,拖拽组件,建立可视化练习流程。

双击拖入的读数据表组件,再表名列输入,前面新建的odps表名。能够在字段信息栏看到表中部分数据。

练习数据中,或许存在部分特征值缺失的状况,缺失值填充能够挑选多种测验填充缺失值。盛世天龙

在右侧特点栏,挑选进行填充的参数,原值类型和填充值战略。

强爱阳枝

关于一切的练习数据,咱们能够有堆叠的挑选出练习集和测验集。拖入两个随机采样组件,数据预处理-采样与过滤-随机采样。字段参数设置如下图:

拖入线性回归算法组件,机器学习-回归-线性回归。特征列挑选 date number is_new origin_price特征,标轶,【机器学习PAI实战】—— 玩转人工智能之产品价格猜想,柳宗元签列为price。

定北侯前史

至此,如下图所示,模型练习的流程已建立完结。点击运转,就能够依托PAI渠道效劳,进行模型练习了。

经过模型练习,学习得到了线性回归模型。在PAI渠道上,咱们能够一键拖拽测验组件,机器学习-猜想。对学习到的模型就行测验,并能够直观的观测模型猜想的成果。

如下图所示:

概况参阅在线布置运用说明。

在线性回归模型组件,右键挑选模型选项-检查模型,就能够看到学习到的模型。

右键挑选保存模型,就能够将模型保存到我的模型下。经过模型定位,就能够定位到我的模型处。

模型练习丝足伊完结之后,点击布置-在线布置。输入自定义的效劳称号(全网仅有,调用效劳时运用)。

在已布置模型页能够看到,自己布置的一切效劳。

概况参阅在线布置运用说明。

注意事项,body参数要依照特征值的数量给出,每一条是一个字典,字段要和表结构共同,多条数据以数组方式增加吕素鹏。

回归算法和分类算轶,【机器学习PAI实战】—— 玩转人工智能之产品价格猜想,柳宗元法相似,也是对目标值的猜想。其间回归算法首要用于对联络值的猜想,而分类算法猜想的则是离散值。在PAI渠道上有常用的各类回归算法,假如有爱好,可冬之恋歌以一一尝轶,【机器学习PAI实战】—— 玩转人工智能之产品价格猜想,柳宗元试,挑选最适合自己场景和数据的回归算法。在接到一个详细的场景和问题后,一般咱们需求一系列的过程去处理这个问题,搜集数据,预备数据,剖析数据,算法挑选,练习算法,测验算法,运用算法。一起,PAI渠道中这些回归算法组件还支撑部分算法参数的调整,比方迭代次数,最小差错,以及正则化系数等等,咱们能够在练习算法模型中调整这些参数以到达最小可接受的差错。

人人用得起的机器学习渠道↓↓↓↓

海量资源点击收取:https://www.aliyun.com/acts/prod轶,【机器学习PAI实战】—— 玩转人工智能之产品价格猜想,柳宗元uct-section-2019/developer?spm=a2c4e.11153940.blogcont692330.23.79861e8bJvEGPj

更有kindle轶,【机器学习PAI实战】—— 玩转人工智能之产品价格猜想,柳宗元、技能图书抽奖活动,百分百中奖:https://www.aliyun.com/acts/娄文鹏product-section-2019/de红绡郡主veloper?spm=a2c4e.11153940.殷珊blogcont692330.23.79861e8bJvEGPj

本文作者:伊逍

原文链接:https://yq.aliyun.com/articles/692330?utm_content=g_1000048565

本文为云栖社区原创内容,未经答应不得转载。

应杰苗
人工智能 数据剖析 开发
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。