软件世界网 购物 网址 三丰软件 | 小说 美女秀 图库大全 游戏 笑话 | 下载 开发知识库 新闻 开发 图片素材
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
移动开发 架构设计 编程语言 Web前端 互联网
开发杂谈 系统运维 研发管理 数据库 云计算 Android开发资料
  软件世界网 -> 云计算 -> 【HowToML】分类问题 -> 正文阅读

[云计算]【HowToML】分类问题


分类问题(Classification Problem)


样本因变量Y被标记为种类,也就是说分类是要预测一个离散值的输出。对应的问题就是分为 Y 类的概率。
支持向量机支持无数多的属性

逻辑回归(Logistic Regression)


逻辑回归:根据自变量确定因变量的种类,hθ(x)[0,1] 但是在分类问题中hθ(x)可以>1或者<0.
其中:
0: Negative Class
1: Positive Class

常见问题:垃圾邮件过滤,欺诈检测,肿瘤识别.
通常我们不会使用线性回归来解决分类问题.
[img]http://img.blog.csdn.net/20160327152650574
对于两种分类来说,我们通常会引入阀值(Threshold),但当我们加入一个X较大的数据通常会对阀值造成很大影响.
但现实中影响却不大.

假设函数(Hypothesis Representation)


为了使hθ(x)[0,1],我们需要更改回归问题时用到的函数,变成形式hθ(x)=g(θTX).
其中g称为S型函数(Sigmoid function)或者(Logistic Function),定义为g(z)=11+e?z,函数图像如下:
[img]http://img.blog.csdn.net/20160327152745716
带入可得

hθ(x)=11+e?θTx
我们也能将hθ(x)解释为如下形式:

hθ(x)=P(y=1|x;θ)
解释为:当给定x,概率参数为θ时,y=1的概率.
对于二元分类问题来说y=0y=1是对立事件,所以y=0的概率就是1?P(y=1|x;θ).

决策边界(Decision boundary)


决策边界是决策函数的一个属性,由参数决定,能根据参数将样本分为不同类别的边界.
[img]http://img.blog.csdn.net/20160327152818451
为了更好的理解决策边界,现在我们考虑逻辑函数g(z)的对称性.通常,我们会将阀值设定在0.5,也就是说当hθ(x)0.5y=1.
其实,也就是当hθ(x)0y=1.

代价函数(Cost Function)


对于线性回归来说:

J(θ)=1mi=1m12(hθ(x(i))?y(i))2=1mi=1mCost(hθ(x(i)),y(i))
代价函数可以方便的表示为:

Cost(hθ(x),y)=12(hθ(x),y)
我们为什么不能直接套用线性回归的代价函数?因为我们期望代价函数能得到一个最小的值,但线性回归的代价函数是非凸函数(Non-convex),如左图,有多个局部最小值.我们期望能得到右图.
[img]http://img.blog.csdn.net/20160327152842076
那么逻辑回归的代价函数应该设计成什么样呢?

Cost(hθ(x),y)={log(hθ(x)?log(1?hθ(x))(if y=1)(if y=0)}
[img]http://img.blog.csdn.net/20160327152907061
[img]http://img.blog.csdn.net/20160327152928639
假设有个目标的x0,我们预测为1,但事实上却相反,那这个算法就会收到较大的惩罚.反之亦然.
但是有处于中部的预测错误,我们就不会受到较大惩罚.
为了方便编写,我们可将Cost函数转换成:

Cost(hθ(x),y)=?y log(hθ)?(1?y)log(1?hθ(x))
所以

J(θ)=1mi=1mCost(hθ(x(i)),y(i))=?1mi=1my log(hθ)+(1?y)log(1?hθ(x))

逻辑回归的梯度下降


梯度下降算法:

repeatuntilconvergence{θj:=θj?α??θjJ(θ0,θ1)(for j:n,n=2)}
带入待解函数后可化简为

repeatuntilconvergence{θj:=θj?α1mi=1m(hθ(x(i))?y(i))x(i)j(for j:n)}
惊奇(?)的发现,里面的公式其实没有变!
其实改变的只有hθ(x)函数.

特征缩放


线性回归的特征缩放是有效的!

其他参数求取方法

  • Conjugate gradient
  • 共轭梯度法BFGS(变尺度法)
  • L-BFGS(限制变尺度法)

优点:
  • 不需要手动选择学习率α(通过线性搜索选择)
  • 比梯度下降快

Octave中使用函数:
fminunc(无约束最小化函数):
 -- Function File: fminunc (FCN, X0)
 -- Function File: fminunc (FCN, X0, OPTIONS)
 -- Function File: [X, FVAL, INFO, OUTPUT, GRAD, HESS] = fminunc (FCN,
          ...)Octave:

具体用法
##定义代价函数
function [jVal, gradient] = costFunction(theta)
    #...
options = optimset( 'GradObj', 'on', 'MaxIter', '100');

initialTheta=zeros(2,1);
[optTheta, functionVal, exitFlag] ...
    = fminunc(@costFunction, initalTheta, option;

options 解释:
  1. 梯度下降
  2. 打开
  3. 最大迭代次数
  4. 100次

exitFlag:
如果为1就是收敛了,具体查阅手册.

解决多类别分类问题(Multi-class classification)


思想: 把多类别分类转化为多次逻辑回归,也就是每次分为两类,一类为本次所选取的类,另一类为剩下的(One-vs-Rest).
[img]http://img.blog.csdn.net/20160327152300538
最后我们能得到K(种类个数)个逻辑分类器.也就可以得到每一种可能性的概率了,通常我们取最大的那个作为结果.
......显示全文...
    点击查看全文


上一篇文章      下一篇文章      查看所有文章
2016-03-28 21:49:19  
云计算 最新文章
CentOS7上安装Zabbix(快速安装监控工具Zab
十分钟搭建NeuralStyle服务
solr入门之拼写纠错深入研究及代码Demo
3个netty5的例子,简单介绍netty的用法
RedhatOpenshift云平台注册使用
Akka框架——第一节:并发编程简介
Hadoop实战:Linux报tmp磁盘存储不足
linux安装thrift
感觉快更快规划计划高考韩国
solr相似匹配
360图书馆 软件开发资料 文字转语音 购物精选 软件下载 美食菜谱 新闻资讯 电影视频 小游戏 Chinese Culture 股票 租车
生肖星座 三丰软件 视频 开发 短信 中国文化 网文精选 搜图网 美图 阅读网 多播 租车 短信 看图 日历 万年历 2018年1日历
2018-1-17 9:15:50
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  软件世界网 --