软件世界网 购物 网址 三丰软件 | 小说 美女秀 图库大全 游戏 笑话 | 下载 开发知识库 新闻 开发 图片素材
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
移动开发 架构设计 编程语言 Web前端 互联网
开发杂谈 系统运维 研发管理 数据库 云计算 Android开发资料
  软件世界网 -> 互联网 -> MachineLearning—LinearRegression(二) -> 正文阅读

[互联网]MachineLearning—LinearRegression(二)


    本篇博文接上一篇线性回归部分MachineLearning-Linear Regression(一);主要讲解记录线性回归的理论推导,资料主要参考Andrew的机器学习公开课的讲义notes。包括最小均方误差、等高线图、矩阵求导来简化LMS、最大似然解释、局部权重线性回归等内容。


知识储备极大似然估计:
θ表示未知参数,也就是等待被估计的那个参数,x1,x2......xn是样本X1,X2......Xn的样本值,最大似然估计其结果就是用已知的样本中的样本值来估计表示未知的等待被估计的θ。此外我们应该了解两个概念即,离散变量的P称为概率分布,连续变量的P则称为概率密度。在进入极大似然估计之前我们首先通过一个例子来回顾一下极大似然估计的求解过程:
[img]http://img.blog.csdn.net/20160329113153935?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

首先写出总体X的概率分布,[img]http://img.blog.csdn.net/20160329122815363?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center我们称其为联合分布律
[img]http://img.blog.csdn.net/20160329113439592?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center这个式子要特别留意一下,如果不熟悉的话,通常会忘记如何去写这个联合概率分布

注意事件发生记为x=1,不发生记为x=0,则
[img]http://img.blog.csdn.net/20160329113931906?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center=[img]http://img.blog.csdn.net/20160329114312705?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
这个事件发生的概率记为P,把P记为L(p)的形式(注意右边的表达式)
现在这个(X1=x1,X2=x2......Xn=xn)事件发生了,我们应选择能使这个事件发生的概率最大的θ。现在事情就变成了我们要最大化P,即最大化L(p),因为单调递增性不变又转化为最大化Ln[L(p)]的形式,
[img]http://img.blog.csdn.net/20160329115507332?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

这就求出了p的最大似然估计值,可见就是利用观测样本值x1,x2......xn来表示待估计参数p
由此我们引出最大似然估计的一般解释:
[img]http://img.blog.csdn.net/20160329120050731?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
[img]http://img.blog.csdn.net/20160329120323969?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center=
L(x1,x2,......xn,θ)=L(θ),xi=u1,u2,...    i=1,2,......n  θ∈【】,其中L(θ)为样本的似然函数

L(x1,x2......xn,θ')=max {f(x1,θ)f(x2,θ)......f(xn,θ)} θ∈【】称这样得到的θ'=g(x1,x2......xn)为参数θ的极大似然估计值,
如果参数为多个时则为:[img]http://img.blog.csdn.net/20160329122626514?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center


线性回归理论部分:
Andrew开头使用了房价预测的例子,简单易懂,可以看出线性回归就是要找到那条最能拟合样本点分布的直线,用这条回归线来预测房价:即预测一个确定的数值;
[img]http://img.blog.csdn.net/20160330105420686?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
就是我们最终要求出来的那条线,x0通常取1;x代表的就是影响房价的各种特征值,θ就是这些特征所具有的权值;
定义损失函数,损失函数所表达的意义就是我们求出的h与实际的房价y之间的误差,我们就要最小化这个误差J;
[img]http://img.blog.csdn.net/20160330110346667?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
使用梯度下降算法gradient descent来不断的更新权重θ[img]http://img.blog.csdn.net/20160330111036269?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center首先我们会初始化θ一个值,对J求梯度我们可以得出沿J下降最陡峭的一个方向,(注意J是θ的函数),定义一个学习速率α,或者称其为下降步幅,最终一步一步找到最优解。
[img]http://img.blog.csdn.net/20160330111929274?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

[img]http://img.blog.csdn.net/20160330112059259?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

最终的更新形式为:
[img]http://img.blog.csdn.net/20160330112235708?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

m个样本点以及每个样本点中的特征xj,θj都是同时进行的。until convergence在上一篇博文中我们使用迭代1500次作为终止条件;
我们看一下在程序中这个过程是如何实现的
[img]http://img.blog.csdn.net/20160330113452037?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center





Normal Equation:使用矩阵求导的方法简化了上面的计算过程
[img]http://img.blog.csdn.net/20160330114013200?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center[img]http://img.blog.csdn.net/20160330114032657?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center[img]http://img.blog.csdn.net/20160330114044778?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
[img]http://img.blog.csdn.net/20160330120321540?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
X是一个m*n的矩阵(x0,x1......xj,xn的形式),m个样本点,n个特征,θ是列向量(竖着的);

[img]http://img.blog.csdn.net/20160330121716233?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

具体过程Andrew已经给出了非常详尽的推导过程,具体可以参见下图:
[img]http://img.blog.csdn.net/20160330122044971?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center



最后得出θ的表达计算式,在实际中可以直接调用,省去很多麻烦
[img]http://img.blog.csdn.net/20160330122301439?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center



概率解释(Probabilistic interpretation):
[img]http://img.blog.csdn.net/20160330122455564?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Centerε(i)代表噪声,比如没有考虑在regression内的某些特征,实践表明噪声往往都是符合正态分布的;所以
[img]http://img.blog.csdn.net/20160330122826388?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
说明 y(i) | x(i); θ ∼ N (θT*x(i), σ2);我们要最大化事件发生的概率P,使用极大似然估计也就是最大化下式:
[img]http://img.blog.csdn.net/20160330123322255?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
[img]http://img.blog.csdn.net/20160330123519709?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center




最大化L(θ)最终转化为最小化[img]http://img.blog.csdn.net/20160330123933839?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center即J(θ
综上最小均方误差其实就是使用极大似然估计法去估计未知参数θ的一个过程。




局部权值线性回归:
[img]http://img.blog.csdn.net/20160330124248686?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

经常会出现左图欠拟合和右图过拟合的现象,为了避免这种情况得到最佳的中间图
与前面的不同,我们要尝试最小化[img]http://img.blog.csdn.net/20160330150438589?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center 其中[img]http://img.blog.csdn.net/20160330150527848?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center
[img]http://img.blog.csdn.net/20160330151356961?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center[img]http://img.blog.csdn.net/20160330151147350?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

假设x是我们要预测的,当xi离x距离较近时,w(i)的值比较大接近于1,则我们还是最小化损失函数J
当xi距离x较远时,则w(i)趋近于0,则∑趋近于0,这种情况下的xi不在考虑范围内;综上局部加权线性回归的思想就是利用x附近的点去估计参数θ,距离x较远的则不予考虑。








参考资料:http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning
http://www.cnblogs.com/hust-ghtao/p/3587971.html?utm_source=tuicool&utm_medium=referral
......显示全文...
    点击查看全文


上一篇文章      下一篇文章      查看所有文章
2016-04-01 16:55:16  
互联网 最新文章
C++11并发API总结
16.收款(AcceptingMoney)
数据链路层综述
IP协议及IP数据报解析
《浅谈HTTP协议》
计算机网络基础
LoadRunner和RPT之间关于手动关联和参数化的
HTTPS中的对称密钥加密,公开密钥加密,数字
上班需要打卡吗?(开通微信公众号--乘着风
ofbizjmsactivemq
360图书馆 软件开发资料 文字转语音 购物精选 软件下载 美食菜谱 新闻资讯 电影视频 小游戏 Chinese Culture 股票 租车
生肖星座 三丰软件 视频 开发 短信 中国文化 网文精选 搜图网 美图 阅读网 多播 租车 短信 看图 日历 万年历 2018年1日历
2018-1-20 7:28:56
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  软件世界网 --