LOFTER for ipad —— 让兴趣,更有趣

点击下载 关闭

LOFTER-网易轻博

日常学习

253浏览    354参与
小易Yi啊
无文案. 背历史.就这样. 昨...

无文案.

背历史.就这样.

昨天英语口语分下来了,30满分!开森!

继续加油!

倒计时29天!

无文案.

背历史.就这样.

昨天英语口语分下来了,30满分!开森!

继续加油!

倒计时29天!

小易Yi啊

想要做什么事,就马上去做。即使做得不那么好也没关系,哪怕只完成70分,也比0要好。而且你会在接下来的一次又一次的实践中,越来越好,越来越接近100,而不是永远在0的起跑线踏步不前。

重要的是开始,而不是一次就完美。 ​​​

今日疯狂背历史!!!要死!

倒计时31天!

二模加油!

晚安

想要做什么事,就马上去做。即使做得不那么好也没关系,哪怕只完成70分,也比0要好。而且你会在接下来的一次又一次的实践中,越来越好,越来越接近100,而不是永远在0的起跑线踏步不前。

重要的是开始,而不是一次就完美。 ​​​

今日疯狂背历史!!!要死!

倒计时31天!

二模加油!

晚安

小易Yi啊

今日.

倒计时32天!


以梦为马,不负韶华!

今日.

倒计时32天!


以梦为马,不负韶华!

小易Yi啊

今日.

倒计时33天!

加油!

今日.

倒计时33天!

加油!

小易Yi啊

今天比昨天好,这就是希望.


时隔多日的我又回来了啦,重新调整了下自己,今天又是刷历史的一天!希望一星期后的二模不要让我失望哦!加油加油!

倒计时34天!

今天比昨天好,这就是希望.


时隔多日的我又回来了啦,重新调整了下自己,今天又是刷历史的一天!希望一星期后的二模不要让我失望哦!加油加油!

倒计时34天!

#赤小璃º#

问卷问卷问卷

https://www.wjx.cn/jq/80785954.aspx

作业求求填一下谢谢啦!

https://www.wjx.cn/jq/80785954.aspx

作业求求填一下谢谢啦!

优秀是一种习惯

集成学习-bagging和boosting

集成学习(算法框架):

提高模型能力+减少不同模型产生结果选择性的问题

[图片]

#不同类型的模型,或是同一类模型不同测试集

Bootstrap samples:有放回的取出


Bagging(bootstrap aggregating):

1.同一个模型+多个不同的训练集,生成多个分类器;

2.多个分类器进行投票(少数服从多数),得出结论


Stacking:

学习每个小分类器,形成权重,在进行分类(两层训练)

[图片]

Boosting:

[图片]
[图片]

第一个分类器出现之后,将分类器放回到原来的数据中测试,拿出一部分正确和一部分错误...

集成学习(算法框架):

提高模型能力+减少不同模型产生结果选择性的问题


#不同类型的模型,或是同一类模型不同测试集

Bootstrap samples:有放回的取出

 

Bagging(bootstrap aggregating):

1.同一个模型+多个不同的训练集,生成多个分类器;

2.多个分类器进行投票(少数服从多数),得出结论

 

Stacking:

学习每个小分类器,形成权重,在进行分类(两层训练)


Boosting:



第一个分类器出现之后,将分类器放回到原来的数据中测试,拿出一部分正确和一部分错误的作为训练集,生成另一个分类器;之后再生成一个分类器,作为解决前两个分类器的差异

 

Adaboost:

#最美妙的地方就是参数α=0.5ln((1-e)/e)是一个固定的权重

其他的步骤类似于boosting

#简单,基础分类器就好、几乎没有参数

#很少有过学习的问题、α是局部最优、模型可解释性不好....

 

regionboost:

#动态权重,取决于当前的输入

一般用k近邻方法判断输入接近判断对的样本还是错的样本,来决定权重

 

#boosting分类器是串行,bagging分类器是并行


优秀是一种习惯

推荐算法

Tf-idf算法(文档):

tf(t,d):单词在特定文档出现的频率

idf(t,D):log(出现这个词的文档个数/所有文档个数)

tf_idf(t,d,D)=tf(t,d)*idf(t,D)


PageRank算法(网页):

#指向我的网页

[图片]

#所有的网页加一起为1


Collaborative filtering协同过滤:

#打分矩阵~找到与被预估人相似的一群人对这个产品的打分,进行预测被预估人对这个产品的打分(也可以计算列与列之间的相关性)

#用平均分,因为不清楚每个人的打分习惯

Model-based cf:

将推荐问题转化...

Tf-idf算法(文档):

tf(t,d):单词在特定文档出现的频率

idf(t,D):log(出现这个词的文档个数/所有文档个数)

tf_idf(t,d,D)=tf(t,d)*idf(t,D)

 

PageRank算法(网页):

#指向我的网页


#所有的网页加一起为1

 

Collaborative filtering协同过滤:

#打分矩阵~找到与被预估人相似的一群人对这个产品的打分,进行预测被预估人对这个产品的打分(也可以计算列与列之间的相关性)

#用平均分,因为不清楚每个人的打分习惯

Model-based cf:

将推荐问题转化为分类问题(因为大量数据缺失,使用贝叶斯求各个打分的概率大小)

#如果是喜欢不喜欢,其中的空如何表示:喜欢表示为10,不喜欢为01,空为00

 


优秀是一种习惯

关联规则-the apriori method

关联规则:

[图片]

支持度:support(X)=#X/n(就是一个频率)

置信度:confidence(X->Y)=p(Y|X)

The apriori method:

一个频繁项所有的子集都频繁;

一个不频繁的超项都不频繁;

#不频繁:这个商品很少有人买...

Lk到Lk+1的生成方法:

[图片]

#序列模式(order)种类更多,但方法类似(利用子序列)

关联规则:

支持度:support(X)=#X/n(就是一个频率)

置信度:confidence(X->Y)=p(Y|X)

The apriori method:

一个频繁项所有的子集都频繁;

一个不频繁的超项都不频繁;

#不频繁:这个商品很少有人买...

Lk到Lk+1的生成方法:

#序列模式(order)种类更多,但方法类似(利用子序列)

优秀是一种习惯

Hierarchical clustering:(层次)

从低往上将所有的聚类都划分出来,然后

先是点聚成簇,各簇之间再聚集...最后形成一个簇

#数据集之间的距离自行定义


从低往上将所有的聚类都划分出来,然后

先是点聚成簇,各簇之间再聚集...最后形成一个簇

#数据集之间的距离自行定义


优秀是一种习惯

Density based methods:(密度)

分三类点:核心点、边缘点、噪点

从一个核心点出发,不断膨胀,直到形成一个簇

#和人视觉观察出来的分类要符合一些


分三类点:核心点、边缘点、噪点

从一个核心点出发,不断膨胀,直到形成一个簇

#和人视觉观察出来的分类要符合一些


优秀是一种习惯

期望最大法EM算法

#模型参数和隐含参数,知道模型参数可以求出隐含参数,知道隐含参数可以求出模型参数;现两类参数都未知,可以假设模型参数一个值,计算出隐含参数,再通过隐含参数计算出新的模型参数....循环迭代

高斯混合模型:

[图片]
[图片]

先假定两类参数的值,然后计算出某个点是某个高斯分布产生的值的概率,反过来就可以对所有的进行加权,计算出参数....循环迭代


#模型参数和隐含参数,知道模型参数可以求出隐含参数,知道隐含参数可以求出模型参数;现两类参数都未知,可以假设模型参数一个值,计算出隐含参数,再通过隐含参数计算出新的模型参数....循环迭代

高斯混合模型:



先假定两类参数的值,然后计算出某个点是某个高斯分布产生的值的概率,反过来就可以对所有的进行加权,计算出参数....循环迭代


优秀是一种习惯

Sequential Leader clustering

设定一个阈值,一个一个点扫描,每次一个点进来,和每个簇的中心点算一下距离,小于阈值加入,重新计算中心点;计算的距离全都大于阈值,自立门户


设定一个阈值,一个一个点扫描,每次一个点进来,和每个簇的中心点算一下距离,小于阈值加入,重新计算中心点;计算的距离全都大于阈值,自立门户


优秀是一种习惯

k-means-复习

k-means:

1.生成k个中心点

2.分配其他所有点分到这k个组里(各个点的垂直平分线对空间进行分割)

3.重新计算各组的中心点

4.重复迭代


注意:k怎么定、局部最优点、噪点敏感、数据形状有一定要求


k-means:

1.生成k个中心点

2.分配其他所有点分到这k个组里(各个点的垂直平分线对空间进行分割)

3.重新计算各组的中心点

4.重复迭代

 

注意:k怎么定、局部最优点、噪点敏感、数据形状有一定要求


优秀是一种习惯

聚类需要注意的一些地方

1.识别任何形状的数据

2.噪音数据的处理

3.标准化、变换等数据预处理会改变聚类结果


1.识别任何形状的数据

2.噪音数据的处理

3.标准化、变换等数据预处理会改变聚类结果


优秀是一种习惯

支持向量机-复习

间隔margin:就是分界面可以在两类数据之间来回平移的范围

支持向量support vectors:就是超平面继续平移就会碰到的那些点

#平移的范围越大,容错越大--只由几个点决定


分界面:wx+b=0

M=2/(||w||)  #就是间隔,需要对其进行优化,最大化

[图片]

拉格朗日乘数法+对偶问题和原问题等价--进行求解

#结果会是向量内积的形式

[图片]

因为大多数情况无法完全将两类数据进行分离开,所以需要放宽约束条件(加一个正值)

而目标函数就需要加一个惩罚量


线性不可分:

原始空间向高维空间映射过去,再进行...

间隔margin:就是分界面可以在两类数据之间来回平移的范围

支持向量support vectors:就是超平面继续平移就会碰到的那些点

#平移的范围越大,容错越大--只由几个点决定

 

分界面:wx+b=0

M=2/(||w||)  #就是间隔,需要对其进行优化,最大化


拉格朗日乘数法+对偶问题和原问题等价--进行求解

#结果会是向量内积的形式


因为大多数情况无法完全将两类数据进行分离开,所以需要放宽约束条件(加一个正值)

而目标函数就需要加一个惩罚量

 

线性不可分:

原始空间向高维空间映射过去,再进行分类

维度增加+点乘--可以在低维空间上做运算(kernel trick)


结果变化:




优秀是一种习惯

朴素贝叶斯算法-处理概率为0的情况

拉普拉斯平滑--分子加一,分母加上可能出现结果的个数

#没见过,不代表不存在

拉普拉斯平滑--分子加一,分母加上可能出现结果的个数

#没见过,不代表不存在

LOFTER

让兴趣,更有趣

简单随性的记录
丰富多彩的内容
让生活更加充实

下载移动端
关注最新消息