Category: 机器学习 | mantch的博客

【机器学习】KNN

mantch

2019-08-02

机器学习

字数统计:

6.5k字

阅读时长≈

24分

何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该…

阅读全文

【机器学习】主题模型

mantch

2019-07-28

机器学习

字数统计:

4.6k字

阅读时长≈

16分

关于LDA有两种含义，一种是线性判别分析（Linear Discriminant Analysis），一种是概率主题模型：隐含狄利克雷分布（LATENT DIRICHLET ALLOCATION，简称LDA），本文讲后者。按照wiki上的介绍，LDA由Blei, David M.、Ng, And…

阅读全文

【机器学习】ML特征工程和优化方法

mantch

2019-07-27

机器学习

字数统计:

11k字

阅读时长≈

39分

特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本质上来讲，特征工程是一个表示和展现数据的过程。在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。主要讨论以下两种常用的数据类型。为了消除…

阅读全文

【机器学习】聚类算法

mantch

2019-07-25

机器学习

字数统计:

4k字

阅读时长≈

14分

聚类算法都是无监督学习吗? 什么是聚类算法？聚类是一种机器学习技术，它涉及到数据点的分组。给定一组数据点，我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上，同一组中的数据点应该具有相似的属性和/或特征，而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一…

阅读全文

【机器学习】EM算法

mantch

2019-07-21

机器学习

字数统计:

2.4k字

阅读时长≈

8分

最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值，…

阅读全文

【机器学习】马尔可夫模型

mantch

2019-07-17

机器学习

字数统计:

5.5k字

阅读时长≈

19分

马尔可夫网络、马尔可夫模型、马尔可夫过程、贝叶斯网络的区别这一节我们重点来讲一下马尔可夫，正如题目所示，看了会一脸蒙蔽，好在我们会一点一点的来解释上面的概念，请大家按照顺序往下看就会完全弄明白了，这里我给一个通俗易懂的定义，后面我们再来一个个详解。以下共分六点说明这些…

阅读全文

【机器学习】贝叶斯网络

mantch

2019-07-13

机器学习

字数统计:

5k字

阅读时长≈

17分

概率图模型是用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。如果用一个词来形容概率图模型（Probabilistic Graphical Model）的话，那就是“优雅”。对于一个实际问题，我们希望能够挖掘隐…

阅读全文

【机器学习】支持向量机(SVM)

mantch

2019-07-11

机器学习

字数统计:

4.9k字

阅读时长≈

17分

1.1 一个关于SVM的童话故事支持向量机（Support Vector Machine，SVM）是众多监督学习方法中十分出色的一种，几乎所有讲述经典机器学习方法的教材都会介绍。关于SVM，流传着一个关于天使与魔鬼的故事。传说魔鬼和天使玩了一个游戏，魔鬼在桌上放了两种颜色的球。魔鬼让天使用一根…

阅读全文

【机器学习】LightGBM

mantch

2019-07-10

机器学习

字数统计:

1.6k字

阅读时长≈

5分

LightGBM是什么东东不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM，在三天之内GitHub上被star了1000次，fork了200次。知乎上有近千人关注“如何看待微软开源的LightGBM？…

阅读全文

【机器学习】XGBoost

mantch

2019-07-10

机器学习

字数统计:

2.6k字

阅读时长≈

8分

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost，不得不提GBDT(Gradient Boosting Decision Tree)。因为XGB…

阅读全文