Welcome to CC's Blog!

keep inner peace.

投影寻踪

2018-03-10

CC

machine-learning

machine-learning
投影寻踪——projection pursuit

1. 基本原理

投影寻踪是用来分析和处理高维数据，尤其是来自非正态总体的高维数据的一类统计方法。

基本思想：把高维数据通过某种组合，投影到低维（1-3维度）的子空间上，并通过极小化某个投影指标，寻找能够反映高维数据结构或特征的投影，在低维空间上对数据结构进行分析，以达到研究和分析高维数据的目的。

特点：
- 降维，排除与数据结构和特征无关或关系很小的变量的干扰；
- 可以用来解决某些非线性的问题。PP虽然是以数据的线性投影为基础，但它找的是线性投影中的非线性结构，因此它可以用来解决一定程度的非线性问题，如多元非线性回归。
有些传统的多元分析方法可以看成是机械投影寻踪的特例。例如主成份分析，判别分析等，但是主成分分析方法是用主成分来描述或逼近原始数据，所反映的是数据的全局特征或宏观特征，这样显然就有可能会漏掉主要的局部特征或细节特征。

PP的出发点是度量投影分布中所含信息的多少，而我们知道高维数据集合的线性投影几乎是正态的，并且正态分布通常为无信息分布的代表。从而寻找与正态分布差异最大的线性投影分布，即含信息量最多的投影分布，成为PP方法的常用方式之一。

一般方案：
- 选定一个分布模型作为标准（一般是正态分布），认为它是最不感兴趣的结构；
- 将数据投影到低维空间上，找出数据与标准模型相差最大的投影，这表明在投影中含有标准模型没能反映出的结构；
- 将上述投影中包含的结构从原始数据中剔除，得到改进后的新数据；
- 对新的数据重复上述第二和第三步骤，直到数据与标准模型在任何投影空间都没有明显的差异为止。
常用的投影指标：
- 方差指标，
  
  $Q({\bf{a}}^TX)=\frac{1}{n}\sum_{i=1}^n({\bf{a}}^Tx_i-E({\bf{a}}^TX))$
  
  最大化这个指标，能求得最好的投影分布。主成分分析就是取样本方差为投影指标的PP方法。
- Friedman指标
- 偏度指标和峰度指标
- 信息散度指标
Read All
PCA算法

2018-03-10

CC

machine-learning

machine-learning
PCA

主成分分析(Principe Component Analysis，PCA)，属于最常用的降维方法之一。顾名思义，主成分分析就是找出数据的主要部分来替代表示原始数据。

所谓主要部分，就是用它来表示原始数据时，误差小。

那么如何衡量这个误差呢？

首先，将数据从高维降低到低维，实际上就是找一个超平面，使其能够对所有样本进行恰当的表达。

那么，PCA主要从两个角度来衡量：
- 最近重构性：样本点到这个超平面的距离都足够接近
- 最大可分性：样本点在这个超平面上的投影能尽可能分开
Read All
多维缩放MDS和Sammon映射

2018-03-10

CC

machine-learning

machine-learning

多维缩放MDS和Sammon映射

多维缩放和sammon映射都是比较经典的降维技术，相同点在于期望在将高维数据从原空间映射到低维子空间时，保留数据点之间的距离信息；不同点在于MDS是线性降维，而sammon映射的非线性降维。下面将简单介绍这两种技术。

Read All
【paper reading】Wide & Deep Learning for Recommender Systems

2018-03-06

CC

recommendation deep-learning

recommendation deep-learning

本文出自Google，是一篇介绍Google Mobile App Store 推荐系统的工程性文章。全文虽只有四页，但却介绍了一个完整的推荐系统框架，可为工程实践、项目提供指导与借鉴。原文地址：http://arxiv.org/abs/1606.07792

后期，Google在tensorflow中开放了该算法的API，详情参看google research blog

1. Introduction

Memorization 和 generalization 一直是推荐系统十分关注的问题。所谓 memorization 就是基于用户历史数据，挖掘出频繁出现的 item 或 feature。显然，基于 memorization 推荐的通常是那样与用户历史行为数据局部相关或者直接相关的物品。而 generalization 要是基于相关性之间的传递，探索历史上没有出现的新的特征的组合，着眼于提高推荐的多样性。

google research blog对这两个词给出了更为形象的解释，将memorization类比成人类大脑的记忆功能，而generalization则是人类大脑的归纳功能。两者相辅相成，共同促进。

那么，能否将memorization和generation结合成一个性能更好的推荐模型呢？

基于这一想法，google 推出了 Wide & Deep Learning 模型，该模型能够高效的解决那些输入数据巨大且稀疏的分类或回归问题，如推荐、搜索和排序等

Read All
今日头条推荐技术

2018-03-05

CC

recommendation

recommendation
今日头条推荐技术
如果用形式化的方式去描述，那推荐系统实际上是拟合一个用户对内容的满意程度函数：$y=F(x_i,x_u,x_c)$。显然，这个函数需要输入三个维度的变量:
- 第一个维度是内容特征：对于头条这样一个综合平台来说，内容包含：图文、视频、UGC小视频、问答、微头条。每种内容都有自己的特征，通常会采用不同的技术对不同的内容提取特征
- 第二个维度是用户特征：包括兴趣标签、职业、年龄、性别、还有其他模型刻画出的隐式的用户兴趣等
- 第三个维度是环境特征：这是移动互联网时代推荐的特点，用户随时随地移动，在工作、通勤、旅游等不同的场景，信息偏好有所偏移。
结合三方面的维度，模型会给出一个预估。
本文摘录自曹欢欢《今日头条算法原理》
Read All
集成学习

2018-03-04

CC

machine-learning

machine-learning

集成学习（Ensemble Learning）

Read All

1/1

Welcome to CC's Blog!

投影寻踪

投影寻踪——projection pursuit

1. 基本原理

PCA算法

PCA

多维缩放MDS和Sammon映射

多维缩放MDS和Sammon映射

【paper reading】Wide & Deep Learning for Recommender Systems

1. Introduction

今日头条推荐技术

今日头条推荐技术

集成学习

集成学习（Ensemble Learning）