投影寻踪是用来分析和处理高维数据,尤其是来自非正态总体的高维数据的一类统计方法。
基本思想:把高维数据通过某种组合,投影到低维(1-3维度)的子空间上,并通过极小化某个投影指标,寻找能够反映高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。
特点:
有些传统的多元分析方法可以看成是机械投影寻踪的特例。例如主成份分析,判别分析等,但是主成分分析方法是用主成分来描述或逼近原始数据,所反映的是数据的全局特征或宏观特征,这样显然就有可能会漏掉主要的局部特征或细节特征。
PP的出发点是度量投影分布中所含信息的多少,而我们知道高维数据集合的线性投影几乎是正态的,并且正态分布通常为无信息分布的代表。从而寻找与正态分布差异最大的线性投影分布,即含信息量最多的投影分布,成为PP方法的常用方式之一。
一般方案:
常用的投影指标:
方差指标,
$Q({\bf{a}}^TX)=\frac{1}{n}\sum_{i=1}^n({\bf{a}}^Tx_i-E({\bf{a}}^TX))$
最大化这个指标,能求得最好的投影分布。主成分分析就是取样本方差为投影指标的PP方法。
Friedman指标
偏度指标和峰度指标
信息散度指标
主成分分析(Principe Component Analysis,PCA),属于最常用的降维方法之一。顾名思义,主成分分析就是找出数据的主要部分来替代表示原始数据。
所谓主要部分,就是用它来表示原始数据时,误差小。
那么如何衡量这个误差呢?
首先,将数据从高维降低到低维,实际上就是找一个超平面,使其能够对所有样本进行恰当的表达。
那么,PCA主要从两个角度来衡量:
多维缩放和sammon映射都是比较经典的降维技术,相同点在于期望在将高维数据从原空间映射到低维子空间时,保留数据点之间的距离信息;不同点在于MDS是线性降维,而sammon映射的非线性降维。下面将简单介绍这两种技术。
本文出自Google,是一篇介绍Google Mobile App Store 推荐系统的工程性文章。全文虽只有四页,但却介绍了一个完整的推荐系统框架,可为工程实践、项目提供指导与借鉴。 原文地址:http://arxiv.org/abs/1606.07792
后期,Google在tensorflow中开放了该算法的API,详情参看google research blog
Memorization 和 generalization 一直是推荐系统十分关注的问题。所谓 memorization 就是基于用户历史数据,挖掘出频繁出现的 item 或 feature。显然,基于 memorization 推荐的通常是那样与用户历史行为数据局部相关或者直接相关的物品。而 generalization 要是基于相关性之间的传递, 探索历史上没有出现的新的特征的组合,着眼于提高推荐的多样性。
google research blog对这两个词给出了更为形象的解释,将memorization类比成人类大脑的记忆功能,而generalization则是人类大脑的归纳功能。两者相辅相成,共同促进。
那么,能否将memorization和generation结合成一个性能更好的推荐模型呢?
基于这一想法,google 推出了 Wide & Deep Learning 模型,该模型能够高效的解决那些输入数据巨大且稀疏的分类或回归问题,如推荐、搜索和排序等
如果用形式化的方式去描述,那推荐系统实际上是拟合一个用户对内容的满意程度函数:$y=F(x_i,x_u,x_c)$。显然,这个函数需要输入三个维度的变量:
- 第一个维度是内容特征:对于头条这样一个综合平台来说,内容包含:图文、视频、UGC小视频、问答、微头条。每种内容都有自己的特征,通常会采用不同的技术对不同的内容提取特征
- 第二个维度是用户特征:包括兴趣标签、职业、年龄、性别、还有其他模型刻画出的隐式的用户兴趣等
- 第三个维度是环境特征:这是移动互联网时代推荐的特点,用户随时随地移动,在工作、通勤、旅游等不同的场景,信息偏好有所偏移。
结合三方面的维度,模型会给出一个预估。
本文摘录自曹欢欢《今日头条算法原理》