有很多因素会影响网站的流量,以及用户的参与度。在这篇文章中,我们将看看我们用来帮助理解网站流量的众多技术之一:聚类。
聚类是什么?
在高层次上,集群是一种机器学习技术,它将类似的东西放入同一个桶中。这可以在一个监督要么无人管理的时尚。监督聚类就像基于面额的硬币排序;您已经确切地知道您的集群是什么。在实践中,你经常要处理脏的或损坏的硬币,所以它的面额不是很明显,因此你需要一些机器学习。无监督聚类是一种聚类形式,其中项目根据它们的相似程度自动集中在一起。通常情况下,你必须指定你的算法最终需要生成多少个集群,而这些集群可能并不明显(例如,你的算法可能会说,“嘿,我发现了一堆覆盖着绿泥的硬币!”)。
我们使用无监督聚类来帮助我们了解一个站点的主题是什么,以及该主题如何影响其流量。
了解带站点类别的互联网使用模式
对于任何网站,我们都能从我们的网站上了解到他们的流量数据面板,但我们需要扩展到整个互联网的人口。要了解更广泛的互联网使用模式,它有助于了解我们正在谈论什么样的网站。我们弄清楚了通过对其主题进行分类来解决的网站。例如,我们的数据可能会告诉我们关于数据科学的网站在有关豆豆婴儿的网站(我希望)的网站获得10倍。这意味着如果我看到与欺骗婴儿主题网站的数据科学主题网站的相同数量的小组成员,我可以自信地说野外有更多的数据科学粉丝。
虽然分类网站可能听起来很容易(它是,为a单当我们想对web上的每个站点都这样做时,事情就变得困难了。在太阳熄灭之前,没有足够的实习生来做这些。
有几件事是通过主题棘手的分类网站。首先是有大量可能的主题。字典中的每一个单词都可能是一个话题,但切片网站如此精细地使收集到有用的信息(即,“体育”是一个比“世界水下倒立,1917”更有用的话题。我们打击这是一种方式聚类,这是一个喜欢的机器学习术语,如同一起尽可能地拉开。作为一个例子,体育主题群集将包括棒球,足球,足球和水下倒立(也许)等东西。
这个例子暗示了对站点主题进行分类的第二个困难:一个站点可以有多个主题,它们可能没有以一种有意义的方式相关联。对比espn.com和sportsauthority.com。它们都是关于体育的,但一个是新闻聚合器,另一个是商店。我们通过让一个站点属于多个集群来解决这个问题。这就好比说sportsauthority.com从一边看像一个商店,而从另一边看又像一个体育网站。
识别群集
现在让我们回到如何确定这些主题集群。我们并不一定对你如何仅基于浏览内容来分组网站感兴趣。相反,我们感兴趣的网站有类似的流量模式,这也给我们关于什么网站的信息。
例如,让我们拍摄一个随机的网站,例如,Foobar.com一无所知。从我的小组来看,我可能会注意到那些访问foobar.com的人比那些从未去Foobar.com的人访问Foo.com和Bar.com更有可能。这告诉我有两件事:1)foobar.com,foo.com和bar.com可能是关于类似的东西,而且2)这些网站可能会收到可比数量和各种流量。第二条信息非常重要。如果我知道交通foobar.com实际收到了多少,我可以利用这些信息来准确估计交通foo.com和bar.com收到多少。可以对网站之间的链接进行类似的陈述(这是谷歌多年前开始的方式)。
为了达到我们的目的,我们从我们的数据源中生成大量的集群,然后让另一层机器学习来找出哪些是真正有用的。这意味着这些集群只是一个子集特征(用于变量或属性的另一个花哨的机器学习术语,或者通常,电子表格中的列)我们用于估计各种流量指标。我们如何使用这些功能以及我们如何让算法选择要使用哪些算法是另一个时间的主题。
总之,主题集群在帮助我们理解广泛的、互联网范围内的使用模式方面是非常有益的。它们帮助我们确定一个网站是人们每天都去查看最新新闻的网站,还是每月查看一次的网站。尽管仅仅基于人们的浏览行为,这些集群有不同的主题,如“体育”或“科技新闻”。我们将在以后的博客文章中深入探讨如何将这些集群和其他特性整合到我们的模型中。
在那之前,请阅读更多关于数据科学家是什么样子的文章,理解数据科学及其重要性