400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

机器学习如何影响社交媒体内容?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-17

为不同的地理位置和受众群体开发和运营

我们大约在六到七年前就开始考虑它,但是那时我们不知道它会导致什么,以及我们是否以正确的方式来做。全球目标是向用户展示他们希望看到的内容,并尽量减少或完全删除他们不喜欢或不感兴趣的内容,首先我们认为这会影响用户的回报,然后我们对此假设进行了确认,在我们公司成立的九年中,有几种方法可以完成此任务,在开始时我们尝试了一种显而易见的方法,以按微笑数(喜欢的数字)– 微笑率对供稿进行排序。

 

这比按时间顺序排序要好

但同时,它产生了“患者在医院的平均温度”的效果:每个人都享有稀有的幽默感,并且总是会有那些对此不感兴趣的人(有时惹恼)今天流行的话题。重要的是,幽默是一个非常主观的事情,模因素来以讽刺和前沿着称,因此有必要清楚地了解哪个用户对哪些特定的内容感到愤慨,无聊和大笑,并在其中做出反应。有趣的是饲料–保留率和使用者寿命越高,此规则已传播到所有内容项目。这是其中许多成功的关键。易用性和相关性是内容项目成功的两个主要因素。

 

在这个实验中,我们开始尝试考虑不同微型社区的利益

动漫迷,运动迷,与猫狗的模因,潮湿模因的爱好者以及许多其他人,为此,我们开始形成几个主题特色提要,并通过使用图片中识别的标签和文本为用户提供感兴趣的主题选择,它在某些方面变得更好,但是却失去了社交网络的作用:内容的参与减少了,在细分供稿的过程中,很多真正的热门模因丢失了。用户看到了特定的内容,但缺少流行趋势,此外,决定在趋势问题中使用协作过滤的原理,当产品没有足够的用户个人数据时,此原则很有用,这是公司的原则立场。我们不在乎你是谁;我们只关心您喜欢什么。为此,产品分析和用户在产品内部执行的操作就足够了。

 

协作式过滤的工作方式如下

它接受用户对内容的正面评价的历史记录,还有其他用户具有相似的分数,然后向这些用户推荐这些用户之前喜欢的内容(具有相似的评价),今天,社交媒体上共享的内容中约有85%是模因形式,模因是非常具体的内容。让我们看一下一些需要的任务细节:

 

它完全受快速变化的趋势的影响

一周前让80%的观众微笑的上层的材料和形式只能因过时和第二次展示而激怒,它是模因含义的非常非线性的情境解释。在新闻搜集中,潜在客户可以是众所周知的姓氏,主题,它们经常会打中特定的用户。在电影的选择中,重点可以是演员,流派等等,是的,所有这些都可以成为收集个人模因的线索,但是,错过一个真正的幽默杰作会多么令人失望,幽默地讽刺地使用了不包含语义内容的图像或词汇!

 

所有这些内容都需要尽快进行分析和评估

在个性化推荐系统的情况下,不仅需要找到“钻石”,而且还需要预测社会各代表对内容的评价,这些细节对于机器学习模型的开发意味着什么?总之,必须对模型进行不断的数据训练。在开始研究推荐系统时,我们是在谈论数十分钟还是几个小时,尚不清楚。但是,这两者都意味着必须对模型进行连续的重新训练,甚至必须对一致的数据流进行更好的实时训练。这些不是寻找合适的模型体系结构并选择其超参数的可管理的任务:那些可以保证在两到三周内指标不会不可避免地下降的任务。

 

另一个困难是必须遵循A / B测试协议

在未先与部分用户核对并将结果与对照组进行比较的情况下,我们绝不会实施任何事情,我们建议每个人都以这种方式开发产品,经过深思熟虑后,决定启动具有以下特征的MVP:我们仅使用有关用户与内容交互的信息,在配备有足够内存空间的服务器上实时对模型进行了训练,从而允许您存储MVP,来自测试组的用户互动的整个历史已有相当长的时间,我们决定将培训时间限制为15-20分钟,以保持新颖性,并有时间在内容发布时一次使用来自访问该应用程序的用户的数据。

 

我们开始使用出色的协作过滤

包括矩阵分解随机梯度下降训练,但是不久我们想到:为什么不立即从简单的神经网络开始?具有简单的单层网络和仅一个线性嵌入层。不添加隐藏层,以免将自己埋在选择超参数的几周内。超越MVP吗?也许。但是,如果有配备良好GPU的设备(必须为此付费),那么训练这样的网络几乎不会比经典架构更复杂。

 

很明显只有两种情况

要么开发将在产品指标方面取得重大成果,然后有必要进一步挖掘用户和内容的参数,进行新材料和新用户的培训,在深度神经网络中,内容的个性化排名不会带来明显的增长,并且可以停止测试。如果出现种情况,则以上所有内容都会被重新处理到起始嵌入层,我们决定选择神经分解机。其操作原理如下:每个用户和每个内容由固定长度相同的矢量(嵌入)编码,这些矢量在用户和材料之间的一组已知交互作用上得到进一步训练。

 

在训练集中,存在用户观看内容的所有事实

1、为了获得关于微笑/喜欢以外的内容的正面反馈,还决定考虑单击共享保存按钮并发表评论。

2、如果存在交互,则将其标记为“ 1”

3、如果在查看之后用户没有留下积极的反馈,则通信被评为“ 0”

因此,即使没有精确的评分等级,也将使用显式模型(具有来自用户的明确评分的模型)代替隐式模型,后者只会采取决定性的动作,我们也尝试了隐式模式l,但是它并没有立即开始工作,因此我们专注于显式模型,也许,对于隐式模型,应该使用比简单的二进制交叉熵排序损失函数更多的技巧。

 

神经矩阵分解与标准的神经协作过滤之间的区别在于所谓的双向交互池层

而不是通常的完全连接层,后者将用户和内容的嵌入向量连接起来,作为这种训练的结果,已经使用相同微笑特征的用户的嵌入变得彼此接近。这是对用户的方便的数学描述,可用于许多其他任务。但是,这是一个不同的故事,因此,用户开始观看提要中的内容。每次用户查看,微笑,分享等时,客户端都会向我们的分析存储库发送统计信息。在此过程中,我们选择感兴趣的事件并将其发送到ML服务器,在此将它们存储在内存中,每隔15分钟,在服务器上就会开始重新计算模型。每次重新计算后,建议中都会考虑来自用户的统计信息。

 

客户要求提要的下一页然后以标准方式形成

在此过程中,内容列表将发送到ML服务,它根据重新计算的模型为用户对这些内容进行排序,结果,用户可以看到模型认为他们更喜欢的图片和视频,测试新模型,服务器和数据的工作是手动完成的。对于每个新模型,您都需要有一台服务器,然后可以在其中复制工作或模型所需的数据,关于精选提要(我们产品的主要内容提要)中事件的数据将开始发送到服务,同时还将数据传输到控制服务器。然后,通过A / B实验,他们的退货建议来自新工厂。如果出现任何问题,可以关闭操作并返回控制建议。

 

ML内容率服务是大量细微改进和调整的结果

对于初学者,培训中包括注册用户,初存在关于它们的问题,因为他们先验地无法对内容进行操作(微笑,共享,转发,评论),这是查看内容后频繁的反馈。但是很快,这些担忧变得徒劳无益,并阻碍了关键的增长点。该配置包含许多实验和训练数据选择:这由很大一部分受众组成,或者延长了所考虑的交互的时间间隔。在这些实验中,很明显,数据量在产品指标和模型更新时间中起着重要作用。通常,排名质量的提高会在额外的10-20分钟内下降,以重新计算模型,从而导致新颖性遭到拒绝。

 

即使是小的改进也有很多结果

改进培训质量或加快培训过程或节省存储空间,例如存在一个问题,即交互不适合存储空间-我们必须对其进行优化,此外对代码进行了修改,例如可以包含更多的交互以进行重新计算,这也导致了更好的服务稳定性,现在我们正在努力有效地利用已知的用户和内容参数,正在建立一个递增的,快速可重新训练的模型,并且还出现了新的假设,以供将来进行改进,我们聘请了合格的专家来帮助我们更快地应对新想法的发展。

 

每个积极的结果都会导致越来越多的新假设和任务,这需要机器学习团队的发展和壮大–我们正在朝这个方向努力

在所有重要的结果中,是业务结果,自公司成立以来,我们一直专注于技术方面,我们从未想过要处理内容的语义问题,虽然确实,每个人都喜欢模因,在MLAI实施之后,它使我们不必经常关注其内容及其细节,因此出现了接触新受众群体和新的机会之窗,这在几年前是不可能的。

  客服热线:400-050-6600

商业联合会数据分析专业委员会

 

Prev article

人力资源分析的未来是怎样的?

Next article

企业怎样利用大数据对企业员工进行合理化管理?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务