欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

这可能是你看过最硬核的小红书算法

时间:2022-12-14 20:34:17 | 浏览:3396

这是一篇哈佛医学院的HMS学术文章,一个叫Nsoesie和他的小伙伴们分析了医院停车场的车辆数量和互联网搜索趋势,得出了疫情最早在19年8月在武汉开始。当然这一说法被哈佛医学院自己否了,理由是不适当和不充分的数据、对统计方法的滥用和误解,以

这是一篇哈佛医学院的HMS学术文章,一个叫Nsoesie和他的小伙伴们分析了医院停车场的车辆数量和互联网搜索趋势,得出了疫情最早在19年8月在武汉开始。当然这一说法被哈佛医学院自己否了,理由是不适当和不充分的数据、对统计方法的滥用和误解,以及挑选互联网搜索词。事情并没有随着问题的发现终止,Nsoesie这些人的说法得到了媒体的广泛报道。

我们来把整个时间进行简单概括,大致就是——很多数据说明医院里的车多了;车多了,肯定是看病的人多了;看病的人多了,肯定是得了新冠肺炎;同类类比,南京中华门景区旁边是市第一医院,直线距离1.1公里。除了一个小停车场、一个巷子、医院地下停车场,没有其他停车位,小停车场和巷子日常是停满了的。国庆假期到了,医院停车场满了。得出的结论是——南京爆发疫情了。

如果从现象推原因,事实会差多少?上不了台面的科研骗局,但是用脚投票的大众选择相信,不相信的人却别有用心地传播。

对应到运营行业中,是不是很像整天方法论、刀法、套路、核心、SOP的某些人?从结果拆方法,方法汇总复用告诉100个人。只要有1个人做好,就可以说“你没有做好,别人能做好,是你的问题”。哲学中有个朴素的观点是“实践是检验真理的唯一标准”,而实践之所以作为真理的检验标准,这是由真理的本性和实践的特点决定的。

做火了一两个账号/甚至没做过账号,总结出的运营经验语句都不通顺,前后经不起推敲,而大家已经掏钱上车了。如下图,其实所有需要分发内容的APP都是这个逻辑。

所以这篇内容我不会写那些网上一搜就会搜到10篇有9篇一样的小红书算法内容,同样和上篇内容一样做不到通俗易懂,甚至枯燥,看了不知所云。但相信我,看完你们会有很大的收获。也许业务中的一些小的问题终于得到确认,可能看待小红书运营的角度更加的多元化,或者学会了更加具象的思维。

想听刀法、方法论、扯淡的可以点右上角的×了,如果你们想从更底层去一点点认知自己在做的平台,这篇内容如果对你们有帮助那就太好了。我扒了很多论文、论坛以及找来了不少小红书公开演讲的PPT梳理总结,与实际业务相结合,欢迎关注点赞留言。

01

很多人经常说小红书算法,大部分人从产品角度出发,少部分人从运营角度出发,几乎没有人从技术角度出发。

算法是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。定向A➡定向B,可能是男性和女性,也可能是国王和皇后。我们应该先解释A和B,而不是讨论怎么从A➡B。

从产品角度出发没有什么大问题,但是有两类大点,即产品的背景及使用。产品的背景包括解决什么需求、具体的使用场景是什么样、目标用户是什么。产品的使用包括体验、UI、美工、交互。我看了大多数人对小红书算法的分析,是从UI角度出发,即使用者界面出发,其实是相当不准确或者说浅层次的。

从UI角度出发,抖音和小红书相似程度是非常高的。抖音的首页-推荐、关注、同城和小红书的首页-发现、关注、同城基本一致,消息页和我的页面也基本一致,那么算法和逻辑就一致吗?

差的太多了,反映到结果上,我们抖音和小红书同样的都做了200万粉左右,一个基本没有任何变现,一个收益很高。后来我们反复复盘,平台就像那些年我们追的女孩子,没有人永远年轻,但总有人正在年轻。即使运营了很多年,我们对当初的这个女孩也时常感到陌生。而平台也总会诞生新的机会,给后来者遐想空间。

话不多说,让我们简单的梳理小红书算法。不少段落取自ArchSummit深圳演讲-赵晓萌(小红书算法架构师,负责机器学习应用)、2019阿里云峰会·上海开发者开源大数据专场小红书实时推荐团队负责人郭一的发言、以及秦波(推荐引擎北京工程负责人)、马尔科(小红书大数据组工程师)的帖子/PPT。如有侵权,联系修改或者删除。

小红书社区是一个分享社区+电商的APP,分享社区通常意义上都是以女性为主,少量话题引导。每天平台生产的内容,要如何转发分发给用户,让用户看到用户想看的,这是算法需要解决的问题。

对于小红书来说,社区提供用户黏性,为电商引流,电商把这部分流量变现,在APP里形成闭环,社区和电商互相推动。对于算法团队来说,有社区的用户数据,有用户在电商版块的行为数据,如何把两边的用户行为连接起来,更好的理解用户,是算法的根本出发点。

现在大家普遍认可的都是下面这个流量分发模型,系统根据用户互动效果进行评分的体系是CES。实际上太笼统了,CES评分也不知道是出现在整个推荐流程中的第一步、第二步、第三步,还是反复计算。接下来我会通过具体的一些案例,从技术的角度去解释。

如果有看过我上篇讲搜索流量的小伙伴应该有印象,一篇笔记的搜索流量相对稳定占位,而推荐流量是笔记成为爆款的核心。小红书线上推荐的流程主要分为三步:

  1. 从小红书用户每天上传的笔记池中选出候选集,通过各种策略从千万条的笔记中选出几千个候选集进行初排

  2. 在模型排序阶段给每个笔记打分,根据小红书用户的点赞和收藏行为给平台带来的价值设计了一套权重的评估体系,通过预估用户的点击率,评估点击之后的点赞、收藏和评论等的概率进行打分。

  3. 在将笔记展示给用户之前,选择分数高的笔记,通过各种策略进行多样性调整。

02

那么小红书是如何从每天的笔记池中选出候选集进行初排的呢?

小红书的内容图文并茂,用户产生的内容图片多,质量很高。用CNN(卷积神经网络)提取图像特征,用Doc2Vec(文本到向量模型)提取文本特征,通过一和简单的分类器就能把用户分到主题中,而主题是人工标定的上百上千个主题。这是初排。

03

CNN和Doc2Vec具体是怎么提取笔记进行分类的?

关于图片的识别,小红书是一个非常视觉的社区,图像很多,小红书用图像提取特征就已经能达到良好的效果,准确率大概是85%时覆盖率能达到73%左右。加上文本以后效果更好,准确率达到90%,覆盖率达到84%。

图片这是第一个在内容创作中需要注意的地方,对图像的夸张识别到什么程度?

我们有一次发幼儿、中小学的教育案例,拍到了角落翻开来的书上关于母婴胎教类的两行字,肉眼都看不清,违规发警告说涉及到婴儿遗传等敏感内容,账号不被推荐3天。后来反复查找原因,才发现这个问题。

这里再举一个更常见的例子,涉及到了GBTD模型里的机器深度学习。小红书上流行分享治痘,有很多脸上有很多痘痘怎么治好的笔记,怎么把这些观感其实不适的内容推荐给要看的人是一个问题。

当小红书尝试用CNN model做这个事的时候,发现无论照片是全脸漏出、半脸、1/4脸甚至只有少量的脸部器官,都可以很好地识别甚至识别图里的文本,对反作弊有一定的帮助。所以,不要在图片上进行任何夹带私货,图片识别+图片文本识别,基本上准确率有90%。

再讲一下文本的向量表示,文本的向量表示有非常多种,其中一个比较有名的向量表示叫做Word2Vec,是Google提出来的。它的原理非常简单,其实是一个非常浅的浅层神经网络,根据前后的词来预测中间这个词的概率,优化预测的时候模型就得到了词的向量表示。

同样的这个词的向量表示在空间里也是有意义的,相似的词也处在相近的空间里。这个模型比较有意思的是,把向量拿出来随时可以做向量运算。

女人到男人之间的那个指向的向量,和皇后到国王之间是一样的,所以我们知道其中三个,就能算出另外一个。假如我们的笔记重点是“自驾”和“露营”,Word2Vec会据前后的词来预测中间这个词的概率,可能是装备、路线、西藏、过夜、海边、周边、攻略,推送到对应的用户页面。

04 用户画像和笔记画像是什么?在算法中扮演什么角色?

1. 小红书推荐预测模型已经演化到了GBDT+Sparse D&W的模型

主要有9个预测任务,包括click、hide、like、fav、comment、share、follow等。点击、保持、喜欢、评论、分享、关注。点击是小红书最大的模型,一天大概产生5亿的样本进行模型训练。GBDT模型中的笔记分发,有非常多的用户行为统计,产生了一些静态的信息和动态特征,用来描述用户或者笔记。

通过用户画像和人口统计信息来描述用户,比如性别年龄这些静态信息。笔记分作者和内容两个维度,比如作者打分、笔记质量、标签、主题。动态特征虽然不多,但是非常重要。

动态特征包括用户在浏览和搜索中有没有点击、有没有深度行为等类似的用户反馈。这些交互的数据有一个实时的pipeline从线下直接放到线上的模型里,在线上会利用这些数据对点击率等交互质量的指标进行预测,然后根据用户和笔记的隐形分类进行推荐。

2. 关于动态特征的提取,小红书用的是Doc2Vec模型,也叫做相关笔记

相关笔记的要求是什么?推荐的笔记和用户在看的笔记,最好讲的是一个东西。比如说同一款口红、同一个酒店、同一个旅游城市、同一款衣服,可能不是一个酒店,但是是类似的酒店。

可能不是同一个旅游城市,但可能是类似的旅游城市,是不是很难理解?那我们再具体一点,我如果看的是亚特兰蒂斯这种级别的酒店,那么小红书就不会给我推荐格林豪泰,而是类似同等级别的酒店。如果我经常搜的是雪山/草原/沙漠,那么就不会给我推荐上海/北京/广州这种人文和城市景观突出的地方。

有一点需要注意的是,TFIDF model 虽然基本要求词是一样的,但它可以把一类笔记找出来,就是讲用户心理、描述用户心情的笔记,因为用户描述心情用的词汇很接近,所以这个方法也会把扩展的内容找出来。“绝绝子”是非常明显的一个语气词或者形容词,在小红书有461万+篇笔记。

最核心的实时归因场景业务,是如何制作用户的行为标签的?

用户画像比较简单,不会存在过多的状态,而实时归因是整个实时流处理中最关键的场景。实时归因将笔记推荐给用户后会产生曝光,产生打点信息,用户的每一次曝光、点击、查看和回退都会被记录下来。

看一下下面这张图,四次曝光的用户行为会产生四个笔记曝光。如果用户点击第二篇笔记,就产生第二篇笔记的点击信息,点赞会产生点赞的打点信息。如果用户回退,就会显示用户在第二篇笔记停留了20秒。实时归因会生成两份数据,第一份是点击模型的数据标签,下图中第一篇和第三篇笔记没有点击,第二篇和第四篇笔记有点击,这种数据对训练点击模型很重要。点赞模型也和上面几乎完全一样。

05 CES评分参与在算法中的什么阶段?

整个线上推荐的流程,只有在模型排序阶段给每个笔记打分。笔记在笔记展示给用户之前,小红书会选择分数高的笔记通过各种策略进行多样性调整。

Score=pCTR*(plike*Like权重+pCmt*Cmt权重……)

CES如果参与其中,只是非常小的一部分。我通过爬虫把爆文笔记爬了下来并做成CES形式的Excel表格分析,无论是表现各项数据关系的散点图还是曲线图,都没有一个有规律的图表,所以CES最多用在冷启动,聊胜于无。

06

综合以上,最后我们还是用比较通俗的话去解释这篇内容想要论证或者体现的观点:

小红书算法是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。不应该从使用者界面或者从已经成熟的账号中去梳理总结方法论,因为梳理总结的只是一系列机制中特别琐碎的小点,更不应该形成所谓通用的方法论。

大家工作业务开展也是,很多运营文章一下子就把整个运营流程说全了,我更建议从算法开始了解,工作也是从你实际的理论和认知中开展,并不是照葫芦画瓢。给你飞机让你照葫芦画瓢,好的,你来造。

不要做公司想要推广的内容/你喜欢的内容,而是要做算法觉得用户想看的内容,毕竟算法需要解决的问题就是——把平台生产的内容,转发给用户,让用户看到用户想看的。

对于小红书,算法的出发点是如何把社区的用户数据和电商版块用户的行为数据链接起来。现在小红书的盈利模式主要集中在达人种草,其实是算法团队不够优秀,没有办法提供足够优秀的中台支撑。无论是电商或者广告,其实大家都怨声哀道。

前台主要面向客户以及终端销售者,实现营销推广和交易转换。中台主要面向运营人员,完成运营支撑。后台主要面向后台管理人员,实现流程审核、内部管理以及后勤支撑,比如采购、人力、财务、OA等系统。

算法岗在各大公司招聘线中也是发OFFER最高的一档,目前来看,想做视频内容电商的算法人才会倾向于去抖音和快手。想做传统电商的,会倾向于去阿里或者拼多多。至于图文和纯文形式的电商或者广告,其实各家做了很多年都做的不是特别好。小红书图文能做好,得益于70%的用户群体是女性,社区氛围搭建的生活氛围非常精致。

选择合适的内容很重要,如果内容小众又刚需,那么小红书通过策略选出的候选集相对容易选到我们的笔记。在整个笔记出现在大批量用户的过程中,我倾向于CES评分没有参与在内,预测模型实际上扮演着很大的作用。体现在实际运营中就是,一张图片一句话的笔记火的一塌糊涂、老账号发什么什么火,因为预测模型。

小红书算法对图片的优先级非常高,并且有至少85%的准确率。如果加上文本以后,准确率能达到90%。所以无论是正常的图文、下水不报备的笔记、违规引流的笔记,算法一直是可以清晰无误地查出来的,只不过是运营中台对账号处理的松紧程度有关。例如哪个月要封账号,哪个月要查资质,哪个月要抓引流,算法都有数据,人为去干预就好了。

关于文本的动态特征提取,大家可以重点看一下上面说的预估词以及相关笔记,是一个非常有趣但是又很实用的模型算法,我从普通用户的角度,觉得抖音和小红书这块做得很不错。

小红书算法对笔记内容的好坏,取决于用户画像和笔记画像。用户画像一般是静态信息,注册账号的时候就完成了一大半,性别年龄这些。笔记画像包括做着打分、笔记质量、标签、主题(主题是我上面提到的人工分类的几百个算法里的主题,并不是下面带的标签或者内容主旨)。

在我们浏览推荐页的时候,可以多看看一屏的内容(四篇笔记),特别是用别的账号刷到自己账号的时候,如果一屏还有其他和你一样类目的笔记,重点研究,算法认为你们各方面都差不多,都展示了给用户看。

本文由 @老赵说运营 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

相关资讯

小红书创始人瞿芳:共建、共享是小红书的社区基因

11月9日-11月11日,2022世界互联网大会在浙江乌镇召开。小红书创始人瞿芳在数字经济论坛上发表主题演讲,并参加互联网企业家论坛圆桌对话,分享在数字经济共建共享发展的大环境下,小红书当下的实践、对未来的规划及畅想。在数字经济论坛上,瞿芳

小红书问答手册V1.0:一份关于账号定位、引流、违规、投放的小红书百科

上个月在商家沟通交流群,收集了大家在小红书运营中遇到的问题,主要围绕账号,流量,违规,内容,投放,商城以及行业板块。我们将问题整理如下,希望对你有所帮助。一、账号问题1. 如何做账号定位首先要确定一级品类,再确定二级品类,再确定笔记形式和风

预算少,如何在小红书打造品牌?参考这3个品牌在小红书起盘思路

如何在小红书做品牌?一直困扰小红书运营者的问题,是不是做品牌就要花费巨额广告费?实则不然,因品牌自诞生那一刻,从你的命名、产品、品牌故事、传播的每一个载体都在打造品牌。具体如何在小红书打造品牌?首先,我根据品牌意识强弱和预算高低,划分为四类

小红书博主如何变现?快看这5种小红书变现方式

为什么很火的博主,突然停更了,绝大部分原因是变现出了问题,见过百万粉丝不如10W博主变现好,账号如果一直没有收益,很难持续进行,那如何做一个赚钱的博主?在小红书做博主有哪些方式?今天我们就重点聊一聊。一、变现的核心在于稀缺性工作的本质是交易

研究100+小红书热门标题,我总结小红书标题的万能公式

如何写小红书标题?怎样一秒抓住用户注意力,这是小伙伴常咨询的问题。回答这个问题前,先来说一下标题的基础和作用,小红书标题上限是20个字,大概是封面1/5,可以这样理解,封面是第一刺激力,标题承担第二刺激力,另外标题作为笔记文案中权重最高的部

小红书越来越内卷?《超级转化率》陈勇:品牌布局小红书的五步法

如何通过内容营销,低成本地持续获取优质流量,是新品牌早期创业绕不开的课题。小红书作为最典型的内容种草平台之一,已经有很多像完美日记、钟薛高这样的品牌在其中走通了闭环,也成为很多新品牌起盘的第一站。但随着越来越多玩家的涌入,小红书也正变得越来

小红书品牌营销(二):拆解了小红书500篇爆文,我们总结出这些套路——定博主

在小红书上,有一个非常值得关注的群体,那就是博主。这些博主会根据自己的生活经验、知识储备、使用体验等方方面面的生活感受,向外界分享优质的资源或信息。其实,从营销角度上看,这些博主也可以帮助我们共同宣传我们的产品,让更多人知道它。那么如何区分

从0开始做小红书,带你快速了解小红书正确运营方式

小红书从正式上线到现在已经有8年时间了,从最初观看小红书转变到自己做运营的人有很多。近年很多人通过小红书的运营获取了关注、收益,很多人兴致勃勃想做小红书内容种草运营,找不到正确运营方式。今天,就结合我的运营经验给大家介绍4个小红书的正确运营

小红书申请老红书商标被驳回

种草神器小红书近日申请“老红书”商标被驳回引发关注,一度登上热搜。天眼查App显示,近日,小红书科技有限公司申请注册的科学仪器类“老红书”商标流程变更为“驳回复审”,该商标申请于2021年6月8日,目前状态为“驳回复审中”。但其通讯服务类“

小红书申请老红书商标被驳回,美妆圈APP要向科技圈进军?

  天眼查APP显示,11月10日,小红书科技有限公司申请注册的科学仪器类“老红书”商标被驳回,该商标于2021年6月8日提交申请,目前状态为“驳回复审中”  而小红书申请的另一类——通讯服务类“老红书”商标目前状态显示为“初审公告”  值

小红书给用户送小红薯?

文 | Lily Ji 近日,小红书与上海热门零食小铺“冬天红薯夏天西瓜”合作,推出了“小红薯慢闪店”活动。1 月 11 日-21 日,小红书用户到店出示自己的IP账号,即可免费领取烤红薯一个,另外店家还会附送一款勺子钥匙扣和一封来自小红书

捧红露营的流量平台们亲自下场,小红书、携程线下露营地来了

“露营经济”系列观察之⑦带火露营的小红书也要下场做营地了。南都湾财社记者获悉,天眼查工商资料显示,由小红书科技有限公司100%全资持有的“璞真乡里(上海)旅游文化有限公司”于7月11日成立,经营范围包括休闲观光活动、露营地服务、游览景区管理

七年花三十余万的90后,想在浙江开连锁露营基地,“精致露营”缘何爆红小红书

钱江晚报·小时新闻记者 杨希林 实习生 张晓/文图片由受访人提供星河下、云海旁,一顶白色帐篷,木质蛋卷桌旁几把月亮椅,桌面上一把手冲咖啡壶……这个国庆长假,上海游客赵玥(化名)花了约7小时,专程来到位于青田应章村的侨乡云境露营基地(下简称“

运营36个小红书账号,总结7条心得

前言小红书账号运营说简单也不简单,说容易也不容易,有的账号一个月能涨粉几万+,但有的账号每月涨粉寥寥无几,很多小红书运营都感到无力,近期的一个月时间,运营了36个账号,获得300万左右的阅读量,总结了一些心得。再加上学员们自己去实操,也获得

提高50%精准曝光的小红书话题布局攻略来啦!

之前答应你们的话题布局攻略来啦!很多人说小红书投放的效果很难把控,其实归结到底就两点,一是流量,二是转化。把这两部分做好了,最终的投放效果就是确定的,而不是每次都只能“凭感觉”,能不能做出爆文也只能“靠运气”。关于如何通过内容优化提高转化,

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈玉林新闻资讯网雷克萨斯汽车网安宥真歌迷网墨西哥旅游网苹果手机评测网高考冲刺攻略网迪士尼乐园攻略网雁荡山旅游攻略今日淄博迪卡侬球拍山东旅游网清源山旅游攻略夜跑跑步网周华健歌迷网钦州新闻头条网
小红书资讯网-小红书通过机器学习对海量信息和人进行精准、高效匹配。小红书年轻人的生活方式平台,在这里每月有超过2亿人在分享生活经验,发现美好、真实、多元的世界,找到你想要的生活。新消费品牌通过小红书种草,将流量引入了天猫、抖音电商;实体门店通过小红书种草,将流量引导了大众点评和美团。
小红书资讯网 juyaya.cn ©2022-2028版权所有