- 短视频社区:产品、运营与商业化
- 张哲
- 2685字
- 2025-02-27 04:38:39
2.1.3 优质内容的识别方法
讲清楚了优质内容的特点和价值,那么剩下的问题就是,我们应该如何识别出优质内容?通常我们会通过机器识别与人工识别两类方法来达到目标。
□通过机器识别,批量化保障内容的精准性和时效性;
□通过人工识别,保证优质内容更加符合社区平台的规则与需求。
1.机器识别
(1)优质内容精准性
用户可以主观地通过感性认知认为什么内容比较好,但平台不可能为每个用户去分配单独的人工编辑来实时推荐内容,这样做成本实在太高了,所以对于推荐系统来说,计算各个维度的指标数据,通过机器算法筛选内容则是必须要做的工作。
我们列举一个短视频社区平台的推荐算法简化过后的计算公式例子:
优质内容得分=播放量×权重1+点赞×权重2+评论×权重3+收藏×权重4+分享×权重5-举报×权重6+创作者粉丝量×权重7+创作者投稿量×权重8+……
纵观以上评价指标,主要分为两类:一类是从内容本身出发的,包括播放量、点赞、评论、收藏、分享、弹幕、举报等;另一类是从内容创作者角度出发的,包括创作者粉丝量、创作者投稿量等。前者反映了推荐系统对消费者(用户)维度的考量,后者反映了推荐系统对生产者(创作者)维度的考量。
以上公式是抽象了计算优质内容分数的方法,实际算法模型要复杂得多,用到的特征量更大,可能还会用到隐性特征,计算逻辑也未必是线性公式,但这里我们暂时忽略这些细节,明确一下为什么要用以上这些指标来评估内容的得分,以及各指标的权重各自应占多少比重。
1)播放量。这是一个评价内容质量最基础的指标,播放量越大,说明内容的受众越多,而为了防止机器人刷量,平台往往会在内容稿件被播放了一段时间以后才计为一次播放,力求数据的真实准确性。
2)点赞。点赞体现了用户对内容的认可,可能是用户当时的心理情绪被满足,或者内容本身确实有趣,但点赞仍然属于一个较轻的用户行为。
3)评论。评论体现了用户对内容本身的参与,用户通过评论表达与创作者相同或者相反的看法,有时候评论和内容本身产生一定化学反应后会共同创造新的内容价值,且评论容易吸引其他用户共同参与新的讨论,提高内容价值。
4)收藏。收藏体现了用户对视频内容反复观看的需求,是用户对视频内容质量更高的认可,虽然被收藏的视频某种程度上代表了用户想要学习和进步的一面,但“丢进收藏夹吃灰”的现象并不少见,用户会乐于收藏一段Java学习视频,但可能更多还是会点开娱乐视频观看。
5)分享。分享表达了用户乐于将视频给更多人看见的意愿,视频内容或者满足了用户的炫耀心理,或者具有一定的格调,让用户愿意用该视频体现自己的品位;或者内容足够有趣,能够引起广泛的兴趣,容易被新用户所接纳。
6)举报。举报体现了用户对内容负面情绪的表达,内容有可能触犯到了用户的某些禁忌,或者触犯到了平台规则,冒犯了社会的公序良俗的集体认知,举报内容势必需要引起审核人员的重视,同时在推荐该内容时也需要进行降权处理。
7)创作者粉丝量。创作者粉丝量代表了创作者过往内容的质量,大部分平台创作者增粉的唯一途径就是生产出契合平台价值观的优质内容,而粉丝量可以理解为创作者通过一次又一次的投稿,不断积累下来的优质内容的侧面体现。基于平台对创作者历史稿件质量的信任,粉丝量越大的创作者稿件,获得的权重也应当更高。
8)创作者投稿量。创作者投稿量反映出创作者的输出能力,即创作者更新稿件的频次,可以理解为,创作者的投稿量越大,创作者更新频率越快,内容产量更高,对平台的依赖度和重视度更高;而用户往往看到优质内容以后,会习惯点开内容创作者的个人空间页查看其历史稿件,此时创作者的投稿量越丰富,带给用户的惊喜也就会越多。
以上就是机器算法推荐优质内容公式里各个指标含义的解释,至于每个指标赋予多少权重,既可以由经验丰富的平台运营人员决定,也可以由机器模型训练拟合出来。总之最后筛选出的一定是和用户具有最高匹配度的内容。
(2)优质内容时效性
理论上来说,时效性可以作为内容本身的某一属性,代入上面所举例的算法公式中,但又为什么要单独将时效性拎出来呢?
因为内容时效性关乎内容对用户决策的影响,也关乎用户的流失速度。影响用户决策方面,例如财经领域的短视频内容,股市每天都在变化,一个月前的股市信息对于当前的用户决策来说基本毫无意义,因为可能整个市场行情都已经发生了变化;用户流失速度方面,用户来到平台是希望获取到最新资讯的,如果平台一直给用户推荐过时滞后的内容,将会导致用户对平台印象分大减,进而流失。
基于以上原因,我们希望时效性是对内容进行单独考量的一个指标,而将时效性放进优质内容得分公式,作为影响内容得分计算的影响项之一,只会模糊时效性这一因素在内容质量评价里的作用。
那么机器识别又如何帮助系统判断内容的时效性呢?
第一,依据内容发布时间,系统判断距离当前时间越近的内容,自然时效性越强;
第二,依据内容分区标签,视频内容带上时政类、新闻类的标签,往往时效性较高;
第三,依据内容关键词提取,算法可以提取内容的标题和简介,带有“当前时刻”“实时热点”等字样的,属于时效性内容的概率较高。
2.人工识别
除了建立优质内容的机器识别机制外,还需保留人工编辑的识别与干预权限,这一方面是为了避免推荐系统推荐出的内容由于违规而造成一定风险,需要人工运营及时处理;另一方面是对于曝光量级大的App首屏位置,有时候需要留给社区平台运营主办的活动,或者社区运营希望某段时间内社区能够引导某品类内容的发展,就会用运营手段调节推荐排序,让扶持类目得到更多的流量曝光机会。

人工识别可以帮助防止一些只有机器识别会出现的问题。
(1)只有机器识别容易造成信息茧房
机器识别会一味地推荐符合用户兴趣的优质内容,容易造成信息茧房,用户的兴趣爱好是会随着时间的变化而变化的,你无法预测用户什么时候对陈旧内容失去了兴趣,而对某部分内容又重拾了兴趣,用户如果不能在内容平台上发现更多新鲜内容,会逐渐对平台失去兴趣,最终流失。
(2)只有机器识别容易造成马太效应
要适度地将资源倾斜给中腰部创作者,中腰部创作者的内容可能看起来并没有那么优质,甚至对社区各指标带来的帮助也不会像头部内容那么明显,但社区需要源源不断的新生力量来保持活力,头部内容创作者也是从中腰部内容创作者成长起来的,否则社区的马太效应将会愈发严重。
(3)人工识别可确保优质新内容的挖掘
由于机器识别都是采用根据历史经验与规律总结出来的判断模型,虽然能够确保不会遗漏大量优质内容,但是却可能忽略部分具有潜力的新品类内容,这些内容可能早期数据表现并不优秀,达不到机器识别判断为优质内容的标准,但是其未来的潜在爆发力很强,这部分内容就只能依赖于人工识别去挖掘。