什么是网页搜索排序中的投票模型?

在SEO的过程中,我们经常尝试研究搜索引擎的自然排名策略,尤其是当你搜索一个关键词的时候,我们非常好奇搜索引擎是如何过滤对方的呈现顺序的。

以下是百度早期给出的一个网页中搜索排名投票模式的讨论。我们觉得很有价值,分享给SEO朋友们:

前几天看了一本书《选举的困境》,里面有一章,从美国的选举制度出发,介绍美国选举制度的不足,然后针对其不足,提出了各种改进,但是每种改进都有自己的问题,变化很有意思。

先说美国的选举制度。美国总统选举是一种赢家通吃的方式。每个州根据人口有几十个或几百个“州票”。这个州的人们选举总统候选人。某州得票最多的候选人获得该州所有“州票”,然后统计所有候选人的“州票”数,获得最多“州票”

这个制度的问题很明显。比如只有两个州,A州5人,B州4人,州票分别是5票和4票。如果一个候选人X在A中3:2获胜,另一个候选人Y在B中4:0获胜,那么很明显,候选人Y在全国范围内赢得了6票,而候选人X在A中只有3票,但是因为“赢家全拿”,

这发生在2000年的美国总统选举中。小布什的州票领先于胡戈。但是,全国支持戈尔的人数比小布什还多。当然,戈尔输给小布什还有一个原因。按此处无表格。

如果放在算法领域,我们可以看到这里的问题在于为统计结果R寻找一个特征A(每个公民的投票),但决定结果R的不是特征A,而是从特征A衍生出来的特征B(州投票),在从特征A衍生到特征B的过程中,信息丢失(每个州的支持度不同)。

“赢家通吃”制度的具体历史原因就不要提了。有兴趣的朋友可以看看原著。解决这个问题最直接的办法就是从“赢者通吃”改为直选,即一人一票,直接计票,但这样也会遇到一系列的问题。

在谈那一系列问题之前,先抽象一下要解决的问题:

有n个候选人,每个投票人给这n个候选人投票,最后在n个候选人中选出最合适、最符合民意、最符合逻辑的人。

方案一:一票制,一人一票。选择自己喜欢的候选人,统计结果,得票最多的当选。

这个问题会导致作者定义的“两难”。举个例子,如果ABC有三个候选人,其中BC的政见相似,那么支持B的也支持C,反之亦然。全民中,喜欢BC的占多数,A的政见和BC相反,支持A的占少数。这样一来,BC赢的票就散了,A赢的票就集中赢了。如果BC有一个人不参加选举,选票就会集中在B或者C手里,这样就选出了大部分选民的支持者。戈尔失败的另一个原因是,有人认为与戈尔政见相似的奈德参与了,他分散了戈尔的部分选票。

能改善这个问题的方案叫做“两选制”。

方案二:两选制,一人一票。如果没有人获得超过50%的支持,得票最高的两位候选人将被淘汰,再进行一轮选举,得票最多者获胜。

法国总统选举就是这样一种两选制,但这种方法只能改善“困境”,并不能完全解决。2002年法国总统选举也出现了类似的情况。当时支持左派政治观点的人更多。但是在两选制下,最后的前两名是右派和极右。之所以这样,是因为当年有16位总统候选人,而且大部分都是左派,导致左派选票极度分散。

方案三:N选制,一人一票。如果没有人获得超过50%的支持,支持最少的候选人将被除名,并进行另一轮投票。如果仍然没有人获得超过50%的支持,得票最少的候选人将被除名,直到有人获得超过50%的支持。

2001年,当奥林匹克委员会决定北京作为2008年奥运会的主办城市时,它采用了这样一种制度。大阪在第一轮投票中被淘汰,北京在第二轮获得过半支持,从而当选。

N选制的问题是不实用。如果是奥委会,只有几百人投票,还是可以用的。如果有16个类似于上一届法国总统选举的候选人,全国最多可能投15次票,成本太高。

方案四:立即改选,每个公民对候选人进行排名。如果候选人获得第一选择的50%以上,则直接获胜,否则,得票最低的候选人被淘汰,得票最低的候选人的选票中的第二个候选人被取出,分配给相应的候选人。如果有人得到50%以上,就当选,否则最低的候选人被淘汰,选票分配给排名最高的候选人,不被淘汰。

爱尔兰的总统选举和伦敦的市长选举都采用了类似的方案,但这个方案也有问题。想象这样一个场景:有10个选民,三个中间候选人是首选,四个左右候选人是首选。当然,左派选民最讨厌右派候选人,右派选民最讨厌左派候选人,而左派和右派都可以接受中间候选人,不管是改选制还是N选制,中间候选人都会有。中间派候选人是全民接受的,能调和各派矛盾,最和谐。

这个方案的本质问题是,虽然每个选民都可以对候选人进行排名,但在第一轮中,只考虑第一次选举,不考虑选民的第二次和第三次选举。

方案五:向上连选制,类似方案四,只是第一轮淘汰了反对最多的候选人(最终票数最多的候选人)

看上面的情况,因为中学候选人不是任何人的最后一个候选人,第一轮淘汰的是左派或右派,然后中学候选人才能在第二轮胜出。

选项5也有选项5的问题。考虑到这样的情况,只有两个候选人AB竞选,有9个选民,其中6个喜欢A但讨厌B,3个喜欢B但讨厌A,不管之前哪种方式,A都会赢。但现在又多了两个候选人,C和d,在喜欢B的三个人中,A被列为最后一个候选人,最后六个喜欢A的人的选举是BCD,每人两票。于是,在第一轮选举中,A因为最终票数最多而被淘汰,而通过精心构建的例子,B也可以最终当选。仅仅因为CD代表或者不代表选举,A和B的胜负关系就被大大逆转了。

使用这种方案的实例很少。只有在公元前507年的雅典,才有类似的方案。他们没有要求人们投票支持它,而是投票反对它,并投票淘汰那些最反对它的人。

方案六:多竞争制,由民众对候选人进行排序,然后每隔一个候选人进行pk,在每次投票中统计候选人A是在候选人B前面还是B在A前面,从而找到获胜最多的候选人赢得选举。

这样的问题可能会导致一个输赢的循环。比如ABC有三个候选人,三个人,选票分别是ABC,BCA,CAB。可见A在AB之间赢了两次,A >:B;B在BC之间赢了两次,B >: C在C和AC之间赢了两次,c >: A,从而形成A >:B& gt;c的周期。这不是有点像足球联赛的计分制度吗?如果积分相同,可以看看目标差异,目标,胜负关系等。在足球比赛中,作者却没有开发这方面,而是引入了另一种方式:博达系统。

方案七:博达制,人们对候选人进行排序,如果有n个候选人,第一个候选人得n分,第二个候选人得n-1分,以此类推,然后统计每个候选人的总分,以最多的分数获胜。

有人批评博达制:部分选民可能会用这种方法作弊(投“战略票”),最支持B的候选人原来的顺序是B >: A >的;C,B&gt因为他们更喜欢B而不是A,为了拉B上来,他们不得不拉A下来,他们的票数变成B >: C >了;a .博达对此批评的回应是,我的制度只适用于诚实的选民。

但本书作者认为,博达的“策略票”问题并没有那么严重。如果无法准确预测民意,无法准确控制策略票的投票方式,那么就有可能因为过度的武力,A不仅会被拉倒,C还会获得更多的支持票,从而让最支持B的人的“策略票”赢得他们最讨厌的C的选举。当年IMDB上也发生过类似的场景:

[/。

电影《蝙蝠侠6》上映后,蝙蝠侠迷们觉得太爽了,就想把蝙蝠侠6放在IMDB第一,于是疯狂给蝙蝠侠6打高分,同时也给当时IMDB第一教父打低分,结果太费功夫,教父成了第三,原第二《肖申克的救赎》(原第二)新第二排在蝙蝠侠6之后。后来随着疯狂粉丝热情的消退,理性意见盛行,蝙蝠侠6的评分逐渐下滑到第10位。教父还在《肖申克的救赎》后面,很久没回去了。[div]

博达系统还有其他问题吗?

以上只是本书第十四章的一个注解,只讨论了“多考生单位置”的问题。“多考生多岗位”的情况会在书的后面继续讨论,即最终的考生排名会根据每个人对考生的排名来决定。

回到搜索引擎领域,以上策略的改变会给我们一些启示。我们先来看看之前抽象出来的问题:

有n个候选人,每个投票人给这n个候选人投票,最后在n个候选人中选出最合适、最符合民意、最符合逻辑的人。

这和搜索引擎解决的问题很像:

系统中有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链接、文本相关性等。)给n个网页不同的评分。如何根据这些功能的“投票”来选择最适合第一名的网页?

从选举的例子中,我们可以得到几个启示:

1.在设计算法时,要避免“赢家通吃”带来的信息丢失问题。

2.不要因为有些功能特别好就把一个网页放在最上面,也不要因为有些功能特别差就放弃一个网页。

3.首先最适合的网页不一定是每一个特性都最好的,而是能兼顾所有特性,综合表现最好的。

4.搜索引擎用户对搜索结果的点击行为可以视为对搜索结果的“投票”,使用这种“投票”信息也要注意是否会带来选举过程中的各种不合理。

上述选举方案只讨论了“多个候选人争夺一个职位”的情况,而搜索引擎面临的问题更类似于“多个候选人排序”的情况,即

系统中有n个网页,有m个特征(页面质量、页面内容丰富度、页面超链接、文本相关性等。)给n个网页不同的评分。如何根据这些特征的“投票”来决定n个网页的顺序?

这个“多候选人排名”的问题,有一个“不可能民主”的理论。这个理论的大意是“合理的”民主应该满足三个条件:

1.如果选民认为a比b好,那么最后的结果应该是a比b

2.没有“独裁者”,就是没有这样的人。不管别人怎么排序,最后的结果都和这个人的

一样排序

3.无关因素的独立性,即第一次投票后,A领先B,现在进行第二次投票。如果大家在自己的投票中不改变A和B的相对顺序,那么最后的结果也应该是A在B

之前

通过数学证明,可以得出这样的结论:某一种选举方式如果满足条件1和3,必然不满足条件2,即必然会出现“独裁者”。为了证明这个问题,你可以参考这个博客:http://roba.rushcj.com/? p = 509

按照“不可能民主”的理论,结合搜索引擎,搜索引擎似乎很难给出合理的网页排名,但是搜索引擎和投票好像不一样,破解

有两个角度

1.认为条件3太强,需要被削弱。

2.也许网页排序的问题中就有这样一个“独裁特征”。从现在的角度来看,最合适的特点就是“用户满意”。根据用户满意度对网页进行排序是最合理的网页排序。如何衡量「顾客满意」?这是我们一直在努力做的事情。

蝙蝠侠IT https://www.batmanit.com/h/1591.html 转载需授权!

为您推荐

发表评论

电子邮件地址不会被公开。