您当前的位置: 首页 > 
  • 0浏览

    0关注

    1477博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

zipfian 参数是什么 Zipfian distribution 齐夫定律

软件工程小施同学 发布时间:2021-08-27 11:40:06 ,浏览量:0

zipf law :在给定的语料中,对于任意一个term,其频度(freq)的排名(rank)和freq的乘积大致是一个常数。

Zipfian distribution

一个离散幂律概率分布,也就是常常提到的长尾模型.在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。

频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,是出现频率第三位的单词的3倍。

t is known that the number of incoming links to pages on the Web follows a Zipfian distribution. That is, a small number of Web pages have an extremely large number of links pointing to them, while a majority of pages have only a small number of incoming links.

原文链接:

https://blog.csdn.net/Rockics/article/details/6544110

Zipfian分布_sam-X的博客-CSDN博客_zipfian分布

有一个基本定律,就是大家常说对于内容的访问遵循80/20原则,也就是20%的内容,会占有80%的访问量。

Zipf分布与其类似。
这是一个定性的原则,定量来说,内容访问近似符合Zipf定律(Zipf's law), 这个定律是美国语言学家Zipf发现的,他在1932年研究英文单词的出现频率时,发现如果把单词频率从高到低的次序排列,每个单词出现频率和它的符号访问排名存在简单反比关系:

 

Zipf分布 - icymary - icymary 的博客

 
这里 r 表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率. (单词频率分布中 C约等于0.1, a约等于1)        后人将这个分布称为齐夫分布,这个分布是一个统计型的经验规律,描述了这样一个定理:只有少数英文单词经常被使用,大部分的单词很少被使用。这个定理也在很多分布里面得到了验证,比如人们的收入,互联网的网站数量和访问比例,互联网内容和访问比例(其他分>布两个常数有所不同,a越大,分布越密集,对于VOD来说某些时候符合双zipf分布)。

关注
打赏
1665320866
查看更多评论
立即登录/注册

微信扫码登录

0.1176s