如何查看英文维基百科用到了多少个不同单词?

其它类软件,非上述版软件
回复
头像
vickycq
帖子: 4507
注册时间: 2011-03-20 13:12
系统: Debian
来自: 山东省寿光县
联系:

Re: 如何查看英文维基百科用到了多少个不同单词?

#2

帖子 vickycq » 2016-09-28 22:44

研究方法参见
https://en.wikipedia.org/wiki/Tokenizat ... _analysis)
https://en.wikipedia.org/wiki/Text_segm ... gmentation
http://nlp.stanford.edu/IR-book/html/ht ... ion-1.html

此链接 http://imonad.com/seo/wikipedia-word-frequency-list/ 使用类似方法对英文维基百科做了统计研究,其中中 "Unique tokens" 一项比较接近您设想中的数据,其值为 5800280。但此数值大大高于英文常用词汇量(约17万),亦大大高于已知英文总词汇量(约100万)
奇怪的是,虽然 "Unique tokens" 有些不可信,但 "Total tokens" 与已有的总单词量统计基本相符。(时间约为 2010 年前后)

总单词量统计参见
https://stats.wikimedia.org/EN/TablesWikipediaEN.htm
https://stats.wikimedia.org/EN/TablesDatabaseWords.htm
英文部分最近6年的数据缺失。

维基百科其它统计数据参见
https://en.wikipedia.org/wiki/Wikipedia:Statistics
https://stats.wikimedia.org/
Debian 中文论坛 - forums.debiancn.org
欢迎所有 Debian GNU/Linux 用户
回复