数据挖掘
使用正则表达式匹配DOI
2012-03-10
gaoch
先看几个DOI的例子:
[…] 可以看出,DOI的编码以“10”开始,可以含有数字]0-9],小数点,斜杠等分隔,但是其中不会出现空格。鉴于此,在perl中使用以下正则表达式匹配:
[cc lang=”perl”]
$str1 =~ /10\.[^\s\/]+\/[^\s]+/; # borrowed from Zotero
$str2 =~ …
阅读全文 →
|
全宋词词频统计:东风何处是人间
2011-04-11
gaoch
东风何处是人间 « Yixuan’s Blog
对全宋词中词频统计之后的结果很有意思。
[…] 不知各位看官看到上面这些既熟悉又悠远的话语又将作何感想?或许,她们就是我们千百年来的精神寄托吧。
[…] 结果(排在第一的是无效字符,这跟数据源有关):
阅读全文 →
|