数据挖掘

使用正则表达式匹配DOI

2012-03-10 gaoch
先看几个DOI的例子: […] 可以看出,DOI的编码以“10”开始,可以含有数字]0-9],小数点,斜杠等分隔,但是其中不会出现空格。鉴于此,在perl中使用以下正则表达式匹配: [cc lang=”perl”] $str1 =~ /10\.[^\s\/]+\/[^\s]+/; # borrowed from Zotero $str2 =~ … 阅读全文 →

全宋词词频统计:东风何处是人间

2011-04-11 gaoch
东风何处是人间 « Yixuan’s Blog 对全宋词中词频统计之后的结果很有意思。 […] 不知各位看官看到上面这些既熟悉又悠远的话语又将作何感想?或许,她们就是我们千百年来的精神寄托吧。 […] 结果(排在第一的是无效字符,这跟数据源有关): 阅读全文 →