やることが……多すぎる……。
まったく記事とは関係ありませんが、いま『勝手にブログ評論』というのが流行しているようですね~。ブログのRSSを取得してそこから名詞を抽出、新しい文章として再構成するジョークプログラムということです。その開発者の方のブログに解析の仕組み(PHPによる形態素解析)が掲載されていたので、ちょっくら試してみることにしました。$Patternの部分を引用・改変(改悪?)しています。
<?php
mb_regex_encoding('UTF-8');
$String = file_get_contents("http://www.trash-news.net/rss.xml");
$String = htmlspecialchars_decode($String);
$String = strip_tags($String);
$Pattern = "[\s\t・ \[\]\"“”'[]『』-=<>\/。/\?\&※~■□◆◇★☆::…?【】=系的をやのでがにへと(べき|べからず|べからざるを)(かつ)(しかも)(っ[てた])(とき)とも(より)(そのほか)(しかし)(と(いう|いえば|すれば))(この)((なぜ)*なら[ば]*)((し|され)たら)(じゃ)(くらい)(くん)「」(だ(から|けど|が))な(から)(または|さもなくば)(たら)(したり)(する|すれば)((し|され)て)(だ|である|です|でした|ではない)\(\),、。,(さん|さま|様)\!\?(!)<><>]";
$KeywordsArray = mb_split(mb_convert_encoding($Pattern,'UTF-8','SJIS'),$String);
foreach($KeywordsArray as $key => $val){
if(mb_strlen($val) <= 2 || !$val){
unset($KeywordsArray[$key]);
continue;
}
}
$KeywordsArray = array_unique($KeywordsArray);
echo "<pre style='line-height:1.3em;font-size:12px;'>" . print_r($KeywordsArray,1) . "</pre>";
?>
実行すると面白いように名詞がざっくざく抽出できます。以前コレ系のプログラムを作ったことがあるのですが、そこで得た結論は『言語学者の友達がいないとムリだ』ということ。日本語の構造について詳しくないととても言語解析などできません。が、このようにネットではときおりすごく面白いソースが公開されたりするので、それを頼りにしていくことでなんとか前進を見るわけです。やりたいことが無尽蔵に増えていく……。
2008年08月22日 0時更新
| 日 | 月 | 火 | 水 | 木 | 金 | 土 |
|---|---|---|---|---|---|---|
| « 01月 | - | 03月 » | ||||
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | |

そういえばテレビ局の下に変なもんがコロがっているとかって鯛人が探し回ってたけどなんか気になったな~。「水の中からならいける」と買ってつぶやいてたけど忌み腑銘だった。沈黙の艦隊でも詠んでみるか。