2004年12月28日火曜日

BLOG OkumuRank ランキング

blogWatcherはblogの収集と、更新の監視、また収集したデータを用いたテキストマイニングを行うツールです。 東京工業大学精密工学研究所の奥村研究室で開発されています。
さて、この検索ツールには、OkumuRank(OR)が付属しています。blogという観点で見た際の重要度が表示され、計算は,被リンク数ベースで行っているとのことで、今回、http://search.picolix.jp/ ,http://sozai.picolix.jp/dmoz/
ODPのアートカテゴリ、ビジネスカテゴリ、上場企業登録サイトの3つについて OkumuRank API にてOkumuRankを取得しました。結果は、以下のとおり。
一応Googleのページランク(PR)と対比しておきます。
さすが、blogWatcherらしく、アートカテゴリーでは、日記才人がOkumuRank10満点で登場します。プロジェクトXもOkumuRank10です。
ビジネスカテゴリーでは、ソフマップ、ヨドバシカメラがなぜか10です。出版系の講談社、角川ホールディングスも10で登場します。小学館、集英社、早川書房は9です。このあたりもblogWatcher系の書き物系ということで上位にきているのかな?
では、上場企業のTOPはどこでしょう?ヤフーでした。但しOkumuRank10です。
この、blogwatcherのロボットの最初の走査起点はどこなのでしょうか?
また、OkumuRankが付いているサイトの割合は
26%(3,000/11,436) アートカテゴリ
25%(3,906/15,877) ビジネスカテゴリ
30%(1,099/3,641) 上場企業

修正事項 81% -> 30% (1,099/3,641) 上場企業集計が間違っていました。2004/12/28変更

2004年12月27日月曜日

ODP 12/21版リリースしました。

DMOZの2004/12/21版データにて、今回は、2サイトともUPDATEしました。
また、上場企業データは、10/13~12/26までの新規上場企業データを登録しました。
アートカテゴリー検索 http://search.picolix.jp/企業検索 ComSearch http://sozai.picolix.jp/dmoz/
最近のIT上場企業
ソフトバンク・テクノロジー(株)(4726) 東証2部へ
(株)システムプロ (2317) 東証2部
エキサイト(株) 3754 JASDAQ
(株)ワイズマン 3752 JASDAQ

2004年12月25日土曜日

クリスマスプレゼント枕元に置きました。

娘(6歳)へのクリスマスプレゼントを枕元に置きました。
娘のリクエストでは、ハム太郎の家(?)のおもちゃなのですが、これには、似たようなのが2,3種類あって、リクエストしていたものとは、違うものをプレゼントしました。さて明朝どうなることか?
なぜに、わざわざ違う種類かというと(奥さん曰く)、リクエストされていた種類は良く見ると、箱の外に書いてある絵がオプションが多く実際中に入っているものはその基礎になるものしか入ってないらしい。
ということで違うよさそうなものにしたとのこと。

パソコンモニターの回収

ずっと初期のいらなくなった15インチモニターを処分するのに、回収引き取りが無料なところに頼みました。
京都ではこちらです。株式会社ソニックさん
ちなみにここの会社は、リサイクル-リユース専門です。またISO 9001:2000 認証取得して
いる企業ですので管理もしっかりしています。電話一本で家まで来てもらえます。
でも、こういう商売ってもうかるのでしょうか?

2004年12月16日木曜日

blogWatcher Toolbar for IE 「OkumuRank」重要度表示

昨日、http://blog.seis.ne.jp/library/を公開したばかりですが、
すでに、blogWatcher_Spider/0.1 (http://www.lr.pi.titech.ac.jp/b
logwatcher/)なるクローラーが来ていました。
www.lr.pi.titech.ac.jpを見ますと、blogWatcher Toolbar for IE が公開されており、
「OkumuRank」というBLOGの観点からの重要度ランク表示があります。
http://www.lr.pi.titech.ac.jp/blogwatcher/toolbar.html
ちょっとインストールして、「OkumuRank」を見てみました。
(このtoolbar をインストールするには、.NET Framework バージョン1.1が必要です。)
尚、CGIインターフェースも公開されていますので、こちらでも見ることができます。
書式は、http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=
にURLを続けて打ちます。
RANKの比較をしておきます。
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://www.yahoo.co.jp/
OkumuRank 10 PageRank 8
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://library.xrea.jp/mt/
OkumuRank 2 PageRank 4 (移転前のBLOGサイト)
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://crenazumina.picolix.jp/
OkumuRank 0 PageRank 0 (移転後のBLOGサイト)
http://blogwatcher.pi.titech.ac.jp/blog_rank.cgi?url=http://search.picolix.jp/
OkumuRank 5 PageRank 3 (普通の検索サイト)

会社でBLOG立ち上げました。

会社でBLOG立ち上げました。このBLOGとだぶることがあるので、何を書くことにするか思考中です。とりあえず、プロフィール載せときました。
http://blog.seis.ne.jp/library/

2004年12月12日日曜日

COCON KARASUMA

karasuma.gif
今日は、ラック移設作業があって、終了後、お昼は四条で食事と
なりました。
COCON KARASUMAが12/4からオープンで、ここの地下1Fに午後2時ぐらい
いったのですが、すでに待ち状態だったので、結局違う所で食事をしました。
COCON KARASUMAの前身は、昭和13年竣工の「旧丸紅ビル」です。
15の店舗とアートシアターから構成されていて、地下1階は、
ダイニングゾーン、1,2階が、リビング・カフェゾーン、3階はカルチャーゾーン
です。[THE COCON TIMESより抜粋]

2004年12月10日金曜日

アンカーテキストマッチとアンカーコンテキストマッチ,ではこれは?

アンカーテキストマッチとアンカーコンテキストマッチについてはこちら
http://www.hyperposition.com/ranking/anchorcontext.html
当方、http://sozai.picolix.jp/dmoz/を運営しているのですが、
googleでpicolixで検索したところ、本日(?)からhttp://sozai.picolix.jp/dmoz/
に登録されているサイトが検索結果にちらほら表示されるようになった。
これらのサイトには、picolixというキーワードはひとつもありません。
また、http://sozai.picolix.jp/dmoz/のリンクページから、
アンカーテキストマッチやアンカーコンテキストマッチによって登録サイトへ
リンクしているわけでもありません。
ただURL(http://sozai.picolix.jp/dmoz/)にpicolixというワードがあるだけです。
こういうのは、なんというのでしょうか?

国会図書館:ネット情報を収集保存へ

ネット情報を収集保存へ 国会図書館、06年度にも
国立国会図書館は9日、同館が収集・保存している著作物の対象を、インターネット上に公開されたホームページ(HP)にも広げると発表した。
ドメインの末尾が「.jp」になっているHPを自動的に複製、同館のコンピューターに保存する。
[共同通信社]
WEBページ保存といえば、http://www.archive.orgですが、国立国会図書館は、
.jpから収集するようです。日本版限定のアーカイバーになるか?
ちなみに現在は、WARP(ウェブ・アーカイビィング・プロジェクト)ですが、対象は、公的機関などが主です。

2004年12月7日火曜日

GMT 1969/12/31 23:59:59

cache.jpg
とあるホームページが表示されないので、Googleのキャッシュ表示を利用したのですが、
キャッシュ日付けが、GMT 1969/12/31 23:59:59になってました。
UNIX時間なら、1970/1/1 00:00:00が起点だけど、どうして1秒前なんでしょうか?
ちなみに、日本最初のホームページは、
1992/9/30で、http://www.ibarakiken.gr.jp/www/です。
管理人Library最初のホームページは、1998/1/8です。
まあ↑でもYahoo Japanに登録されていました。現在は、www.picolix.jpに引き継いでいます。
アメリカ最初のホームページ、残念ながら不明です。

2004年12月4日土曜日

url2bmpで10,000サイトのWEBサムネイル画像GET!

url2bmpを使って、アートカテゴリー(http://sozai.picolix.jp/dmoz/)の登録サイト10,000のトップページのサムネイル画像を12時間かかって取得しました。。
当初は、thumbshots.orgを使っていたのですが、相手サーバが過負荷状態だとなかなかデータを取得できず、ページを表示するのにロック状態となってしまっていました。
ということで、自分でサムネイル画像を保存しておくしかないということで、ちょうどurl2bmpを見つけました。url2bmpはコマンドラインから実行できるので、perlでスクリプトを組んでみたのですが、時々
JAVASCRIPTエラーしたページがあるとそこでロック状態となってしまい次に進めません。
そこで、vcでスレッドを作って、そこからCreateProcessで、url2bmpを呼び出し、1分のタイムアウト
処理で、url2bmpをスレッドごと強制終了させるようにした。
->で、流すこと12時間10、000サイトの画像が取得できた。

2004年12月2日木曜日

さくらの専用サーバのメモリ容量

さくらの専用サーバのメモリ容量は、仕様を見ると メモリは、256MBですが、
Linux上でdmesgで確認すると、222MBしかありません。残り32MBはどこに
いったのか??
サポセンに問い合わせると、
  ハードウェア部品として、オンボードタイプ
のビデオチップを使用しており、BIOSが起動すると32MB程度のメモリ領域をOSへ
渡す前に予約いたします。

とのこと、ビデオチップにオンメモリー上のメモリーが32MBも割り当てられています。そんなあ~。
本体メモリの1割以上もです。仕様にこのあたりも記載して頂きたいです。
なんか損した気分ですし、プロセスの使用メモリー設計にも関わってきます。