2006年4月23日日曜日

Yahoo!カテゴリWebサービスとカテゴリID(3)

とりあえずの成果物が下記です。
Yahoo! ビジネス・企業カテゴリ検索(ComSearchビジネスカテゴリ付き)
ビジネス・企業カテゴリだけなので、誰も使わないかと思います。。が、ComSearchでは、何か連携できそうなので、組み込もうかなと思っています。
クレジット表示の位置指定等が厳しく、左下、4px離して、空白は15pxとなっています。

2006年4月19日水曜日

Open Directoryのコピーサイト

「ディレクトリサイトに関する SEO の常識がまた一つ変わった」(秋元@サイボウズ研究所プログラマーBlog)で紹介されていましたが、以前からGoogleでは、Open Directoryのコピーサイト(DMOZクローン)
を排除しだしていたのですが、ここにきてより明確に排除されだしているようです。
「DMOZクローンの取扱い - Googleの重複コンテンツ対策」 (SEMリサーチ)
排除は、Googleだけでなく、Yahoo!、MSNも実施しているとのこと。
書く言う私も、企業検索ComSearchで、DMOZの日本語-ビジネスカテゴリのデータを使用し、上場企業データとマージして一部サイト構築しています。
(全自動でビジネスカテゴリのコンテンツ再構築には、72時間もかかります。)
まあそれでも、DMOZから発生したクローンには違いないのですが。
今のところインデックスからの削除はないですが、このディレクトリーへのGoogleからのアクセスは、以前と比べて1/3に減少しています。各ページが全体的に検索順位が落ちているようです。
クローン認定されるのはいつの日か?!

2006年4月18日火曜日

サーバダウンしました。

本サーバ(FedoraCore3)が、午前中ダウンしていました。原因は不明。
telnet × 、ftp ×、postgres ×、httpd ○
なぜか、httpdだけは生きているようで、ホームページはアクセスできた。ただしDBと連携しているページはアウト。遠隔telnetログインもできないので、サポートに連絡してリブートしてもらった。
ログとか見ましたが、原因不明です。。(過去にも1回同様の症状があった。)
telnetすると、いきなりconnectionが切断されます。FTPも同様、xinetd系は全滅、何かの要因で
プロセス数が多くなりすぎて、これ以上新たなプロセスを生成できなくて、つながらないのかと思っています。
=>プロセス数監視することにしました。5分インターバルで、/procディレクトリーをファイルに吐くperl
プログラムをしかけた。

MovableType 「CustomFields」入力項目の拡張

MovableType 3.2 で、エントリー等に項目を独自に追加するのに何かプラグインはないか探したところ、Googleで「Movable 拡張 項目」で検索して、「CustomFields」を見つけました。
これを導入すると、エントリーやカテゴリーに好きな項目を新たに追加できます。
企業検索ComSearchプレスリリースのシステムにMovableTypeを使って、エントリーの追加項目に「CustomFields」にIDとか企業名、URL等に使用しています。
http://www.movalog.com/plugins/wiki/CustomFields
の「Installation Instructions」のリンクをたどるとダウンロードできます。
導入方法、追加方法はCustomFieldsで検索すれば出てきますので、ここでは、追加された項目&データはデータベースのどこに拡張されるか、及び別システムのプログラムからこの追加項目をどう参照するか記載しておきます。
(MEMO)
例)エントリーに、comid,comurl,comnameを拡張した場合。(DBはmysql)
-----------------------
格納DB表:mt_plugindata
-----------------------
項目名      :内容
-----------------------
plugindata_id  :id番号
plugindata_data :[BLOB] MTでシリアル化されたデータが入る。
plugindata_key  :entry_xx (xxは、mt_entryのentry_id番号)
plugindata_plugin:entries
-----------------------
で、phpからエントリーID 4の拡張データを取得したい場合は、
MTのMTSerialize.phpをincludeして、mt_plugindataからplugindata_data
を取得して、unserialize()するとデータを取ることができます。
----------------------------
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=EUC-JP">
</head>
<body>
<?php
include('xxx/xxx/mt/php/lib/MTSerialize.php');
$mt = new MTSerialize;
$con = mysql_connect("localhost", "xxxx", "xxxx");
mysql_select_db("zzzzz");
$sql = "select plugindata_data from mt_plugindata
where plugindata_plugin = 'entries'
and plugindata_key = 'entry_4'";
$result = mysql_query($sql);
$rec = mysql_fetch_row($result);
$value = $mt->unserialize($rec[0]);
//--------------------
print var_dump($value);
//--------------------
print "<br>";
print $value['comid'];
?>
</body>
</html>

2006年4月14日金曜日

Yahoo!カテゴリWebサービスとカテゴリID(2)

前回のAPIを利用して、Yahoo ! Japan の「ビジネスと経済」配下のカテゴリID、カテゴリ名を取得しました。全部で9、057カテゴリとなりました。(あってるかな?)約1時間かかりました。
プログラムは、PHPで、関数を再帰呼び出しにして、GETしたのですが、カテゴリLINKを参照した時、再度、同じカテゴリLINKが存在することがあり、結局無限LOOPでおバカなことをやってしまった。。
カテゴリLINK配下は探索しないようにしてOKとなった。現在生データのままで、カテゴリID階層とカテゴリ名の紐付けを作成中。
その後、ODPのビジネスディレクトリとのカテゴリ自動リンクを作成するかもしれない。(未定)

2006年4月12日水曜日

Yahoo!カテゴリWebサービスとカテゴリID

Yahoo! Japanから「Yahoo!カテゴリWebサービス」なのが2/28にリリースされていたのですね、知らなかった。
yahooからいろんなAPIが出ていますが、過去、特に使って見たいとは思わなかったのですが、「このYahoo!カテゴリWebサービス」はComSearch企業検索で利用価値がありそうかも。
現在、ComSearch企業検索は、Google map APIを使って、上場企業住所からMAPを生成しています。
例)
ヤフーのGoogle MAP
で、この「Yahoo!カテゴリWebサービス」に気づいたのは、http://stest01.dev.yahoo.co.jp:
10080/cmtool/workingtable.php?command=Update&page=4&status=109&code_2078361141=
100&code_2078308363=101&code_2075127796=100&......
というような、アクセスログが残っており、何かなと思って調べ回っていたのですが、(結局不明)
http://developer.yahoo.co.jp/category/browse/V1/browse.htmlを見ると、
code_以下の数字は、YahooのカテゴリIDだということがわかりました。
このIDから実際のYahooディレクトリを導くには、
http://api.dir.yahoo.co.jp/Category/V1/Category?appid=100010001&id=2077241654
というようにします。
(appid=100010001は、自分の登録IDです。)
そこで、自分のwww.picolix.jpは、いつYahoo! Japanのカテゴリに登録されたかを調べてみると、
http://api.dir.yahoo.co.jp/Category/V1/Category?appid=100010001&path=/Computers_and_Internet
/Software/Internet_and_Networking/Internet/Picolix/
↑のレスポンスは、
<Item>
<Type>site</Type>
<Title>PicoLixホームページ</Title>
<JTitle>PicoLixほーむぺーじ</JTitle>
<Url>http://www.picolix.jp/</Url>
<ClickUrl>http://srd.yahoo.co.jp/API/appid=100010001
/SS=2078426751/SIG=10rtde58h/*-http%3A//www.picolix.jp/</ClickUrl>
<Summary>Webページの画像キャプチャー、送信専用メーラー、Pingユーティリティ等の配布。</Summary>
<Created>19980210</Created>
<New>0</New>
<Cool>0</Cool>
</Item>
で、1998年2月10です。(当時は、プロバイダーのURLで、後でwww.picolix.jpに移転しました。)
1998年ってもう6年も前ですね。

2006年4月8日土曜日

ComSearchプレスリリースを始めました。

ComSearchプレスリリースを始めました。
アート関連・芸術関連~IT関連まで各種発表のプレスリリースにお使い下さい。無料記載致します。
団体、SOHO、企業、個人の方でもご利用いただけます。
http://search.picolix.jp/release/

2006年4月6日木曜日

「SimpleAPI その1.ウェブサイトサムネイル作成API β版

http://img.simpleapi.net/
よくできています。
フラッシュとかも取れますし、フレームも大丈夫なようです。別枠で、ポップアップ、ダイアログBOXが表示されるであろうサイトもちゃんととれています。(サーバ側はどうなっているのか興味があるところですが。。)サーバはLinux系で、Geckoエンジンでしょうか?
当方は、Windowsでコマンドラインで、Crenahtml2jpgを作成してこれを、perlスクリプトで動かして、スケジュールに組み込んで、月1回、3万サイトのサムネイルを自動取得しているのですが、負荷と時間がかかりますので、同時複数処理しています。
Linux系での作成も考えたのですが、X関連が必要で、また正しく全てのサイトが取れるか自信がなかったので、Windows系&コマンドライン対応で作成しています。
このようなサーバAPIはだれしも検討したことがあると思うのですが、人気サイトになるととてつもない負荷がかかり、私個人のレベルでは、到底対応できなのであきらめていたのですが。。
がんばっていただきたいところです。