パナソニック ソリューションテクノロジー株式会社(社長:福地 孝志、本社:東京都港区)と日本アイ・ビー・エム株式会社(社長兼会長:大歳 卓麻、本社:東京都港区)は、パナソニック ソリューションテクノロジー株式会社のテキスト検索エンジン[Pana Search/KB]と日本アイ・ビー・エム株式会社のデータベース管理ソフトウェア製品[IBM®DB2®]を高度に連携させることにより、データベースのリアルタイムのインデックス更新と高速なテキスト検索性能の両立を実現しました。
従来、データベースのインデックスの更新速度の向上とテキスト検索速度の向上を両立することは困難でした。このため、インデックスが頻繁に更新される大規模データベースをご利用の新聞業界のお客様から、この課題解決が強く求められていました。
この課題解決のため、両社は相互に技術情報を開示し検証を重ね、データベースにデータが追加・削除されたことを[Pana Search/KB]が[DB2]を介して即時察知しインデックスを作成する技術を確立しました。これにより、[DB2]の高度なXML操作の能力と[Pana Search/KB]の強力なテキスト検索機能を損なわずに連携させながら、リアルタイムでのインデックス更新と高速なテキスト検索機能を実現することができました。また、[Pana Search/KB]側で連携部分を新規開発し、[DB2]側には修正を加えずに連携を実現したので、現在[DB2]をお使いの方にも[DB2]の操作性を損なうことなく、容易に導入いただくことが可能です。
[DB2]は新聞社の組版システム、素材管理システムおよび統合データベース等で多くの実績があります。[DB2]により管理されたデータベースに[Pana Search/KB Database Edition for DB2]を加えることで、日々蓄積される大量のコンテンツデータに対し、常に最新のデータベース状況を反映した検索インデックスによる高速検索が可能となります。
<<主な特長>>
- 【1】同期インデックス更新機能で、タイムラグがなく常に整合性のとれた検索を実現
- 【2】従来困難であった、リアルタイムのインデックス更新と高速なテキスト検索性能の両立を実現
【お問い合わせ先】
パナソニック ソリューションテクノロジー株式会社 マーケティング本部
経営企画グループ コミュニケーションチーム
[ホームページURL]http://panasonic.biz/it/panasearch/
●新しいソリューション技術の説明
<従来の課題>
通常のデータベース検索では、データベースに格納されているデータを検索する前に、インデックスを検索することで、検索スピードを向上させています。しかしながら、テキストインデックスの更新は負荷の高い処理であるため、従来のテキスト検索エンジンでは定期的なバッチ処理による更新が基本であり、リレーショナルデータベース管理システム(RDBMS)と組み合わせて使用すると、数分〜数時間の間、「RDBMSのテーブルは更新されたがテキスト検索ではヒットしない」現象(タイムラグ)が発生し、追加・変更された最新のデータが活用できないのみならず、データベースの整合性が損なわれる、という重大な問題がありました。
<新技術の開発>
パナソニック ソリューションテクノロジー株式会社と、日本アイ・ビー・エム株式会社は協力してこの課題に取り組み、インデックス更新の効率化を実現、[DB2]のデータが更新されるたびに[Pana Search/KB]のインデックスを更新することでタイムラグ,不整合をなくし、常に最新のデータベース情報から検索を実行できるようになりました。この点と、インデックス更新中でも性能を低下させることなく検索処理ができる[Pana Search/KB]の持つ特性を合わせ、業界で初めて、データベースの更新に同期したインデックス更新と高速なテキスト検索の両立に成功しました。
<市場への貢献>
[Pana Searchシリーズ]は、新聞業界のシステムや特許検索システムに広く利用されています。また、[DB2]は新聞社の組版システムや素材管理システム、統合データベースとして実績のあるデータベース管理ソフトウェアです。
今回開発した[Pana Search/KB Database Edition for DB2]と[DB2]によるソリューションは、大規模なデータベースとデータの追加直後にそのデータを高速に検索できる機能を必要とする新聞業界のお客様に最適です。また本ソリューションは、[DB2]への単一のSQL要求で、[DB2]の高度なXML操作能力と[Pana Search/KB]の強力なテキスト検索能力の両方を、簡単に活用することができるソリューションです。
●新開発商品[Pana Search/KB Database Edition for DB2]の主な特長
【1】[DB2]との更新のタイムラグがなく、常に整合性のとれた検索が可能
[Pana Search/KB Database Edition for DB2]では、新開発の即時更新機能により、少量の更新が同時に多数発生するケースでの更新性能を10倍以上に高速化し、[DB2]クライアントからの複数の更新要求を、[DB2]の持つ効率的なUDF機構を用いて同期的に並行処理することにより、業界で初めて、RDBMSとのデータ/インデックスの整合性を常に保つ事に成功しました。
(2008年7月現在、商用のRDBMSに接続して使用するタイプのテキスト検索エンジンにおいて)
従って、[DB2]テーブルへの更新が完了すれば、即座にテキスト検索が可能となるだけでなく、業務アプリケーションで、[Pana Search/KB]に割り当てたテキスト項目と[DB2]の項目の両者を用いる検索・操作においても、常に正確な結果が求まり、安心してご利用いただけます。
【2】更新処理中のテキスト検索性能の低下が少なく、トランザクション型のシステムへも適用可能
[Pana Search/KB]は、世代管理型の差分更新アーキテクチャを採用しており、テキスト検索が更新処理によりブロックされることがありません。 さらに、複数の更新要求をまとめて処理する方式のため、行単位の更新が同時に多数発生するタイプの応用システムにおいても、一定の更新性能(スループット)を確保することができます。これは、現代のWebシステムにおいては、非常に重要な特性となります。
【3】長期の安定運用と、迅速な障害復旧を実現
対障害性の高い[Pana Search/KB]の世代管理方式と、堅牢な[DB2]のバックアップ機能との組み合わせで、無停止での長期運用と、万一の障害発生時の迅速な復旧が行え、24H365Dの稼動が要求されるシステムの基盤としてお使いいただけます。
【4】拡張性が高く、繰り返し型を含む多数の項目/テーブルや分散構成が利用可能
百以上の項目を持つテーブルを複数種作成できる[Pana Search/KB]の特徴を生かして、複雑なテーブル構成を持つ[DB2]のデータベースであっても、単一のPana Search/KBインスタンスで対応できます。実用上の要求が高い繰り返し項目については、CSV文字列として個数の制約のない自然な形で扱え、極めて高速な完全/中間一致/ワイルドカード検索によって、テキスト検索結果を効果的に絞り込めます。さらに、[Pana Search/KB]の分散DB統合検索機能により、データ規模の増加に合わせてテキスト検索サーバを増設し、パフォーマンスを落とさずに数十台規模の分散DBが構築できます。
*[Pana Search/KB]に関連する登録済特許件数: 国内15件、海外6件 (2007年時点)
●新開発商品[Pana Search/KB Database Edition for DB2]について
品名 | テキスト検索エンジン ソフトウエア Pana Search/KB Database Edition for DB2 |
---|---|
品番 | BP-PKB-DE-DB2-LINUX |
発売日 | 2008年10月10日 |
●新開発商品[Pana Search/KB Database Edition for DB2]の動作環境
検索サーバ | Red Hat Enterprise LinuxTM 5 update1 on x86, AMD/Intel 64 |
---|---|
連携データベース (OS, CPU) |
DB2 V9.5 for AIX(AIXTM 5L 5.3 on POWER), DB2 V9.5 for Linux(Red Hat Enterprise LinuxTM 5 update1 on x86, AMD/Intel 64) |
※ | Red Hatは、米国およびその他の国におけるRed Hat,Inc.の商標または登録商標です。 |
※ | IBM、DB2およびPOWERは、International Business Machines Corporationの米国およびその他の国における商標です。 |
※ | その他記載されている会社名、製品名は、各社の商標または登録商標です。 |
●従来技術との比較
項目 | PanaSearch/KB DatabaseEditionforDB2 | 代表的な他社エンジンの例 | |
---|---|---|---|
基本方式 | 非破壊の更新(版管理) | 破壊的な更新 | |
複数の要素DBの階層的更新 | 単一のDBの更新 | ||
特性 | 更新方法 | 即時自動更新 | 手動で更新 or 一定時間毎に自動更新 |
更新中の検索 | 可 (最新の版で検索可能) | 不可 (排他制御が必要) | |
更新タイムラグ | 1秒以下 | 数分以上 (間隔が短いとハング) | |
RDBテーブルとの同期性 | 完全な同期 (RDBに登録終了時に確実にテキスト検索可) |
不完全 (RDBに登録終了時にテキスト検索でHITしない) |
|
メンテナンス処理 | 更新と並行してバックグラウンドで実行 (更新時間への影響が小) |
別途バッチ的に実行 (実行中は検索不可or検索/更新性能が低下) |
●Pana Search/KBの更新性能 (同時アクセス性能の評価)
★更新要求を行うDB2のクライアント数が増えた場合の更新性能を、以下の指標により測定。
- 更新待ち時間(更新要求の投入後、検索可能になるまでの時間間隔)
- 更新スループット(更新開始後、N秒間で処理できた更新要求の個数/N)
以上