PDF のダウンロード

PDF のダウンロード
[email protected] ホワイトペーパー
インテル IT 部門
IT ベスト・プラクティス
ビッグデータと IT イノベーション
2013 年 2 月
インテルのビッグデータ環境に
Apache* Hadoop* を統合
概要
ある概念実証では、
新しいプラットフォームによって
根本原因分析の
実行と問題発生防止の
自動化が実現され、
問題発生件数の
30% 削減が可能になりました。
Assaf Araki
インテル IT 部門
ビッグデータ分析エンジニア
Ajay Chandramouly
インテル IT 部門
ビッグデータ業界エンゲージメント・
マネージャー
インテル IT 部門は、厳密に定義した一連の評価基準を使用して、Apache* Hadoop* 対応
インテル ® ディストリビューション(インテル ® ディストリビューション)とその 他 2 種 類 の
Apache* Hadoop* ディストリビューションを比較しました。この評価基準は、プラットフォー
ム・アーキテクチャーの特性、管理 / 運用 / サポート、各ディストリビューションがもたらす独自
の価値提案から構成されます。私たちはこれらの基準に基づいて、各ディストリビューションの
テスト、検証、評価を行い、ディストリビューションごとのスコアを算出しました。
この評価の結果、インテル ® ディストリビュー
完するものです。今回の評価と導入の過程
ションを使用した場合、他のディストリビュー
で、インテル IT 部門は、各ビジネスグループ
ションよりも大きなメリットが得られることが
の新しいプラットフォーム導入の支援に役立
確認されました。
つ多くのベスト・プラクティスを確立しました。
• 既存のインフラストラクチャーとのシームレ
スな統合、高可用性、マルチテナント環境
をサポートするプラットフォーム・アーキテク
チャー
計画段階での初期投資の結果、構造化デー
タ分析および多構造化データ分析という利
用用途をサポートし、進化するニーズに応じ
た拡張性を備えたプラットフォームを実現で
きました。ある概念実証では、新しいプラット
• 無 駄 のないセットアップ、管 理、セキュリ
ティー、トラブルシューティングによる、管
理、運用、サポートの容易さ
フォームによって根本原因分析の実行と問
題発生防止の自動化が実現され、問題発生
件数の 30% 削減が可能になりました。現在
の IT 経済環境において、このことは大幅なコ
Nghia Ngo
インテル IT 部門
ビッグデータ・ケーパビリティー・エンジニア
Sonja Sandeen
インテル IT 部門
ビッグデータ・プロジェクト・マネージャー
Darin Watson
インテル IT 部門
ビッグデータ・プラットフォーム・エンジニア
• インテル ® アーキテクチャー向けの最適化
によるパフォーマンスの向上と、インテル ®
AES New Instructions による暗号化処
理の強化
• オープン・ソース・コミュニティーとの緊密
な関係と、オープン・ソース・ロードマップと
の整合性
インテルの Hadoop* プラットフォームは、コ
スト効率と拡張性に優れたインテル ® アーキ
テクチャー・ベースのエンタープライズ・デー
Chandhu Yalla
インテル IT 部門
ビッグデータ・エンジニアリング・マネージャー
タ・ウェアハウス、インメモリー・データベース、
カスタム・データ・ウェアハウスなど、他のビジ
ネス・インテリジェンス・プラットフォームを補
スト削減およびコスト回避につながり、従業
員の生産性向上を支援します。
[email protected] ホワイトペーパー インテルのビッグデータ環境に Apache* Hadoop* を統合
目 次
概 要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
ビジネス課題 . . . . . . . . . . . . . . . . . . . . . . . . 2
重要性を増す
高速、大量のデータ分析 . . . . . . . . . 2
Apache* Hadoop*
プラットフォームに特有の課題 . . . 3
Apache* Hadoop*
ディストリビューションの選択 . . . . . . . . 3
戦略的目標 . . . . . . . . . . . . . . . . . . . . . . . 3
評価手法 . . . . . . . . . . . . . . . . . . . . . . . . . 3
評価基準 . . . . . . . . . . . . . . . . . . . . . . . . . 4
インテル ® ディストリビューション・
プラットフォームの
コンポーネント. . . . . . . . . . . . . . . . . . . . 6
インテルにおける Apache*
Hadoop* の利用用途 . . . . . . . . . . . 6
Hadoop* プラットフォームの
設計と導入に役立つ
ベスト・プラクティス . . . . . . . . . . . . . . 6
次のステップ . . . . . . . . . . . . . . . . . . . . . . . . . 6
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
ビジネス課題
重要性を増す高速、大量のデータ分析
デジタル・テクノロジーとデジタルストレージ
インテルでは 従 来、リレーショナル・データ
処理能力を超える、データの爆発的な増加を
した。しかし現在、データの大半は非構造化
とマシンが生成するデータの例としては、ブ
などのソースから驚異的なペースで蓄積さ
ル・ネットワーク、インターネット・テキスト、セ
能の重要性はさらに増しています。的確な情
の普及は、従来のデータ・プラットフォームの
もたらしました。ユーザーが生成するデータ
データになり、Web、ネットワーク、センサー
ログ、RFID、センサー・ネットワーク、ソーシャ
れ、大量のデータ分析を高速で実行する機
キュリティー・ログ、ビデオアーカイブなどが
報に基づく迅速な意思決定をベースとする
挙げられます。
略 語. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
要があります。しかし、現在のリレーショナル・
テリジェンス(Business Intelligence; BI)
データ・ウェアハウスはこうしたデータ分 析
プラットフォームは、多構造化データをサポー
に対応するよう設計されていません。そこで、
トしていません。また、深い洞察と迅速でより
Not Only SQL(NoSQL)をベースとした BI
良い意思決定をもたらすビッグデータ分析に
プラットフォームの検討が行われました。大
も対応できません。企業内のデータの種類と
量の非構造化データを適切なタイミングで処
量は劇的に変化しており、データ分析処理の
理、格納するという目的には、このタイプのプ
ビジョン、戦略、プラットフォームにも、それに
ラットフォームが最適です。
対応した変革が求められています。
現在、最も広く使用されている NoSQL プラッ
この問題に対処するため、インテル IT 部門
トフォーム に、オープ ンソース の Apache*
は、インテルで使用されているデータのうちの
Hadoop* プロジェクトがあります。これには、
Hadoop* 分散ファイルシステム(Hadoop*
Distributed File System; HDFS*)と、分
散型の非リレーショナル・データベースであ
る HBase* が含まれます。その他の NoSQL
ソリューションは、オープンソースであれ、独
自 規 格 に 基 づくものであ れ、Hadoop* や
HBase* に比 べるとまだまだ未 成 熟です。
Hadoop* ベースのプラットフォームには、成
熟度の高さに加えて、ニーズに応じて進化す
る柔軟な IT エコシステムを維持できるという
メリットがあります。
何割が利用可能かを評価し、そのデータを管
理するための戦略を構築しました。1 広範囲に
わたるデータと分析へのニーズを通じてビジ
ネス価値を実現するため、さまざまな特性を
持つデータの格納と分析をサポートする複数
の BI プラットフォームを構想する戦略を策定
しました。こうした BI プラットフォームの例とし
ては、コスト効率と拡張性に優れたインテル ®
アーキテクチャー・ベースのエンタープライ
ベース、カスタム・データ・ウェアハウスなどが
挙げられます。この戦略には、利用用途ごと
に最適な BI プラットフォームの選択も含まれ
純粋なオープン・ソース・コード、サードパー
ます。2 こうした予測的な戦略は、急速に増加
ティーのディストリビューションなど、複数の
する多様なデータセットから価値を生み出す
Hadoop* ベース・ソリューションが 利 用 可
能です。現時点では、純粋なオープンソース
版の Hadoop* はバッチ処理用に設計され
ており、HBase* は高速処理向けには最適
化されていません。インテル IT 部門は、サー
ド パーティーの Hadoop* ディストリビュー
ションがインテルの分析ニーズに適合すると
判断しました。
上で、重要なステップとなります。
[email protected]
[email protected] は IT プ ロフェッショナ ル、マ
ネージャー、エグゼクティブが、インテル
IT 部 門 の スタッフや 数 多くの 業 界 IT
リーダーを通じ、今日の困難な IT 課題
に対して成果を発揮してきたツール、手
法、戦略、ベスト・プラクティスについて
詳しく知るための情 報 源です。詳 細に
つ い て は、http://www.intel.co.jp/
itatintel/ を参照してください。あるいは
インテルまでお問い合わせください。
2
www.intel.co.jp/itatintel
インテルの競争力を維持するには、従来より
もはるかに多くのデータソースを活用する必
インテルに現在導入されているビジネス・イン
ズ・データ・ウェアハウス、インメモリー・データ
関連情報 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
ベースの構造化データの分析を重視していま
1
2
詳細については、
『Enabling Big Data Solutions
(2 0 1 3
w i t h C e nt ra l i ze d D at a M a n a g e m e nt』
年 1 月)を参照してください。
詳細については、
『Using a Multiple Data Warehouse
(2013 年 3 月)
Strategy to Improve BI Analytics』
を参照してください。
インテルのビッグデータ環境に Apache* Hadoop* を統合
[email protected] ホワイトペーパー
Apache* Hadoop*
プラットフォームに特有の課題
Apache* Hadoop*
ディストリビューションの選択
インテルの各ビジネスグループでは、Hadoop*
イン テ ル I T 部 門 の 戦 略 は、A p a c h e *
• エンタープライズ・アクセス管理、役割に基
づくセキュリティー機能の統合、ディレクト
リー・サービスを使用して、構成および管理
プロセスを簡略化する。
ション(インテル ® ディストリビューション)と
評価手法
ションとを比較して、インテルの要件に最適
まず、評価基準のリストを作成しました。各基
いテクノロジーとインテルの既存のインフラ
的な結果が得られるように、1 から 5 までの
フォームを統合することでした。この手法に
準に対して各ディストリビューションのテスト、
化され、各ビジネスグループはそれぞれの
のスコアを算出しました。その結果、インテル®
ベースのソリューションを使用することの価値
は認めているものの、以下の問題があるため
に、実際の導入には困難が伴います。
• 大半の H a d o o p * ベース・プラットフォー
ムが、オープン・ソース・テクノロジーに基
づいていること。オープン・ソース・テクノ
ロジーの開発とサポートを管理することは、
インテルのほとんどの開発コミュニティーに
とって新しい考え方であり、製品とキャパシ
ティーの管理、ストレージサービスと移行
サービス、ガバナンスなどの多くの面で開
発作業に影響を与える可能性があります。
• アプリケーション開発者は新たなスキル
を習 得する必要があること。例えば、使
い 慣 れ た SQL 言 語 か ら、Java* に よる
MapReduce コード作成に切り替える必要
があります。また、分散型アルゴリズムは、
従来のシーケンシャル・アルゴリズムに比べ
て非直感的で、一般的でもないため、異な
る思考方法が求められます。
• ビッグデータ(特に多構造化ビッグデータ)
が比較的新しい分野であること。利用可能
なツール、ハードウェア、およびソフトウェア・
ソリューションは刻々と変化しており、これ
に対応するには、相当の教育投資と継続的
な改善が必要です。
これらの課題に対処するため、インテル IT
部門は、複数の Hadoop* ディストリビュー
H a d o o p * 対応インテル ® ディストリビュー
その他 2 種類の Hadoop* ディストリビュー
なディストリビューションを選択し、この新し
準を選定し、選択の優先度に基づいた総合
ストラクチャーおよびその他の B I プラット
重み係数を割り当てました。次に、これらの基
より、各テクノロジーの導入メリットが最大
利用用途に最適な B I プラットフォームの使
検証、評価を行い、各ディストリビューション
ディストリビューションは私たちの基準(各ビ
用が可能になります。
ジネスグループによる導入の障壁の軽減を
戦略的目標
サポートの両面で総保有コスト(Total Cost
評価プロセスでは、以下の戦略的目標を重視
含む)を最もよく満たし、初期コストと継続的
of Ownership; TCO)が最小になることが確
認できました。
しました。
図 1 に示すように、インテル® ディストリビュー
• コスト効 率に優 れた高 性 能 なインテル ®
Xeon® プロセッサー E5 ファミリー搭載サー
バーで構成されるコンピューティング / スト
レージ・クラスターを使用して、高性能かつ
高速な分析を大量に提供し、
ストレージコス
トを削減する。
ションは、Apache* Hadoop* オープン・ソー
ス・プロジェクトの 完 全 なディストリビュー
ションに加えて、MapReduce、HDFS*、およ
び Hive* データ・ウェアハウス・インフラスト
ラクチャーや Pig* データフロー言語などの
関連コンポーネントを含む包括的なソリュー
ションです。また、インテル ® ディストリビュー
• 単一のダッシュボードを使用して、サポート
と運用管理の負担を軽減する。
ションは、Apache* Mahout* と、Apache*
Hadoop* 対応インテル ® グラフ・ビルダーを
サポートします。ソリューションの要素があら
• 480 Gbps のクラスター・ファブリック帯域
幅を備えた高性能ネットワークを利用して、
大規模データセット処理のパフォーマンスを
向上し、
セキュリティー・レイヤーを強化する。
かじめ統合されているため、運用管理および
導入の簡略化と迅速な市場投入が可能とな
り、トレーニングと投資資金を最小限に抑え
られます。
ションの評価と、完全統合型の実稼動プラッ
トフォームの実現に取り組みました。私たち
の使命は、ビッグデータ・サービス・プロバイ
ダーのように働き、プラットフォームの導入を
容易にし、各ビジネスグループが簡単にビッ
グデータからビジネス価値を得られるように
することでした。
• 包括的なサービスとしてビッグデータ分析
を提供し、ビッグデータ分析プラットフォー
ムと既存のセキュリティー・インフラストラク
チャー、データ・ウェアハウス、ツールを緊
密に統合することにより、データ利用の高
速化、各部門の導入時間の短縮、ビジネス
価値の迅速な実現を可能にする。
インテル® ディストリビューションの選択を決定
した後、インテル IT 部門は、プラットフォーム
全体の設計と実装を 5 週間で完了しました。
この成果は、インテル IT 部門とインテルのソ
フトウェア & サービス事業部間の組織横断的
な力強い協力関係によって可能になりました。
www.intel.co.jp/itatintel
3
[email protected] ホワイトペーパー インテルのビッグデータ環境に Apache* Hadoop* を統合
Hadoop* 対応インテル ® マネージャー
導入、構成、
モニタリング、
アラート、
セキュリティー
Pig*
スクリプト処理
Sqoop*
データ交換
Hive*
SQL ライクなクエリー
Oozie
ワークフロー
MapReduce
分散処理フレームワーク
ZooKeeper*
調整
Flume*
ログコレクター
HBase*
列指向の
ストレージ
HDFS*
Hadoop* 分散ファイルシステム
図 1. Apache* Hadoop* 対応インテル ® ディストリビューションのソフトウェア・コンポーネントは、包括的なビッグデータ・ソリューションを提供します。
評価基準
したがって、他のツールを簡単に統合して
る要 因になります。そのため、それぞれの
使用できる、オープン API を提供するディ
ディストリビューションの 評 価 基 準を複 数
ストリビューションが求められていました。
Hadoop* ディストリビューションについて、
アップグレード、プロビジョニング、構成管理
の各機能と、その使いやすさ、習得の容易さ
を検討しました。
の カテゴリーに 分 類しました。ここでは、
インテル ® ディストリビューションがカテゴ
今回の評価では、インテル ® ディストリビュー
リーごとにインテルの要件をどのように満た
ションがこの要件に最もよく適合することが
すかについて説明します。
分かりました。
そこから得られた情報を基に、サポートチー
プラットフォーム・アーキテクチャー
統合の詳しい内容
プライヤー・ベースのトレーニング / コンサル
Hadoop* ディストリビューションは、複数の
高度なエンタープライズ要件を満たす必要
があります。
インテル ® ディストリビューションは、以下の
ティング・サービスの量について、経営担当
すべての機能との統合が可能です。
の役員たちとも話し合うことができました。
• 既存のデータ・ウェアハウスおよび大規模
並列処理システム
ディストリビューションに関する特別なトレー
• セキュリティー機能の統合:インテルでは、
最大の資産の 1 つである知的財産権を保
護するために、広範囲にわたる情報セキュ
リティー・インフラストラクチャーを導入して
• 既存の BI プラットフォームおよび分析ツール
4
インテル ® ディストリビューションの 導 入と
統合の容易さが強調されました。インテル ®
ディストリビューションは簡単に習得できま
• 抽出、ロード、転送ツールなどのさまざま
なデータ処理ツール
すが、正式なトレーニングも利用可能です。
• エンタープライズ・スケジューリング・ツー
リング・チームは、インテル ® ディストリビュー
ディストリビューションの評価が完了してから
実稼動版を実装するまでの間に、エンジニア
ルおよびアクセス管理ツール
• マルチテナント環境のサポート:Hadoop*
クラスターのような分散型システムでは、
優 先 度を指 定してコンピューティング・リ
ソースを特定のジョブに割り当てる必要が
あります。
今回の評価の中で、評価チームはインテル ®
ニングを必 要としていないことが 判 明し、
• BI レポーティング・ツールおよび分析エン
ジン
います。
• 高可用性:インテルのビジネスは 24 時間
365 日体制で運用されており、非稼動時
間の発生は許されません。
ムの形成に必要な作業量と、必要とされるサ
ション製品チームからトレーニングを受けま
した。このトレーニングにより、技術的な問
• M a h o u t * な ど の 高 度 な 分 析 ツール。
M a h o u t * は、M a p R e d u c e アルゴリズ
ムを組み込み、オープンソースの R 統計プ
ログラミング言語を統合した機械学習ライ
ブラリーです。
題を解決し、差し迫った導入と実装のための
知識と自信を得ることができました。
イン テ ル ® ディストリビューション に は、
Hadoop* 対 応 イ ン テ ル ® マ ネージャー
(インテ ル ® マネージャー)が 含まれます。
との統合:インテルは、これまでデータ管理
管理、運用、サポート
とデータ分析をサポートするツールとテク
機 能はもちろん重 要ですが、管 理、運 用、
ターのインストール、構成、管理、モニタリン
ノロジーに多額の投資を行ってきました。
サ ポートの 容 易 さも、TCO に 影 響 を 与 え
グ、運用のために設計された、Web ベース
www.intel.co.jp/itatintel
インテル ® マネージャーは、Hadoop* クラス
インテルのビッグデータ環境に Apache* Hadoop* を統合
の管理コンソールです。このソフトウェアは、
た。Hadoop* コードは高度な分散処理コー
Nagios* と Ganglia を使用して、クラスター
ドであるため、インフラストラクチャー全 体
内のリソースのモニタリングとアラートの構
でコーディングの効率が大きく向上し、サー
成を行います。IT 部門の各チームは、最小
バーとストレージ・コントローラーのパフォー
限のトレーニングを受けただけで、インテル ®
マンスの向上、消費電力の削減、必要なキャ
マネージャーを 使 用して Hadoop* クラス
パシティーの縮小が可能になります。
ターのセットアップ、管理、セキュリティー、ト
ラブルシューティングを合理化できました。
また、インテル ® マネージャーは、Kerberos
高速クエリーおよび分析機能を提供します。
図 2 に示すように、インテル社内の測定で
なユーザー認証および承認をサポートしてい
は、インテル ® アーキテクチャー上でフルに最
ます。この使いやすい強力なツールにより、
適化されたインテル ® ディストリビューション
手間のかかるクラスター管理に労力を費やす
は、最適化されていないオープン・ソース・ス
ことなく、Hadoop* 環境からビジネス価値を
タック上で同じジョブを実行した場合に比べ
引き出すことに労力と時間を集中できます。
て、パフォーマンスが 5 倍に向上しました。こ
のような最適化による分析処理の高速化は、
常に最適なビジネス価値をもたらすために
各ディストリビューションの評価では、サード
欠かすことのできない俊敏な意思決定を可
パーティー・サプライヤーが提供する独自の
能にします。
価値についても、他のディストリビューション
や純粋なオープン・ソース・コードと比較、検
討しました。また、各ディストリビューション
2,000
5倍
リアルタイム・ジョブの
パフォーマンス向上
1,000
0
700
3,500
オープンソース
Apache* Hadoop* 対応
インテル ® ディストリビューション
図 2. インテルのハードウェアに最適化された Apache*
Hadoop* 対応インテル ® ディストリビューションは、最
適化されていないオープン・ソース・コードに比べてパ
フォーマンスが 5 倍に向上します。インテル社内での測
定値。
ソリューション・スタックに組み込まれた
セキュリティー機能
がどの程度オープン・ソース・コミュニティー
今回の評価では、HDFS* および MapReduce
との連携を保ち、H a d o o p * リリース・ロード
に対 応したインテル ® AES-NI 暗 号 化を利
マップとの整合性を維持しているかも評価し
用してファイルレベルとセルレベルの両方で
ました。
4,000
3,000
と内蔵のアクセス制御規則を使用した安全
独自の価値提案
パフォーマンス
HBase* をデータソースとする
サーバー 1 台当たり 1 秒に 1,000 レコードを挿入
サーバー 1 台当たり 1 秒に 400 以上のクエリーを
ディスクから読み出す
インテル® ディストリビューションは、HBase*
に格納された大規模データセットに対する超
[email protected] ホワイトペーパー
暗号化処理を高速化できるディストリビュー
ションは、インテル ® ディストリビューション以
その結果、インテル ® ディストリビューション
外にありませんでした。また、インテル® ディス
には以下のメリットがあり、他の 2 種類のディ
トリビューションは、ディレクトリー・サービス
ストリビューションに比べて最も高い価値を
を使用してきめ細かなアクセス制御リストを
もたらすという結論が得られました。
利用できるため、さらに優れた価値を生み出
します。
• インテル ® アーキテクチャーに最適化され
ている
インテル® Xeon® プロセッサーは、
データセン
ターからデスクトップ・クライアントまたはモ
• インテル® AES New Instructions(インテル®
AES-NI)を利用できる
バイル・クライアントに至るまでのコンピュー
ティング・プラットフォーム全体を対象とする、
ハードウェア支援型セキュリティー・テクノロ
• オープン・ソース・コミュニティーとの整合
性を完全に維持し、将来も新機能の導入
の遅れを回避できる
インテル® アーキテクチャーへの最適化
ジーを備えています。これらのテクノロジー
を組み合わせて、暗号化データにアクセスす
るときの応答の高速化、機密情報の保護を
支援する強力な認証、セキュリティー侵害に
対する保護の強化をサポートします。また、
評価した他のディストリビューションはソフト
インテル ® ディストリビューションには、より安
ウェアのみを重視するものでしたが、インテル
全なデータ転送のための強化された認証と
のソフトウェア・チームは、オープンソース
プロビジョニングなど、多くのデータ・セキュ
の Hadoop* スタックを最 適 化して、高 密
リティー機能も組み込まれています。
度でコスト効率と拡張性に優れたインテル ®
X e o n ® プ ロ セッサー E5 ファミリーお よび
インテル® Xeon® プロセッサー E7 ファミリー
をフルに利用できるようにしたため、データ
分 析の所 要 時 間が 飛 躍 的に短 縮されまし
オープンソース標準規格および
ロードマップとの整合性
利用可能な技術面の機能に関しては、オー
プン・ソース・コミュニティーのリリースとの
www.intel.co.jp/itatintel
5
[email protected] ホワイトペーパー インテルのビッグデータ環境に Apache* Hadoop* を統合
整合性を確保するために必要な投資とのバ
インテルの Hadoop* プラットフォームは、以
ランスがとれていなければなりません。TCO
下の基本コンポーネントで構成されます。
の削減を達成するには、ソリューションを構
成するテクノロジーに付加価値があるだけで
なく、ソリューションの導入と保守が容易で、
将来的なテクノロジーの進化とともに拡張で
きる必要があります。
インテ ル は オープン・ソース・ソフトウェア
へ の 積 極 的 な 取り組 みで 知られ ており、
• 16 ノードのインテル ® Xeon® プロセッサー
E5 ファミリー搭載サーバー(合計 192 コ
アを搭載し、合計 96 テラバイトのストレー
ジ容量を使用)
Hadoop* プラットフォームの設計と
導入に役立つベスト・プラクティス
インテル ® ディストリビューションを使用した
• Hadoop* 1.x リリースをベースとする、最
新世代のインテル ® ディストリビューション
Hadoop* プラットフォームの評価、設計、導
入の過程で、いくつかのベスト・プラクティス
を特定しました。これらのベスト・プラクティ
スに従って、プラットフォームを迅速に実装
し、そこからビジネス価値を引き出すことが
できました。
インテルにおける
Apache* Hadoop* の利用用途
ティスを示しています。
Hadoop* フレームワークおよび 関 連プ ロ
ジェクトにも大きな貢献を果たしています。
Hadoop* へのインテルの貢献は、オープン・
ソース・コミュニティーとユーザーが、次世代
データセンターの基盤となるハードウェア、ス
トレージ、ネットワーキング・テクノロジーをフ
ルに利用できるようにすることを重視してい
ます。今回の評価では、インテル ® ディストリ
ビューションは、他のサードパーティー・ディ
ストリビューションと同程度に、オープン・ソー
ス・ロードマップと緊密に連携しているという
結論が得られました。また、インテル ® ディス
トリビューションのコンポーネントの大半は、
オープン・ソース・コードを利用できます。
インテル® ディストリビューション・
プラットフォームのコンポーネント
インテ ル IT 部 門 は、インテ ル ® ディストリ
ビューションの非 構 造 化データ分 析および
多構造化データ分析機能によって大きなビ
ジネス価値が得られる初期の利用用途を、3
つ特定しました。
• インシデント予測:インテル IT 部門では、
クライアントの問題発生を事前に予測お
よび監視し、ビッグデータを利用して根本
原因分析と問題発生防止を自動化しよう
と努 めてきました。概 念 実 証(Proof of
Concept; PoC)を実施した結果、問題発
生 件 数を 30%(1 週 間 当 たり約 4,000
件)削減できることが判明しました。
インテル IT 部門では、インテルにおけるビッ
グデータの実使用例が増加を続けており、
次ページの表 1 は、これらのベスト・プラク
次のステップ
インテル I T 部 門は 現 在、3 つの 顧 客プロ
ジェクトに 積 極 的 に 取り組 ん で い ます。
2012 年には、BI のスキルを備えた 5 人の
スタッフで構成される小規模なチームが 6
カ月で最大 1 , 0 0 0 万米ドルの価値を創出
できることを示しました。現在は、その 5 ∼
1 0 倍の収益が期待できるビッグデータ分
析の利用用途について検討しています。
これらの利用用途は、インテル ® ディストリ
ビューションのビジネス価値をさらに実証す
• レコメンデーション・エンジン:インテル IT
るはずです。そして、利用用途への需要が増
部門では、コンテキスト認識型アプリケー
大するにつれて、プラットフォームとその機能
とを認識していました。したがって、演算量
ションを利用した、より良いモバイル体験
を拡張していく予定です。また、最初の一連
時間の経過とともにニーズが変化していくこ
の多い利用用途と大量のストレージを必要
の提供に取り組んできました。Hadoop*
の利用用途の研究を継続し、プラットフォー
とする利用用途の両方をサポートする、コス
の上で Mahout* を利用することにより、さ
ムの理解を深めて進化させることで、より堅
ト効率と拡張性に優れたプラットフォームを
まざまなソリューションから利用できる、拡
固なプラットフォームを提供していく予定で
構築する必要がありました。
張性の高いレコメンデーション・サービスを
す。この手法により、私たちはビジネス価値
提供できます。
と既知の最適手法を素早く獲得し、それら
計画段階での初期投資の結果、次のような特
長を持つプラットフォームを実現できました。
を新たな利用用途へと適用できます。ビッグ
• 適正な規模のプラットフォーム・デザインと
アーキテクチャーで、現在および近い将来
のニーズに対応
• カスタマーインサイト:この利用用途は、
生の Web データを処理し、そのデータと
他のデータ・ウェアハウス内での利用が可
能な内部消費データとを統合します。Web
測定基準の利用により、インテルのサプラ
イチェーンは製品の在庫状況を改善し、そ
れぞれの地域ごとに最適な在庫水準を維
持できます。
• 進化するニーズに応じて拡張可能
インテル IT 部門は、インテルの各ビジネスグ
• 非構造化分析データおよび多構造化分析
データの利用用途をサポート
データ分析のビジネス価値の大部分は、予
測的分析から得られると考えています。大規
模なデータセットのデータマイニングにも価
値はありますが、Hadoop* プラットフォーム
のパワーを使って将来のトレンドを見極める
ことには、さらに大きな価値があります。
インテル IT 部門は、この新しい BI プラット
フォームを完全統合型 BI サービスの一部と
することで、現行の BI プラットフォームと関
ループと積極的に協力し、その他の利用用
連する IT プロセスとを統合します。このサー
途の特定と導入に取り組んでいます。
ビスには、開発およびアーキテクチャーに関
する処方的ガイダンスの提供や、標準化され
たプロセスおよびツールが含まれます。
6
www.intel.co.jp/itatintel
インテルのビッグデータ環境に Apache* Hadoop* を統合
[email protected] ホワイトペーパー
表 1. Hadoop* プラットフォームの設計と導入に役立つベスト・プラクティス
社内リソースと外部リソースを活用する
できるだけ早い時期から
トレーニングを実施する
オープン・ソース・ソリューションの開発には従来と異なるアプリケーション開発スキルが必要であり、従来の開発手法はオープンソー
ス環境では不十分なことがあります。インテル IT 部門は、開発者が従来の考え方や作業の進め方、対応の仕方を変える必要があ
ることを認識し、必要な新しいスキルの開発に役立つトレーニングを提供しました。
局所的で小規模な専門家のチームを
発展させてドメイン専門家にする
アーキテクト、技術者、開発者からなる専門チームを結成し、意思決定の権限を与えました。この手法により、ソリューションを迅速
に提供し、インテルにおけるビッグデータ・テクノロジーの採用率を上げられることが分かりました。
オープン・ソース・コミュニティーの
リソースを理解し、一貫した形で
使用する
利用可能なオープン・ソース・プロジェクト、再利用可能な既存のオープン・ソース・コード、および業界が提供するソリューションをよ
く理解することで、社内の利用用途と既存のプロジェクトまたはソリューションが一致する場合に PoC の再実行を回避し、最終的に
時間と労力を節約できることが分かりました。
社内および外部の対象分野の
専門家に相談する
対象分野の専門家に相談することで、Hadoop* プロジェクトを順調に始動することができ、技術チームのスキル習得が容易になる
ことが分かりました。対象分野の専門家は、特定のプロジェクトに最適な手法とツールについてアドバイスを提供し、ビッグデータと
Hadoop* について分かりやすく説明してくれました。
小規模なプロジェクトから始めて、作業や設計のやり直しを減らす
コア・フレームワークと、ビジネス要件に
重要な要素を開発する
小規模な専門家チーム、プラットフォーム、プロジェクトから始めることで、実稼動プラットフォームを 5 週間で提供できました。一度
に 2 ∼ 3 件のプロジェクトを試験導入するときも、この手法を引き続き使用しています。
できるだけ仮想マシンを使用する
仮想化により、システムリソースの使用制限を超えずに、機能テストをサポートできます。また、プロビジョニングを迅速に実行できる
ので、システムの保全性の検証に必要な再構築が可能になります。
プラットフォームとアプリケーションの
統合を優先する
既存のツールおよびプラットフォームと Hadoop* コア・フレームワークの統合に重点を置くことで、ニーズの進化に応じたプラット
フォームの拡張と Hadoop* の補完的コンポーネントの追加が簡単に行えることが分かりました。
俊敏な手法を使用する
俊敏性と柔軟性を重視して
ソリューションを提供する
必要以上に高度なソリューションや完璧なソリューションを目指すのではなく、直ちに結果が得られるソリューションを迅速に提供す
ることを優先します。この手法により、短期間でビジネス価値を実現できます。
現在のニーズを満たすのに十分な
標準的製品を公開する
ビッグデータ・ソリューションのエコシステムは変化が激しく、新しいベンダーや新しい統合ツールが次々に登場してきます。月単位
や年単位でなく、日単位や週単位の更新サイクルに追従するのは簡単ではありません。Hadoop* テクノロジーは 6 カ月の間に数世
代も進化することがあるため、テクノロジーの設計と決定に 6 カ月を費やしている余裕はないことが分かりました。
大きな価値要件を中心として
プロジェクトを設計し、短い期間ごとに
成果を提供する
4 ∼ 6 週間ごとに小分けしてプロジェクトの成果を提供します。ディストリビューションの評価に適用した俊敏な手法に従い、その手
法を継続的なプロジェクトにも引き続き適用します。
自動化と標準化に投資する
自動化により、サポート、保守管理、
サービス提供を強化する
エンジニアリング・ビルド・フェーズおよびテストフェーズでの自動化スクリプトの開発には時間がかかりましたが、結局はそれに見合
う価値が十分に得られました。自動化により、将来のプロジェクトで大きな時間短縮が可能になります。
再利用可能なテンプレートと
スクリプトを標準化して作成する
小規模な専門家のチームに、標準化に関する決定を任せました。その決定は必ずしも理想的なものではありませんでしたが、より多
くのユーザーがプラットフォームを使い始めるときに役立つ堅固な基盤が得られました。
開発と制御の標準を適用する
マルチテナント・クラスターを実装すると、コンピューティング・リソースの制御はある程度失われます。そこで、ジョブの優先度に応じ
てコンピューティング・リソースの割り当てと優先度の指定を上手に行えるような作業手順と制御プロセスを確立しました。
トレーニングの要件に対応する
スキルの習得を支援する
インテルの技術チームはオープン・ソース・テクノロジーに慣れていなかったため、実際の分析を通じて、あるいは Hadoop* 開発者
および管理者向けトレーニング・コースの受講により、ラボ環境内でオープン・ソース・テクノロジーについてよく理解できるように時
間をとりました。例えば、Java* での MapReduce コードの作成や、分散型アルゴリズムの開発について学ぶ必要がありました。
業務横断的なトレーニングを提供する
ビッグデータ分析のスキルとトレーニングは、アプリケーション開発者、技術者、アナリストなどの職務の枠を超えていることが分かり
ました。例えば、技術者がデータの最終的な用途を完全に理解するためには、データ分析のトレーニングを受ける必要があります。
ユーザーと積極的に対話する
ユーザーを適切なソリューションに
導くために、新たな対話手段を
積極的に管理する
Hadoop* プラットフォームへの関心のレベルは高く、実稼動プラットフォームが完成する前に、非常に多くの要求が寄せられまし
た。この状況に対処するため、ビッグデータとは本当はどのようなもので、どの BI プラットフォーム(インメモリー・データベース、
Hadoop*、エンタープライズ・データ・ウェアハウスなど)が各ユーザーのデータセットに最適であるかについて、ユーザーを啓発す
る必要がありました。ユーザーを適切なソリューションに導くことは、各プロジェクトの成功に役立ちます。
限られたリソースの
最適な利用のために、
プロジェクトの優先度を指定する
利用可能なリソースは限られているため、Hadoop* プラットフォームに適したプロジェクトを特定した後、プロジェクトの優先度を指
定するための情報を集めることにしました。そこで、ユーザーに簡単な調査への回答を依頼し、重みを付けた尺度によってプロジェ
クトを評価しました。その結果に基づいて、高いビジネス価値とユーザーの確実な関与が得られるプロジェクトを特定しました。この
方法は、プロジェクトの優先度を指定するツールとしてとして有効であることが分かりました。
知識の共有を通じて協力する
ユーザーは、インテル IT 部門のエンジニアリング・チームおよびソリューション・チームを信頼して、指導と質問への回答を求めてき
ます。ユーザーを啓発し、ビッグデータの概要を説明する必要があることが分かりました。そこで、ビッグデータに慣れていないユー
ザーに、チーム全体で知識を共有できるワークグループの形成を推奨しています。インテル IT 部門は、オンライン・グループ・ディス
カッション・フォーラム、ブログ、ニュースレター、技術フォーラムまたはビジネス・ユーザー・フォーラムなどのナレッジリソースをユー
ザーに紹介しています。
www.intel.co.jp/itatintel
7
まとめ
実現され、問題発生件数の 30% 削減が可
能になりました。
協力者
ションとその他 2 種類の H a d o o p * ディスト
今回の評価と導入の過程で、インテル IT 部
Moty Fania インテル IT 部門
ニーズにはインテル ® ディストリビューション
けでなく、将来的なニーズの変化に応じて拡
インテル IT 部門は、
インテル® ディストリビュー
リビューションとを比較した結果、インテルの
が最適であることを確認しました。さらに、
インテル ® ディストリビューションは、評価対
象となった他のディストリビューションよりも
門は、インテルの現在のニーズに対応するだ
張可能で、コスト効率、柔軟性、拡張性に優
れた適正規模のビッグデータ・プラットフォー
ムの構築に役立つ数多くのベスト・プラクティ
大きな価値をもたらします。インテル® ディスト
スを開発しました。2012 年、インテル IT 部
用管理 / 分析ツールとのシームレスな統合
きく前進しました。2013 年以降も、私たちは
リビューションは、既存のセキュリティー / 運
をサポートし、マルチテナント環境をサポート
する可用性の高いプラットフォーム・アーキテ
門はビッグデータ分析の目標達成に向けて大
関連情報
ビスおよびトレーニングが用意されているこ
• インテルのビッグデータに関する参考資料:
http://www.intel.com/bigdata/(英語)
な関係が築かれていることが挙げられます。
インテル IT 部門は、実稼動版のインテル ®
ディストリビューションをすでに導入し、BI ポー
HDFS*
Hadoop* Distributed
File System
(Hadoop* 分散
ファイルシステム)
NoSQL
インテル ® ディストリビューションのメリットと
と、オープン・ソース・コミュニティーとの緊密
Business Intelligence
(ビジネス・インテリ
ジェンス)
活動に取り組んでいきます。
マネージャーも用意され、インテル ® アーキ
しては他にも、広範囲にわたるサポートサー
BI
これらの成功を踏まえた上で、さらなる開発
クチャーを採用し、Hadoop* 対応インテル ®
テクチャーに対して最 適 化されています。
略 語
PoC
Proof of Concept
(概念実証)
TCO
Total Cost of
Ownership
(総保有コスト)
•『 E n a b l i n g B i g D a t a S o l u t i o n s w i t h
C e n t r a l i z e d D a t a M a n a g e m e n t』
(2013 年 1 月)
トフォリオに Hadoop* プラットフォームを追
加することで得られるビジネス価値を示す 3
つの利用用途を特定しています。ある PoC で
は、この新しいプラットフォームによって、根本
•『 U s i n g a M u l t i p l e D a t a W a r e h o u s e
St r a t e g y t o I m p r o v e B I A n a l y t i c s 』
(2013 年 3 月)
原因分析の実行と問題発生防止の自動化が
インテル IT 部門のベスト・プラクティスの詳細については、
http://www.intel.co.jp/itatintel/ を参照してください。
性能に関するテストや評価は、特定のコンピューター・システム、コンポーネント、またはそれらを組み合わせて行ったものであり、このテストによるインテル
製品の性能の概算の値を表しているものです。システム・ハードウェア、ソフトウェアの設計、構成などの違いにより、実際の性能は掲載された性能テスト
や評価とは異なる場合があります。システムやコンポーネントの購入を検討される場合は、ほかの情報も参考にして、パフォーマンスを総合的に評価する
ことをお勧めします。インテル製品の性能評価についてさらに詳しい情報をお知りになりたい場合は、http://www.intel.co.jp/content/www/jp/ja/
benchmarks/resources-benchmark-limitations.html を参照していただくか、1-800-628-8686 または 1-916-356-3104(アメリカ合衆国)ま
でご連絡ください。
インテル・プロセッサー・ナンバーはパフォーマンスの指標ではありません。プロセッサー・ナンバーは同一プロセッサー・ファミリー内の製品の機能を区別し
ます。異なるプロセッサー・ファミリー間の機能の区別には用いません。詳細については、http://www.intel.co.jp/content/www/jp/ja/processors/
processor-numbers.html を参照してください。
本資料に掲載されている情報は、インテル製品の概要説明を目的としたものです。本資料は、明示されているか否かにかかわらず、また禁反言によるとよら
ずにかかわらず、いかなる知的財産権のライセンスも許諾するものではありません。製品に付属の売買契約書『Intel's Terms and Conditions of Sale』
に規定されている場合を除き、インテルはいかなる責任を負うものではなく、またインテル製品の販売や使用に関する明示または黙示の保証(特定目的へ
の適合性、商品適格性、あらゆる特許権、著作権、その他知的財産権の非侵害性への保証を含む)に関してもいかなる責任も負いません。
Intel、インテル、Intel ロゴ、Xeon は、アメリカ合衆国および / またはその他の国における Intel Corporation の商標です。
* その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル株式会社
〒 100-0005 東京都千代田区丸の内 3-1-1
http://www.intel.co.jp/
2013 Intel Corporation. 無断での引用、転載を禁じます。
©2013
年 9月
Not Only SQL
328640-001JA
JPN/1309/PDF/SE/IT/TC
Was this manual useful for you? yes no
Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Download PDF

advertisement