データ基盤におけるDataplexの活用

2023/09/22に公開されました。
2023/09/22に更新されました。

DMBOKを引用してデータ基盤のあるべき姿をとらえながら、Dataplexを活用することによって信頼性、セキュリティの高いデータ基盤を構築する


author: kwgc-t

はじめに

DMBOKとは
非営利団体DAMA Internationalによって策定されました。(Data Management Body of Knowledge)
2023/11時点でDMBOK第2版が最新です。
DMBOKが目指すゴールは以下として定義されています。

  • 自社や顧客、従業員、ビジネスパートナーを含むステークホルダーの情報ニーズを理解しサポートする
  • データ資産を取得し、保管し、保護し、健全性を担保する
  • データの品質を担保する
  • ステークホルダーが保有するデータのプライバシーと機密性を確保する
  • 不正または不適切なデータへのアクセス、操作、使用を防止する
  • 企業が付加価値を創造するためにデータを効果的に利用できるようにする

DAMAホイール

DAMAホイールとはDMBOKが目指すゴールのために必要な11の知識領域を表現したものです。
データガバナンスを中心に据え、データガバナンスで定義した戦略をホイール上の領域に分割し実装に落とし込みます。
一般社団法人 データマネジメント協会 日本支部より引用 DAMAホイール図

11の知識領域について

データガバナンス

他の全てのデータマネジメント機能の拠り所となります。データガバナンスで定めた定義に従って、他の機能を構築していきます。

  • 戦略
    • データ戦略、ガバナンス戦略を定義し、実行する
  • ポリシー
    • データ管理方法、セキュリティ、データ活用方法の基準を定義し、実行する
    • データ品質基準を定義し、データの品質の安定を図る
    • それぞれのアクターが担う役割、責任を明確化し、運用の安定を図る
  • 管理
    • 運用で発覚した課題を管理、改善を行い利用の促進と生産性の向上を図る
    • 評価データ資産が持つビジネス上の価値を評価する

アーキテクチャ

エンタープライズアーキテクチャで定義されるビジネスアーキテクチャを支えるデータアーキテクチャを定義します。
データの保存や処理の要件、現在のデータ要件と将来のデータ要件を満たす構造や計画を立案します。

モデリングとデザイン

データアーキテクチャをインプットに、データのモデリングを行います。モデリング作業には以下が含まれます。

  • データに関する共通語彙(用語集)を作成する
  • データ構造やエンティティ、リレーションを定義し、ドキュメント化する

ストレージとオペレーション

データアーキテクチャ、モデリングとデザインの成果物をインプットに、データを格納方法の設計をします。

  • データライフサイクル全体にわたるデータの可溶性を管理する
  • データ資産の完全性を保証する
  • データ処理の性能を管理する

データセキュリティ

データガバナンスのポリシーに従ってデータセキュリティ手順を計画、開発、実行します。生産性を妨げない効率的なデータセキュリティ手順を構築し、適切なメンバーが適切な方法で適切なデータにアクセスができ、不適切なアクセスを遮断できるようにします。
また、セキュリティは外的要因によっても求められることが異なってきます。

  • ビジネス上の要求
    • 組織内部の要求
    • 契約上の要求
  • 法規制

データ統合と相互運用性

データの移動を管理し、組織内外からのデータ利用を効率的に行えるようにします。公開されるデータは整形され、ビジネス的価値の高い状態で利用できるようにします。

  • 人、システムが利用しやすいフォーマットでデータを提供する
  • データを物理的もしくは仮想的に集約する

ドキュメントとコンテンツ管理

規制、法遵守や訴訟、情報開示要請の対応としてドキュメント、コンテンツ管理をします。
コンテンツとはファイル、ドキュメント、データ基盤内のデータを指します。ドキュメントとは手順、手続き、方法、仕様書などが含まれます。
また、ドキュメント管理にはレコード管理(記録)も含まれます。レコードとはドキュメントがどのように作成され、更新され、配布され、廃棄されたかの記録です。
コンテンツ、ドキュメント共に検索可能な状態にしておくように管理します。

参照データとマスターデータ

データ基盤の利用者が増加したり、データそのものが増大した時にはデータプロバイダやデータコンシューマの隔絶によって各々が独自にデータを生産、消費した結果、それぞれのデータ構造や値に不整合が発生するケースがあります。この不整合はデータの品質を低下させ、信頼性を欠如させる原因となります。
これを防止するために以下の取り組みを行います。

  • 組織全体の業務プロセスにわたり、一貫性があり最新で信頼できるマスターデータと参照データを保持する
  • 信頼できるマスターデータと参照データが共有できる
  • データ標準、共通データモデル、統合パターンを定義、利用してデータの利用コストを下げる

データウェアハウス

データウェアハウスとは無秩序に積み上げられたデータレイクから一定の基準を設けられて整理したデータの蓄積です。データウェアハウスは以下の目的で構築されます。

  • BI、アクティビティをサポートする
  • 効率的な業務分析と意思決定を可能にする
  • データから得られる結果に基づく、新しい手法、施策を発見する

メタデータ

データ基盤に蓄積されたデータを効率的に利用できるようにするためにメタデータ管理をします。利用者がデータ基盤に格納されたデータがなんであるか理解を促進させ、生産性や利用の向上に繋げます。

  • 利用者がデータコンテンツを理解し、データを利用できるようにするためのデータを管理する
  • メタデータを収集、統合しデータの理解を深める
  • メタデータの品質、一貫性、最新性を確保する
  • メタデータの利用方法を利用者に提供する

データ品質

データ基盤の信頼性を高めるため、データの品質の保証をします。データの品質を高めることで、コストの削減や利用率の向上を促進します。

  • データの価値を高める
  • 低品質データの排除によるコスト、リスクの削減
  • 効率、生産性の向上

データ基盤におけるDataplexの活用

DMBOKで定義されている11の知識領域でDataplexを活用することで効率的に実現が可能なものもあります。

  • データセキュリティ
  • データ統合と相互運用性
  • メタデータ
  • データ品質

データセキュリティとデータ統合と相互運用性

データセキュリティ

一元的にアクセス制御およびデータアクセスの監査や資産の管理ができます。
不適切なアクセスの遮断や適切な利用者に対してのアクセス権限の付与が論理的に集約された単位で行えます。

  • Lake、Zone、Asset単位でのアクセス権限の制御
  • Dataplex管理者によるDataplex全体の一元管理
  • Lake管理者によるLake内の一元管理

データ統合と相互運用性

データセキュリティでも記載の通り、論理的に集約された単位でアクセス制御が行えます。そのため、データの公開する範囲の制御を個別に行う必要がなく、効率的に管理ができます。
また、利用者もデータが論理的に集約されているため、どのデータがどこにあるか把握しやすく、効率的にアクセスができます。

  • 適切なアクセス制御により、データの公開できる範囲を制御
    • Rawデータは内部のみ、キュレーション済みデータを外部へ公開
  • 分析結果の保管場所の制御
    • 書き込みが可能なエリア、読み込みのみ可能なエリアの制御
  • データ加工処理の一元的な管理

図1 security

メタデータ

メタデータの自動収集やデータの自動検知、データプロバイダーによるビジネスメタデータの付与が行えます。ビジネスメタデータはタグテンプレートを利用することによって、一貫性を保ったビジネスメタデータの付与が行えます。

  • Datacatalogでのテクニカルメタデータ、ビジネスメタデータの検索
  • 用語集の登録、検索
  • データの利便性を高めるビジネスメタデータの付与

図2 metadata

データ品質

Dataplex上で管理しているアセットのプロファイリングやプロファイリングを行った結果を利用したデータ品質のチェックが行えます。データ品質チェックはカスタム定義やSQL、事前定義のチェックもサポートされています。
また、プロファイリング結果やデータ品質チェック結果をBigQueryに格納することで、プロファイルや品質の分析ができます。

  • アセットをスキャンすることでデータをプロファイリング
    • プロファイル結果をDataplexのコンソールから確認
    • プロファイル結果をBigQueryに格納も可能
  • データ品質チェック
    • プロファイリングを行うことで推奨の品質チェックを提示
    • カスタム定義の品質チェックの実行
    • SQLでの品質チェック
    • 事前定義の組み込みチェック

図3 data-quality

終わりに

DMBOKで定義されている内容はあくまでもベストプラクティスであり、べき論を語られている部分が多いと考えています。全てのプラクティスを取り入れると構築しようとしている基盤の規模やニーズに対して過剰であることもしばしばあります。また、それぞれの取り組みも非常に重厚でコストが高いものです。
DataplexはこのDMBOKに定義されているプラクティスの一部の手軽に実現できる機能が備えられています。DMBOK、Dataplex共にうまく取り入れて、安心で信頼性の高いデータ基盤を構築し、快適な分析ライフを送りましょう。

引用

※本記事は、ジーアイクラウド株式会社の見解を述べたものであり、必要な調査・検討は行っているものの必ずしもその正確性や真実性を保証するものではありません。

※リンクを利用する際には、必ず出典がGIC dryaki-blogであることを明記してください。
リンクの利用によりトラブルが発生した場合、リンクを設置した方ご自身の責任で対応してください。
ジーアイクラウド株式会社はユーザーによるリンクの利用につき、如何なる責任を負うものではありません。