Serverless Operations, inc

>_cd /blog/id_xx5deqtf8

title

生成AIの導入の前に欠かせない社内データ整備の重要性&使えるAWSサービスまとめ

summary

ChatGPTの登場以降、生成AIの活用は企業にとって避けられないものとなってきました。これに伴い、企業内でのデータの整備とデータ民主化の重要性が急速に高まっています。生成AIは、大量のデータを活用して新しい知見を生み出す力を持っていますが、その効果を最大限に引き出すためには、信頼性の高いデータインフラが必要不可欠です。さらに、データを特定の部門や専門家だけでなく、組織全体で共有・活用できるようにすることで、全社的なイノベーションが促進されます。

弊社でも北海道テレビ様の事例である最新のLLMを活用しウェブメディア記事の下書きを動画から自動で生成、複数モデルの組み合わせで記事画像も自動選定のようにAWSのAmazon BedRockを使った生成AIの活用・開発支援の依頼を頂くことが増えてきました。しかし、いざ生成AIの活用に乗り出した時に最初に当たる壁がデータの整備です。これらが出来ていないためにいざ、生成AIのモデルと社内データを組み合わせることで社内業務の効率化を行おうとしても、そもそもデータを正しくシステム上で認識させることが難しいという相談を受けることが増えてきた印象です。

生成AIの効果を最大限発揮するために企業内のデータは、組織内で特定の部門や役職に限定せず、全ての社員が自由にアクセスし、利用できるようにすることが理想的な状態でしょう。この目的のためには、以下のように組織内でデータを正しく整備して管理することが重要になります。

  • 生成AIで解決したい課題に合わせたデータの収集と統合
  • データの品質管理・分類とタグ付け
  • データのセキュリティとプライバシー・アクセス管理
  • データの更新とメンテナンス
  • データの可視化と分析

本記事では最初の段階で必要なデータの収集と統合について解説するとともにそれらを実現するために最適なAWSサービスについて解説していきます。

生成AIで解決したい課題に合わせたデータの収集と統合

データの集合と統合とは、企業が生成AIで解決したい課題のために必要となるデータの収集し、基礎を築くための重要なフェーズです。そして収集すべきデータは解決したい課題によって多種多様です。例えば、ECサイトにおいてユーザごとの購買予測などがしたい場合は、購買履歴、性別、地域などのデータが関連性の高いデータとして収集対象となるでしょう。まずはこれらを特定する必要があります。例としては以下のような形式やソースが考えられるでしょう

社内の内部データ

社内のCRMシステムや購買システム内のデータ、顧客からの問い合わせ履歴、Google Analyticsなどに溜まっているウェブサイトのアクセスログ、社内で稼働するアプリケーションのAmazon CloudWatch Logs内に溜まってるログデータ等、社内からしかアクセスできないデータのことを指します。例えば小売業者などが、POS(Point of Sale)システムから販売データを集め、それを顧客行動分析や在庫管理に役立てるために生成AIモデルの訓練データとして使用するようなユースケースが考えられるでしょう

外部データの収集

ウェブサイトからExcelやCSVのデータなどをダウンロードしたり、公開されているAPIにアクセスしたりして外部に公開されているデータを収集する方法です。国土交通省のデータポータルや総務省統計局のe-Statなどの公的機関が出しているものや、 XやInstagramなどの民間企業が公開しているデータもあります。弊社で支援をさせていただいた中京テレビ様の事例の多様化するテレビ局と視聴者の接点を次のビジネスへ繋ぐデータ分析基盤の構築では、従来から使用されていた視聴率のデータだけでなく、YouTubeやX、Instagramなどのソーシャルメディアの情報も取り込み、横串でデータ分析用ダッシュボードから解析することが可能となっています。

IoT機器からのデータ収集

昨今では様々なデバイスがインターネットに接続してデータの収集ができるようになっています。防犯カメラや車載センサー、スマート家電、ウェアラブルデバイスなどがその代表例です。例えば防犯カメラは、映像データをリアルタイムでクラウドに送信し、AIによる画像認識技術を用いて異常な動きを検知することで、迅速かつ自動的にアラートを発信します。これにより、従来の手動監視に比べて、セキュリティの精度と反応速度が大幅に向上することが出来るでしょう。一方、スマート家電は、日常の使用データやエネルギー消費情報をリアルタイムで収集し、AIによって分析されます。この分析結果は、ユーザーに最適な省エネ設定や使い方の提案を行うだけでなく、機器の故障予測やメンテナンスのタイミングを知らせるなど、よりパーソナライズされたサービスを提供する基礎となることが出来るでしょう。

データの収集と統合にあたって使用されるAWSサービス

データの収集に便利なAWSサービス

Amazon S3

大容量のデータを保存できるオブジェクトストレージサービスです。AWSのストレージ系のサービスでは最もメジャーなサービスではないでしょうか。Amazon S3は、スケーラブルで耐久性の高いストレージサービスとして、多くの企業や開発者に利用されています。このサービスは、何百億ものオブジェクトを保存し、ペタバイト規模のデータを処理する能力を持っています。さらに、S3は高度なセキュリティ機能を備えており、アクセス制御、データ暗号化、監査ログの取得など、データ保護のための多層的なセキュリティを提供します。データ分析基盤における用途としては、データレイクとして最初のデータの保存先として使用されるケースが多いのではないでしょうか。データレイクの構築では、膨大な量の構造化データ、半構造化データ、非構造化データを一元的に集約する必要がありますが、Amazon S3はそのための理想的なプラットフォームです。

Amazon Data Firehose

リアルタイムデータを簡単に収集、変換、およびロードするためのフルマネージドなデータストリーミングサービスです。特に、大量のストリーミングデータをキャプチャして、分析や保存のためにデータレイクやデータウェアハウスに送信する用途に適しています。企業は、IoTデバイス、ログファイル、アプリケーションイベントなど、さまざまなデータソースからの膨大なデータをリアルタイムで収集し、そのデータを即座に処理して、Amazon S3やAmazon Redshift、さらにはAmazon OpenSearch Serviceなどのストレージや分析プラットフォームに直接送信できます。この一連のプロセスは完全にマネージドされており、ユーザーはインフラの管理に煩わされることなく、スケーラブルなデータストリーミング環境を利用することができます。

AWS IoT Core

インターネットに接続されたデバイスからのデータを安全に接続、管理、処理するためのフルマネージドなクラウドサービスです。これにより、企業は数百万ものIoTデバイスをスケーラブルかつ効率的に管理し、それらから得られるデータをリアルタイムで処理して、さまざまなアプリケーションに活用することができます。更にデバイスから送信される膨大なデータをリアルタイムで処理し、フィルタリング、変換、ルーティングする機能を備えています。これにより、収集されたデータは、Amazon S3やAmazon DynamoDB、他のAWSサービスにスムーズに送信され、高度な分析や機械学習モデルのトレーニングに利用されます。

データの統合に便利なAWSサービス

Amazon Redshift

ペタバイト規模のデータを高速にクエリすることができるデータウェアハウスサービスです。さまざまなデータソースからのデータを統合して、大規模な分析やビジネスインテリジェンスを行うことができます。データ分析基盤における用途としては、データウェアハウスやデータマートとして使用されることが多いです。これらの構築において、Amazon Redshiftはその性能と拡張性で非常に高い評価を得ています。列指向ストレージ技術と高度なデータ圧縮アルゴリズムを活用し、ペタバイト規模のデータセットに対しても高速にクエリを実行することができます。これにより、複雑なクエリや大量のデータに対する分析を迅速に行うことが可能となり、リアルタイムでのビジネスインテリジェンスが実現します。

さらに、Amazon RedshiftはAmazon S3との緊密な統合により、データレイク内の大量のデータを直接クエリすることができます。これにより、データレイクに保存されたすべてのデータをすぐに利用できるようになり、企業は多様なデータソースから得られるインサイトを統合し、全体的なビジネス戦略を強化することができます。また、自動スケーリング機能を備えており、データ量の増加やクエリの負荷に応じて、クラスターのサイズを自動的に調整することができます。これにより、コスト効率を維持しながら、常に最適なパフォーマンスを確保することができます。

このように、Amazon Redshiftは、ビジネスインテリジェンスやデータ分析の基盤として、多くの企業で活用されており、その柔軟性と高いパフォーマンスにより、データ駆動型の意思決定をサポートしています。

AWS Glue

データの準備、変換、および統合を自動化するためのフルマネージドなETL(Extract, Transform, Load)サービスです。これにより、企業は複数のデータソースからのデータを効率的に収集し、分析や機械学習モデルに適した形式に変換して、データレイクやデータウェアハウスにロードするプロセスを大幅に簡素化することができます。

AWS Glueは、データカタログ機能を備えており、さまざまなデータソースからメタデータを自動的に検出して管理します。これにより、データセットの構造やスキーマが一元的に管理され、データの探索やクエリの実行が容易になります。データカタログは、S3バケット、RDSデータベース、Redshiftなど、多岐にわたるAWSサービスとシームレスに統合され、データの可視性とアクセス性が向上します。

さらに、AWS Glueは、ノーコードまたはローコードのインターフェースを提供しており、開発者やデータエンジニアは、ETLジョブの作成や管理を直感的に行うことができます。これにより、データ変換やクレンジングのプロセスが自動化され、手動によるエラーを減らしつつ、データの処理速度を向上させることが可能です。また、PythonやScalaなどのスクリプトを使用して高度なカスタマイズを行うこともできるため、複雑なデータ処理ニーズにも柔軟に対応します。

AWS Lake Formation

データレイクの構築と管理を簡素化するためのフルマネージドなサービスです。これにより、企業はさまざまなデータソースからのデータを迅速かつ安全に収集し、整理、分類、保護して、データ分析や機械学習のために活用することができます。データレイクを構築するプロセスを自動化することで、従来は手動で行っていた複雑な設定や調整が不要になり、時間と労力を大幅に削減できます。

AWS Lake Formationは、まずデータの取り込みを効率化します。S3バケット、RDSデータベース、オンプレミスのデータベースなど、複数のソースからデータを簡単に収集し、データレイクに統合することが可能です。取り込まれたデータは、AWS Glueによって自動的にカタログ化され、メタデータが生成されるため、データの検索や利用が容易になります。この一元化されたメタデータ管理により、データの可視性が向上し、どこにどのようなデータが存在するのかを迅速に把握することができます。

また、AWS Lake Formationはデータのセキュリティとガバナンスを強化します。アクセス制御、データ暗号化、監査ログの管理などの機能が組み込まれており、データの安全な管理が可能です。データに対するアクセス権限はきめ細かく設定でき、特定のユーザーやグループに対して適切なレベルのアクセスを提供することができます。これにより、データの不正アクセスを防ぎ、コンプライアンス要件を満たすことが容易になります。

AWS Step Functions

複雑な分散アプリケーションを構築および実行するためのサーバーレスなワークフローサービスです。このサービスを利用すると、複数のAWSサービスやカスタムロジックを組み合わせた一連のステップを、視覚的なワークフローとして定義し実行できます。AWS Step Functionsは、ETL(Extract, Transform, Load)プロセスの自動化においても非常に有効です。ETLプロセスをワークフローとして分解して、データの抽出から変換、ロードまでのプロセスを効率的かつ信頼性高く実行できるようになります。これにより、企業はデータの準備と統合にかかる時間を大幅に短縮し、データ駆動型の意思決定を加速させることが可能になります。

データの収集と統合のサンプルAWSアーキテクチャ

一例として上記のサービスを組み合わせると以下のようなAWSアーキテクチャが考えることが出来そうです。

オンプレミスやインタネット上のデータソースにあるデータをAWS LambdaやAWS IoT Coreで取り込みS3バケットに保存します。ここの設計において、何のAWSサービスを使用するかはどういったデータソースが存在するかによって大きく変わるでしょう。更に最近では、CDataやtroccoといったデータ取り込みを自動化してくれるサービスも存在しますのでコストに応じてこれらのサービスを使用するのも1つの手でしょう。

また、Amazon S3上に貯めたデータはAWS Step FunctionsやAWS Glueを使ってETLを行い、データウェアハウスであるAmazon S3やAmazon Redshiftに格納します。ETL処理では、生成AIで解決したい課題に対して扱いやすいデータの形式に変換することで、今後のデータの活用や整備を簡単にします。

このようにデータ整備を行うために必要なAWSサービスとそのアーキテクチャはある程度そのパターンが決まっています。それぞれの特性を把握して要件やコストに最適なAWSアーキテクチャを設計するようにしましょう。

Written by
CEO

堀家 隆宏

Takahiro Horike

  • Facebook->
  • X->
  • GitHub->

Share

Facebook->X->
Back
to list
<-