今回は、現代のデジタル社会のあらゆる分野に存在し、社会インフラを支えている「データベース」をテーマにします。
データベースの存在、基本は広く認識されていますが、その発端や根幹的な概念であるデータ独立。また、類似の用語として頻出するDBMSとその種類、必要性についても取り上げます。
データベースの初歩的な知識に加えて、関連性の高い情報を包括的に理解することで、データベースの本質的な存在意義も見えてくるでしょう。
この章では、最も初歩的な「データベースとは」をテーマに解説します。データベースの初歩的な概念、そして発端についても見ていきましょう。
データベースとは、Data(データ)とBase(基地)を起原とする用語で、文字通り「データの集約基地」、つまりさまざまなデジタルデータを収容する論理的領域のことです。
ここでは、「論理的領域」が重要なポイントです。通常、現代では書籍や紙の収容場所に対して、「データベース」という表現はしません。
データベースとは、デジタルデータを収容する論理的領域です。
データベースはデータを集約する論理的領域のことですが、どのようなデータでも保管ができる訳ではありません。たとえばWindowsPCでWord やExcel、PDFなどのファイルを保管できるフォルダはデータベースとは呼びません。
通常、データベースとはテーブル形式で設計されており、それぞれのカラム(列)は高い規則性で定義されます。
カラム(列)の規則のことをスキーマという
データベースは、1950 年頃の米国国防総省(Department of Defence)において、広範囲に分散していた軍事関連情報を集中化して、すべての情報を参照できるようにした「データの基地」が発端といわれています。
データベースに関わらず、インターネットの発端である「ARPAnet」も同じく米国国防総省が研究開発した技術です。
このように現代のITの基本は、アメリカの軍事産業から民間に転用されたものが多くあります。
この章では、データベースの基本的な概念である「データ独立」について説明します。データ独立は現代のソフトウェア産業において重要な理論です。
過去のソフトウェアでは、システムごとにデータファイルを保持するような設計がされていました。システムAはデータファイルAを、システムBはデータファイルBを保持するようなイメージです。
システム毎にデータファイルを内包する
このような設計の場合、システムのプログラム改修を行う際にはデータファイルにも影響を与えるため、大掛かりな改修作業に発展するデメリットがありました。
そのため、システムのプログラムが直接的にデータファイルに影響を及ぼさないよう、データファイルを独立させる理論が考えられました。
システムからデータを分離するデータ独立
データ独立の理論は非常に重要で、さまざまな分野で活用されているデータベースは、このデータ独立の考え方に基づいています。
データベースとは、システムとは分離してデータを収容する論理的領域のことを指しますが、単にデータを集約しただけでは、有効に管理・活用することはできません。データベースはデータを管理するシステムで構築することで初めて機能するのです。
システムに必要なデータを安全に格納したり、正確に更新したり、一貫性を保つような管理を行えるのは、データベースがDBMSによって管理されているためです。
DBMSはDataBaseManagementSystemの略語で、日本語では「データベース管理システム」と訳されます。
RDBMS『PostgreSQL』
DBMSは単なるデータの集合体から、さまざまなニーズに対応する実用的なデータベースを構築します。基本的な、データの検索、更新、追加、削除はもちろん、データの可用性、信頼性、持続性の確保、そして高度なセキュリティ機能も備えています。
現代、データベースという単語は実質的にDBMSのことを意味すると理解してもよいでしょう。
DBMSの一種にRDBMSという単語がありますが、RDBMSはRelational DataBase Management Systemの略語です。RDBMSは、関係データベース管理システムを意味します。
詳細は別記事で解説します。
ビジネスの現場では、さまざまなデータベース管理システム(DBMS)が利用されています。ここでは、主要なDBMSを紹介します。※下記はすべて関係データベース管理システム(RDBMS)です。
提供者: Oracle Corporation
特徴: 業界をリードする性能、高度なトランザクション管理、信頼性
提供者: Oracle Corporation
特徴: オープンソース、高い拡張性、クロスプラットフォーム対応
提供者: PostgreSQL Global Development Group
特徴: オープンソース、強力な機能性、拡張性の高さ
提供者: Microsoft
特徴: 使いやすい管理ツール、統合されたビジネスインテリジェンス、セキュリティの強化
提供者: Microsoft
特徴: エンドユーザー向け、直感的な操作性、デスクトップデータベース向け
この章では、DBMSはどのような特徴を持っているのか、について簡単に紹介します。詳細については、あらためて別記事で説明します。
DBMSにはさまざまな種類・製品がありますが、多くのDBMSでは文字の表示や操作について、CUI方式を採用しています。つまり、アイコンやグラフィカルな画面構成ではなく、黒い背景に文字や表を表示する方式です。
CUIの入力デバイスにマウスは不向きで、通常、一連の操作をキーボードで行います。
ただし、すべてのDBMSがCUIではありません。Microsoftの SQL Server やAccessはWindowsの操作感に近いGUI方式を採用しています。
多くのDBMSはCUI方式が採用されており、アイコンのクリック等ではなく、キーボードで文字を入力して操作を行います。そして、操作に使用される言語はSQLです。
SQLはプログラミング言語ではありませんが、DBMSを操作するにあたっての規則性が定義された言語です。Oracle、MySQL、PostgreSQLはもちろん、GUI方式が採用されているMicrosoftのSQL ServerやAccessでもコードの記述箇所ではSQLを使います。
MS accessのクエリをSQLで表示した画面
ただし、NoSQL方式のデータベースでは基本的にSQLではなく、それぞれの製品に応じた言語を使用します。
データベースとは、単一的に存在している訳ではなく、いくつかの種類があります。この章では、データベースの主な種類とそれぞれの特徴を、簡単に紹介します。
今日、データベースと呼ばれているのは主に下記の 4つです。それぞれの特徴を簡単に説明します。
リレーショナルデータベースは、1970年代にエドガー・F・コッドによって開発されました。テーブル(行と列からなる表)の形でデータを格納し、テーブル間のリレーションシップ(関連性)を用いてデータを検索・操作します。
リレーショナルデータベースでは、いくつものテーブルを保持します。それぞれのテーブル間同士でキーとなる情報を基に情報を紐づけし、さまざまな形式のデータを表現することができます。
たとえば、「社員IDテーブル」と「社員住所テーブル」を結合して、住所を含めた社員情報一覧などを生成します。
NoSQLデータベースは、「Not Only SQL」の略で、リレーショナルデータベースとは大きく概念が異なります。NoSQLデータベースの特性は、柔軟性とスケーラビリティであり、大量のデータを効率的に管理したり、高いパフォーマンスを求める状況に適しています。
データの一貫性や整合性を保証しませんが、さまざまな構造のデータを保存し高速に処理することができますので、データ解析やリアルタイム性が求められるコンテンツに最適です。
NoSQLデータベースは、さらにデータの方式によっていくつかの種類に分類されます。
NewSQLデータベースは、リレーショナルデータベースの一貫性とトランザクション性を維持しつつ、NoSQLデータベースのスケーラビリティとパフォーマンスを実現する新しい種類のデータベースです。
NewSQLデータベースは、クラウド環境や分散システムにおけるデータベースの課題とニーズに対応するために開発されました。
従来のリレーショナルデータベースが提供するACID特性(原子性、一貫性、隔離性、持続性)を維持しながら、ホリゾンタルスケーリング(水平拡張)を実現し、大規模なデータボリュームと高いトランザクション速度を実現します。
CADやシミュレーションで使われるオブジェクト指向データベース、SNSや生物情報学で使われるグラフデータベース、IoTや金融機関で使われる時間系列データベース、などがあります。
多くのインターネットの情報ではデータベースの種類として「階層型・ネットワーク型・リレーショナル型・オブジェクト指向型」で説明されています。
当サイトでは、それらの分類は『データモデルの種類』として解釈しています。そのため、この記事では、データベースシステムの全体的な設計、機能性、そして特性に基づいた「リレーショナル・NoSQL・NewSQL・その他」の4つを用いて説明しています。
「階層型・ネットワーク型・リレーショナル型・オブジェクト指向型」については、『データモデル』を視点にした別記事で説明します。
各データベースの種類は、特定の用途に最適化されています。
たとえば、一貫性と整合性が必要な企業の内部システムにはリレーショナルデータベースが適しています。一方、大量のデータを効率的に扱う必要がある場合や、データの形式が頻繁に変更される場合はNoSQLデータベースが適しています。
データベースの選択は、必要とする性能、データの種類、スケール、予算、技術者のスキルなど、多くの要素によって決まります。適切なデータベースを選択することで、データ管理が大幅に効率化され、組織のビジネス目標達成に活用できるでしょう。
データベースの種類 | 主な特性 | 最適な用途 |
---|---|---|
リレーショナルデータベース | 一貫性と完全性、構造化されたデータの扱いに強い | 一貫性と整合性が求められるビジネスシステム |
NoSQLデータベース | 高いスケーラビリティと柔軟性、非構造化データの扱いに強い | 大量のデータを効率的に扱うシステム、データ形式の頻繁な変更が必要なシステム |
NewSQLデータベース | リレーショナルデータベースの一貫性とNoSQLデータベースのスケーラビリティを兼ね備える | リレーショナルの一貫性が必要で、かつスケーラビリティも必要なシステム |
その他 | オブジェクト指向DB、グラフDB、時間系列DBなど | 非汎用的で、ある産業に特化した機能を持つデータベース |
データベースは、現代社会のさまざまな分野において基盤技術として組み込まれています。実際の活用例を見てみましょう。
ほとんどの企業では、従業員の詳細情報をデータベースで管理しています。従業員数が少ない場合、Excelでの管理も可能ですが、従業員情報は更新が頻繁なため、より効率的なデータベースが必要です。
たとえば、住所や氏名、部署や役職の変更、評価情報、資格情報など、これらすべてがデータベースでの管理が望ましいでしょう。特に、変更履歴を含めた情報の保存が必要な場合、データベースは不可欠です。
個人や企業が連絡先情報を管理するためのアドレス帳も、データベース技術の一例です。連絡先の詳細、関連情報、履歴などを保存し、必要に応じて簡単に検索・更新ができます。
たとえば、アドレス帳の基本機能「友達」「ビジネス」「家族」などのタグ付けも、データベースの代表的な機能です。大規模な連絡先情報を扱う場合でも、データベースはその整理と迅速なアクセスを可能にします。
インターネット上の情報を索引付けし、検索するためには、膨大なデータを効率的に扱えるデータベースシステムが不可欠です。
検索エンジンは、ウェブページの内容、メタデータ、リンク構造などの情報をデータベースに保存し、これらの情報を基にしてユーザーのクエリに応じた検索結果を提供します。
近年では、各Webページにおけるユーザー動向(クリック数や滞在時間)などもすべてデータ化され、検索結果順位のの決定に活用されています。
今回は、データベースに関する基礎的な知識を網羅的に説明しました。
コンピューターサイエンスとデータベースは相互に依存し合っており、一方が他方を強化します。高度なデータ分析、クラウドコンピューティング、IoT、AIと機械学習などの分野では、両者が組み合わさって革新的な進歩を実現しています。
現代のテクノロジーにおけるコンピューターサイエンスとデータベースの役割は非常に大きく、これらの分野の発展が今後も新たな技術革新を牽引していくことでしょう。