ディープラーニング、AI、機械学習への関心が高まっています。
これらの言葉を聞いたことがある人は多いと思いますが、実際に何を指しているのを知っていますか?
本記事では、AIを勉強したことがない方向けに、ディープラーニングについて簡単に解説しています。
ディープラーニングと機械学習の違いがわからない方、ディープラーニングの応用事例を知りたい方も必見です。
ディープラーニングとは?機械学習との違い

ディープラーニングと並んで、「機械学習」や「AI」という言葉もよく耳にします。
AIは何となくわかっていても、機械学習とディープラーニングの違いを説明できる人は少ないのではないでしょうか。ここでは、AI、ディープラーニング、機械学習の違いについて、わかりやすく解説します。
AI・機械学習との違い
AI、機械学習、ディープラーニングの違いを理解するには、まずこの3つの関係を理解するのが早いです。図で表すと、AI(人工知能)の中に機械学習が含まれ、AI(人工知能)の中にディープラーニングが含まれるという関係性です。
AI(人工知能)とは、人間の脳の仕組みを再現したシステム。情報の中から学習したり、ルールを見つけたりといった脳の振る舞いを機械で再現する技術や取り組みを指します。
AI(人工知能)が人間の脳と同じように動作するための学習を「機械学習」という。
機械学習では、データから特徴をとらえ、ルールとして定式化します。
例えば、大量の犬の画像をAIに機械学習させると、画像の中から犬の特徴を見つけ出し、ルール化する。AIが新しい画像を学習すると、その画像が犬かどうか、ルールに従って判断できるようになります。これが機械学習です。
機械学習の法則を導き出すには、機械学習の中にもさまざまな方法があります。ディープラーニングは、機械学習の学習手法の一つです。ディープラーニングとはどのような学習方法なのか、その仕組みについて見ていきましょう。
ディープラーニングの仕組み

ディープラーニングとは、脳の中にあるニューロンという神経細胞の構造をモデル化した学習方法です。このニューロン(脳内の神経細胞)の構造をニューラルネットワークと呼びます。
ニューラルネットワークでは、ニューロン(脳の神経細胞)同士が電気信号で情報を伝達し合います。情報は、入力層、中間層、出力層の順で処理されます。
ディープラーニングが他の機械学習と異なるのは、機械学習に不可欠な「特徴」をAI自身が見出すことができる点です。
特徴とは、AIが物事を認識・判断するための特性です。
前述の犬の例でいえば、犬を犬として認識するためには、耳の有無や鼻の形などを特徴量として指定する必要がある。犬の中でも品種を特定したい場合は、耳の有無や鼻の形ではなく、体の大きさや毛色を特徴量として使うこともあります。
ディープラーニングでは、これらの特徴量を指定する必要はなく、AI自身がどの特徴量を参考にするかを決められます。
特徴量を指定する作業が不要になるため、人間の作業負担を軽減できるメリットがあります。
ディープラーニングの代表アルゴリズム
ディープラーニングには、いくつものアルゴリズムが存在します。
アルゴリズムとは、「どのようなパターンや特徴を発見して学習するか」という計算方法・やり方のことです。代表的な7つのアルゴリズムをご紹介します。
畳み込みニューラルネットワーク(CNN)
畳み込みニューラルネットワーク(CNN)は、画像中の特徴を見つけることに特化したアルゴリズムです。
人間の視覚をベースに発明され、神経細胞の動きを模倣して物体を認識します。畳み込みニューラルネットワークは、「畳み込み層」や「プーリング層」などの層を利用して学習を行う。
「畳み込み層」は、画像を特徴に分け、その特徴を強調する層です。対象物を認識するために必要な特徴に画像を分離する。プーリング層」はダウンサンプリングとも呼ばれ、特徴の量を圧縮して無駄な計算を減らす。AIはこの2つの処理を繰り返すことで画像認識を行っています。
再帰型ニューラルネットワーク(RNN)
RNN(Recurrent Neural Network)は、時系列データを扱うことができる機械学習モデルです。時系列データとは、時間の経過とともに値が変化するデータのこと。店舗の売上やWebサイトのアクセス数などが代表的な例です。
リカレントニューラルネットワークは、ディープラーニングの他の学習モデルと同様に、入力層、中間層、出力層の3層で学習を進めていく。通常は、入力層、中間層、出力層の順で学習の流れが行われます。
しかし、リカレントニューラルネットワークは、入力層→中間層→出力層の順に演算結果を伝えるだけでなく、演算結果を自分(中間層)に入力して再演算を行うという特徴があります。
LSTM(Long Short Term Memory)
再帰型ニューラルネットワーク(RNN)の弱点として、時系列データが長い場合、演算結果を効率的に転送できないことが挙げられる。
これを克服するために、「入力ゲート」「出力ゲート」「忘却ゲート」という3つのゲートを用いて学習を進めるLSTMが誕生した。それぞれのゲートで情報量を制御することで、LSTMはある程度長い時系列データも処理できるようになった。
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)は、データから特徴を抽出し、存在しないデータを生成ができる学習モデルです。
実在しない人物の顔写真を作成できる人気サイトや、写真を有名画家の作風に似せた絵画に変換するサービスなどで利用されています。
敵対的生成ネットワーク(GAN)は、2つのレイヤーから構成されている。Generator」と「Discriminator」です。
この2つは、「紙幣の偽造者」と「警察官」の役割に例えるとわかりやすい。
「生成器」は紙幣の特徴を学習し、本物に近い偽札を作成する。識別器」は偽札の特徴を学習し、本物に近い偽札を作成する。「識別器」は偽札を偽札と見抜き、「生成器」はさらに精巧な偽札を作成する。
これを繰り返すことで、敵対的生成ネットワーク(GAN)は本物に近い偽物(非実在データ)を作り出すことが可能となります。
Dropout
ドロップアウトは、ニューラルネットワークの「過学習」を防止する手法です。過学習とは、ニューラルネットワークの構造が複雑になり、結果的に学習モデルの汎用性が低くなってしまう状態のこと。つまり、過学習とは、情報を記憶して出力している状態です。
もちろん、情報を丸暗記すれば、同じ問題には正解できるかもしれないが、異なる問題が提示されると、対応できなくなります。ドロップアウトは、この過学習の状態を解消するための手法である。
ドロップアウトは、ある確率でランダムにニューロンを無視し、学習を進めます。
これにより、AIは欠落したニューロンの穴を埋めるように学習し、暗記ではなくルールで特徴を導きだせます。
ディープラーニングでできること

ディープラーニングを使うと、具体的にはどのようなことができるのでしょうか。
ディープラーニングを活用した最新のAI技術をご紹介します。
画像認識
画像認識とは、人工知能を用いてデジタル画像中の人物や物体、風景などを識別する技術です。対象を認識し抽出することができれば、目的の対象を含む画像と含まない画像を選別したり、目的の対象に類似した商品を画像から探すことが可能になります。画像認識は、AIに大量の画像を学習させ、その特徴を学習さます。
例えば、犬の画像をAIに識別させたい場合は、犬の画像を大量にAIに学習させます。
ディープラーニング以外の機械学習の場合、人間が犬の特徴を入力し、AIに学習させる必要があります。一方、ディープラーニングの場合は、AI自身が犬の特徴を学習するため、犬の特徴を入力する必要がありません。
画像認識は、画像検索や自動運転、工場での製品検査などに利用されています。
音声認識
音声認識とは、人間の話し言葉をコンピュータに理解させる技術です。これは、音響分析、音響モデリング、発音辞書、言語モデリングの4つのステップを経て行われます。
音響分析とは、音の強さや周波数のデータから、音の特徴を抽出する作業です。この特徴をコンピュータが認識できるデータに変換します。
次に、抽出した音の特徴と音そのものの一致率を音響モデルで計算します。例えば、「ありがとう」という言葉の場合、「A/R/I/G/A/T/O/U」のように、音声と文字が一致するように行います。これは、音を最小単位である音素に分解するとも呼ばれます。
音響モデルが音素に分解されたら、データベースから音の組み合わせを「単語化」し、音声モデルを言語モデルにリンクさせることができます。
最後に、言語モデルがデータベースから単語のつながりを予測し、正確な文章を構築する。これが音声認識の仕組みです。
自然言語処理
自然言語処理とは、人間の言葉(テキストデータ)をコンピューターで解析することです。
言葉は文脈によってニュアンスが変わったり、語順によって文の意味が変わったりするため、複雑な解析を得意とするディープラーニングの技術が用いられます。
自然言語処理では、文章を品詞に分解する要素分解や、要素に基づく単語間の関係性判断などの技術が用いられる。大きく4つの流れに分類される。
(1)形態素解析=文を動詞や名詞などの品詞に分解する。
(2)構文解析=文を主語・述語・目的語にカテゴライズする。
(3)意味解析=(2)構文解析をもとに、単語同士の関係性を判断する。
(4)文脈解析=前後の文章においても(1)形態素解析や(3)意味解析を行う。
AIがテキストデータを理解することで、翻訳や文字起こしなど従来の機械学習では難しかった分野でもAIの活用が進んでいます。
ディープラーニングの活用事例
画像・音声認識、自然言語処理、システム最適化、異常検知の4分野から、ディープラーニングの活用事例を集めました。身近なサービスから意外性のあるものまで、ディープラーニングの応用事例を紹介します。
【画像認識】画像検索
画像認識技術の活用例として、検索エンジンにおける画像検索があります。
画像検索エンジンは、画像認識アルゴリズムを用いて画像を解析し、インデックスを作成することで、ユーザーは類似した画像を検索ができるようになります。
また、検索エンジンだけでなく、オンラインショップでも画像認識は利用されています。
例えば、洋服を見ているときに、見ていた洋服と形や色が似ている商品をサイト内で探して表示ができます。
この機能は、検索結果から類似商品を探す手間を省き、店舗に居ながらにしてその場で比較する商品を提案してくれるので、ユーザーにとっては便利な機能です。また、ネット通販事業者にとっては、ユーザーの離脱を防ぎ、商品を購入しやすくなるというメリットがあります。
【画像認識】自動運転
車の自動運転は、ここ数年、テレビCMでも取り上げられています。
自動運転にもディープラーニングの技術が使われています。自動運転に使われる画像認識技術には、「物体検出」と「動き検出」の2つがあります。
“物体検知 “は歩行者や対向車の検知に、”動き検知 “は何かが動いていることを認識するのに使われます。
静止画ではなく、画像認識の動画版と言えます。動いていることを認識するためには、パラパラ漫画のように静止画を1枚ずつ動画解析し、その違いを比較して人や物が動いていることを認識します。
動体検知の精度を高めるために、車両の前後左右に取り付けたカメラで対象物を撮影しています。
また、自動運転には、0から5まで6段階のレベルが定められています。
0:運転自動化なし
1:運転支援
2:部分運転自動化
3:条件付運転自動化
4:高度運転自動化
5:完全運転自動化
レベル0-2は、運転者が運転の一部または全部を行う状態です。運転に必要な物体認識、予測、操作などはドライバーが行う。レベル3〜5は、一部〜全部の運転が自動化された状態です。
日本ではレベル3が自動運転で、世界ではレベル4が実現されています。
アメリカの自動運転開発会社が、アプリで自動運転タクシーを呼べるサービスをリリースしました。
リリース当初はアシスタントが乗るという条件付きだったが、現在は完全に無人化されている。日本で普及しているタクシー配車アプリと同様に、乗客がアプリ上で乗車場所と目的地を指定すると、タクシーが配車されます。
完全無人の自動運転タクシーなら、配車できる時間帯に制限がなくなり、24時間いつでもタクシーを呼ぶことができる。これによって、緊急時や交通量の少ない地方での移動が楽になります。
【画像認識】来客数のデータ蓄積
大手商業施設では、ディープラーニングによる画像認識で人の流れを分析し、顧客行動をより深く理解するためのシステムを導入しています。
この施設では、各テナントブロックに専用のカメラを設置し、来店者数、年齢・性別、来店時間などのデータを収集しています。
この収集したデータは、各店舗の端末にリアルタイムで送信され、店舗はそのデータをもとに、日々の来客傾向や過去の来客数から休憩時間の調整やアルバイトのシフトを組めます。
また、時間帯や曜日によって来客数が増減したり、お客様の属性が変わったりすれば、商品構成やディスプレイの最適化にも活用できます。
あらゆるデータを収集できるネットショップとは異なり、リアル店舗ではこうしたマーケティングデータの収集が困難でした。
しかし、このAIシステムを使えば、ネットショップと同じようにデータに基づいたマーケティング施策の実施が可能になります。
こうしたマーケティングデータは、各店舗の改善だけでなく、施設全体のテナント配置やテナント選定の最適化にもつながると期待されています。
【音声認識】スマートスピーカー
ここ数年、家庭での普及が進んでいるスマートスピーカーにも、ディープラーニングの技術が使われています。
スマートスピーカーとは、音声で与えられた指示を実行できる製品です。
例えば、スマートスピーカーに「電気をつけて」と指示すると、電気のスイッチを押さずに電気をつけられます。これを可能にするのは、スマートスピーカーに音声認識技術や自然言語処理技術が搭載されているからです。
音声認識とは、音声データをテキストデータに変換する技術です。自然言語処理とは、人間の音声を機械的に処理することです。
音声認識で聞き取った音声をテキストデータに変換し、そのテキストの意味を理解するのが自然言語処理です。
非常に高性能な製品のように思えますが、スマートスピーカーは、音声認識から意味の理解、コマンドの実行まで、すべてを単独で行うわけではありません。
スマートスピーカーは、クラウドサービス(AIアシスタントとも呼ばれる)と連携して動作します。大まかな流れは以下の通りです。
(1)スマートスピーカーが聞き取った音声をテキストデータに変換する(音声認識)
(2)テキストデータをクラウド(AIアシスタント)に送る
(3)AIがデータを理解する(自然言語処理)
(4)クラウド(AIアシスタント)からの返答を音声で出力する
スマートスピーカーは、IoT家電の制御や音楽再生に利用できます。
IoT家電とは、インターネットに接続されている家電製品のことです。インターネットを通じて操作できるため、スマートスピーカーを使って、電源のオン・オフや特定の操作の指示を行うことができます。
音楽再生もスマートスピーカーを使った代表的な操作の一つです。アーティスト名や曲名を指定して音楽を再生するほか、「リラックスできる音楽を再生して」「流行の曲を再生して」といった曖昧な指示を出すことも可能です。
まだ操作できるものは少ないですが、今後IoT製品が増えていけば、各家庭の必需品になるかもしれません。
【音声認識】コールセンター
コールセンターでは、対応品質のばらつきや会話データの活用不足など、さまざまな課題を解決するために、ディープラーニングを用いたAIの活用が進んでいます。
“自動応答(IVR)”や “AIチャットボット “は、これらの課題を解決する方法として注目されています。
IVRとは、あらかじめ用意された音声案内を流し、問い合わせを窓口に誘導する仕組みのことです。荷物の再配達など、音声ガイダンスを聞いてから番号を入力した経験はありませんか?これがIVRです。
IVRとAIを組み合わせることで、AIがオペレーターを務める「バーチャルオペレーター」を実現することが可能です。
バーチャルオペレーターでは、AIが問い合わせ者の音声を認識し、適切な窓口に音声を割り当てたり、問い合わせ者に対応ができます。
一般的な問い合わせであれば、バーチャルオペレーターがそのまま回答し、確認が必要なものや回答を必要としないものについては、バーチャルオペレーターがオペレーターに繋ぐことも可能です。
バーチャルオペレーターを活用することで、応答時間の短縮やオペレーターの業務負担を軽減することができます。
【自然言語処理】自動翻訳
自動翻訳ツールは数多く存在しますが、ターゲット言語では不自然に聞こえる結果を出すことがよくあります。これは、複雑な文法や構文を理解する能力が不足しているためです。
ドイツに拠点を置くある企業は、ディープラーニングを利用してより正確な結果を出す高度な翻訳サービスを提供しています。
同社の翻訳サービスは、微妙なニュアンスや口語的な表現、方言にも正確に対応することで高い評価を受けています。
もちろんプロの翻訳には及ばないものの、AI翻訳と人力翻訳を組み合わせることで、かなりの時間短縮が期待できます。
例えば、翻訳が日常業務の一部になっている場合、大まかな翻訳はAI翻訳に任せ、最終チェックだけ人間の翻訳者が行えばいいのです。
AI翻訳サービスを利用することで、翻訳の手間とコストを大幅に削減し、社員のリソースをより高度な業務に割り振ることが可能となります。
【自然言語処理】校閲・校正支援
AIを活用した校正・編集支援サービスは、出版業界や広告業界などで注目されています。
これまでも校閲・校正支援ツールは存在しましたが、ディープラーニングにより、正確で詳細なチェックが可能になりました。
漢字変換ミスや「てにをは」の間違いなど、正しい日本語かどうかのチェックに加え、企業独自の規定・ルールに違反していないかどうかのチェックも可能です。
さらに、業界や企業独自の表記や用語を学習し、企業独自の基準で文章の校閲・校正を行うことも可能です。
ベテラン校正者の校閲文から学習することで、AIが校閲の特徴を把握し、文章の品質や精度の向上に役立てます。
また、校閲の特徴を学習しルール化したAIシステムにより、誰でも高い水準の校閲作業を行うことができるのもメリットです。
【システム最適化】商品のレコメンド
ネットショッピングで、閲覧している商品の下に「あなたにおすすめの商品」が表示された経験はありませんか?
今やネットショッピングでは当たり前のようになっていますが、ディープラーニングの技術は商品のレコメンドにも応用されています。
大手ECサイトでは、高品質で素早いレコメンド機能を搭載しています。
従来のレコメンドは、商品の旬や売れ行きをもとに、自社が推したい商品を提案するケースがほとんどでした。
しかし、大手ECサイトではAIを活用し、ユーザーの特性を理解し、それぞれのユーザーに適した商品をレコメンドしています。
例えば、商品Aを閲覧している人の属性を推定し、類似ユーザーの購入履歴をもとに商品を提案するサイトがあります。
推薦精度が高いだけでなく、ユーザーのサイト内での行動をリアルタイムに反映させることができ、サイトへの訪問頻度が低いユーザーや購入回数が少ないユーザーに対しても、最適な商品を提案することが可能です。
これらのレコメンド機能は、商品提案だけでなく、動画見放題サービスの動画推薦にも活用されています。
【異常感知】外観検査
工場や倉庫では、部品や製品の検品が毎日行われていませんか?機械による自動検査を行う企業もありますが、製品の特性によっては、人による目視確認が必要な場合もあります。AIディープラーニング技術を活用し、製品検査にかかる工数を大幅に削減した企業の事例を紹介します。
ある大手工業製品メーカーでは、従来、検査員が全製品を目視で確認を行っていました。その結果、膨大な工数が発生するだけでなく、検査員によって検査品質にばらつきが発生しており、問題となりました。
こうした問題を解決するため、同社はAIを活用した検査システムを導入。AIの深層学習を利用した検査では、検出すべき欠陥を細かく明示する必要がなく、AIが自ら学習し、新たなルール定義に適応します。
その結果、AIが不良と判断した製品のみを目視検査することになり、作業効率が大幅に向上しました。また、工数削減や検査品質の平準化に加え、欠陥の状態を画像で保存できるようになったこともメリットの一つです。
ディープラーニングの導入方法
を導入するのは「ハードルが高い」と感じている方もいらっしゃるのではないでしょうか。
新しいAIを開発・導入しようと思えば、開発に必要な人材や知識も必要ですし、開発・導入にかかる時間も考慮しなければなりません。
“そこまでしてAIを導入すべきか?”とお悩みの方には、おすすめの方法があります。”AIプラットフォーム「MatrixFlow(マトリックスフロー)」”です。MatrixFlowは、プログラミングをせずに簡単にAI開発ができるプラットフォームです。通常、AI開発にはプログラミングが必要ですが、用意されたテンプレートを使ったり、画面上で視覚的に操作したりするだけで、簡単にAIを開発することができます。
AIの知識がなくても、画面上で操作するだけでAIを開発・展開することができます。Matrixflowのサービスについては、お気軽にお問い合わせください。
ディープラーニングまとめ
・ディープラーニングはAIの機械学習方法の1つ
・ディープラーニングを使うことでより高度な学習が可能
・ディープラーニングの代表例は画像認識・音声認識・自然言語処理
・画像・音声・言葉を認識し、意味や違いを理解できる
・ディープラーニングを導入するならMatrixFlowがおすすめ
ディープラーニングとは何なのか、AIや機械学習との違いから具体的な活用方法を解説しました。
ディープラーニングは、脳に着想を得た機械学習の一種で、複雑な問題の解決に利用ができます。従来の機械学習とは異なり、非構造化・非ラベル化されたデータから学習が可能です。そのため、ディープラーニングは、画像認識や自然言語処理などのタスクに適しています。
MatrixFlowは、プログラミングやAIの経験がないユーザーでも、簡単にディープラーニングを導入できるシステムです。ユーザーは数回のクリックでディープラーニングを始め、様々な業界やサービスにおいてその恩恵を受けることができます。
ディープラーニングに興味がある方、AIで何ができるのか悩んでいる方は、ぜひMatrixFlowにご相談ください。