画像認識とは、パターン認識技術の一種で、画像データから、文字や顔などのオブジェクトや、色、大きさ、形状などのパターンを抽出し、分析、識別する手法です。具体的には、画像の物体は何であるか、コンピュータに判断、認識させる技術です。
人間の場合、画像を見るだけで、それが何かということを、自分の経験から判断することができますが、コンピュータは人間のような経験や記憶の蓄積を持っていないので、画像を与えられただけでは、何であるのか判断できません。
たとえば、ネコの画像を見ると人間はネコとわかりますが、コンピュータはネコだということを認識できません。画像認識では、大量の画像データをデータベースからコンピュータに与え、様々な特徴を学習させておきます。コンピュータは同じ特徴のある画像を与えられることで、その画像が何であるか判断できるようになります。
たとえば、毛が柔らかい、暗いところや明るいところで瞳孔の形が変わる、などの特徴から、コンピュータは画像がネコであると判断します。
画像認識の研究は、最近のディープラーニングブームが訪れるよりも前、1979年に発表された福島邦彦氏らのネオコグニトロンが起源となっています。
その後、1990年代にLeCun氏らが、ネオコグニトロンの構造を持つネットワーク学習に適用し、更に発展していきました。画像認識の可能性が大きく躍進したのは2012年の画像認識コンテスト ILSVRC(ImageNet Large Scale Visual Recognition Challenge)です。カナダ、トロント大学のヒントン氏チームがディープラーニングを画像認識に使って圧勝したことにより、ディープラーニングが使える段階に入った世界的に認識されるようになりました。2015年には人間の認識精度より高い精度を出せるネットワークも出現しています
ネオコグニトロンは階層型の人工神経回路モデルです。視覚パターンの認識能力を学習によって獲得していくというもので、現在の画像認識の主力となっているCNN(畳み込みニューラルネットワーク)と呼ばれる多層回路につながる画像入力層と出力層が結合する構造をもっています。
仮説をもとに脳と同じ反応をするような人工神経回路をつくり、数学的解析で検証することで、脳そのものを解明し、神経系の特徴に基づく情報処理システムを創りだします。ネオコグニトロンは図のように,入力層U0の後ろに,特徴の抽出を行うS細胞の層USと、位置ずれを許容する働きを持つC細胞の層UCを交互に階層的に配置した多層神経回路です。
各層は複数の細胞面から構成され、細胞は同じ入力結合を共有しています。S細胞は可変の入力結合を持ち、学習によって変化し、学習が終わると特徴抽出細胞として働くようになり、入力層に与えられる刺激パターンの局所的特徴を抽出します。
細胞面内にある全S細胞は結合を共有しているので、各細胞面は畳み込み(convolution)の演算を行っていることになります。ネオコグニトロンは、実用的なパターン認識システムとして高い能力を持つことが種々の実験で実証されています。
[PDF]視覚パターン認識とネオコグニトロン((VISION Vol. 29, No. 1, 1?5, 2017)
人間の脳のメカニズムを、わたしは知りたくてたまらない。 福島邦彦
画像認識をするためには前準備が必要となります。まず、画像データから対象物を抽出しなければなりません。コンピュータは画像データを、ピクセル単位情報の集合としてとらえるので、ノイズのある情報の中から対象物を認識する必要があります。そのために、最初に画像データからノイズや歪みを取り除いて、対象物の輪郭を強調させて領域を抽出します。
次に、抽出された画像に、それが何であるのかラベル付けをします。顔の写真の場合、顔というラベルを付け、このデータをもとに機械学習を行ってモデルをつくります。この機械学習を繰り返し行うことで、コンピュータは未知の画像データが与えられた時、その画像が何であるか推測できるようになります。
画像処理は、画像データに特定の処理をしてコンピュータが認識しやすくなるように行われます。具体的には、色彩や明るさを調整する、画像から歪みやノイズを取り除いて対象物の輪郭を強調させる、画像から物体の領域を切り出す、という手順で行われます。領域抽出することで、一定の大きさで対象物を扱えるようになり、画像認識が行いやすくなります。
切り出された対象物からピクセル単位で特徴を抽出します。画像を構成する最小単位であるピクセルは、明るさ、色彩など、様々な情報を持っています。コンピュータはピクセルを個別に見るのではなく、1つの集合として見ます。集合の持つ情報パターンを確認し、対象物が何であるか認識します。
このようにパターンから意味を認識することをパターン認識といいます。パターン認識は画像認識だけでなく、言語解析や音声認識などでも使われます。
特定物体認識では、膨大な数の画像データと、それに対応したラベルを事前にコンピュータに学習させておき、入力された画像の対象物が何であるか、特定します。ディープラーニングは、特徴の識別が難しい画像認識の分野で学習能力を発揮し、大幅に物体認識率が上昇するという成果を生み出しています。
最近では、ライオンの子供とネコの子供のように、人間でも判断が難しいようなケースでも、かなりの高い確率で判断できるようになってきています。
E資格の受験資格を得られるJDLA認定プログラム提供社(2022年3月15日時点)の中から、
・専門家の監修を受けている質の高い教材を活用している
・数多くの企業・受講者が過去に受講している
3講座をそれぞれの講座の内容から習熟度別に紹介します。
JDLA理事監修の信頼おける教材で
理論も技術も身につける
教材監修者
70,000円
※1
実務経験者の
アドバイスで
ビジネスに活かす力を
つける
教材監修者
要問合せ
※1
基礎から学び
AIエンジニアの
地力を
つける
教材監修者
298,000円
※1
各社の習熟度はJDLAのインタビューを参考にどの知識レベル向けに作成しているかを判断しております。
zero to one(https://www.jdla.org/certificate/engineer/programs/bizlist/no00002/)
STANDARD(https://www.jdla.org/certificate/engineer/programs/bizlist/no00004/)
アイデミ―(https://www.jdla.org/certificate/engineer/programs/bizlist/no00007/)
※1:2022年11月時点の調査結果です