画像認識とは

1.画像認識の位置付けと歴史

画像認識は、コンピューターによって画像情報から特徴を把握し、対象物を識別する画像解析技術の一部と言えます。例えば、集合写真の中から特定の個人を抽出する場合は画像認識となり、航空写真から地震や台風などの被害状況を分析する場合は画像解析になります。画像解析には画像認識の他にも生体認証、航空・衛星写真の分析、筆跡鑑定、医療診断など様々なものがあります。画像認識の歴史は、1952年10月に特許が取得されたドレクセル大学のバーナード・シルバーとノーマン・ウッドランドによるバーコードまで遡ることができます。2000年代になると機械学習、深層学習が画像認識技術を進化させました。

2.画像のデジタル化

画像情報をコンピューターで画像認識するためには画像のデジタル化が必要になります。人間が目で見る自然界に存在する画像はアナログデータから構成されています。アナログデータは連続する値から構成されます。一方デジタルデータは飛び飛びの値、つまり離散値から構成されています。デジタル化とは連続した値の集合体を離散値の集合体に再構成することです。画像の場合は、画素、つまりピクセルの集合体に再構成することと言えます。デジタル化は、サンプリング、量子化、コード化の三段階から構成されます。

  1. サンプリングとは連続して変化するアナログ情報を一定の周期で計測することを言います。簡単に言うと元の画像を等間隔のマス目に区切ることを意味します。区切られた一つ一つのマス目が画素です。デジタル化された画像情報、つまりデジタルカメラで撮影した写真は、究極的にはデジタルカメラ内のイメージセンサーから集められた無数の画素の集まりと言えます。
  2. 次は量子化です。それぞれ画素は色や明るさなどの情報を持っています。カラー画像であれば光の三原色(赤=red、緑=green、青=blue)を混ぜれば全ての色を表現できることになります。各画素が持つ三原色の明るさの情報をRGB値と言います。通常、画素の持つそれぞれの色は0から255の256段階の数値で表します。量子化とは、デジタル画像を数字の集合体にすることを意味します。
  3. 最後にコード化とは、割り当てた数値を二進数0か1かで表現することを言います。二進数の一桁の値を1ビットというので、この結果をビットデータとして管理すると言います。二桁になると00、01、10、11と4色になり、色が増えればビット数も増えることになります。255を二進数で表現すると1111111になります。
アナログのデジタル化

3.画像処理の手法

画像処理とは、デジタル画像データからコンピューターを使って何かの目的、例えば画像認識のために画像を加工することです。

  1. グレースケール変換とは、色のある画像を無彩色にすることを言います。カラー画像はコンピューターにとっては情報量が多すぎることがあります。情報量が大きいと計算に時間がかかり、保存も大変なので、グレースケール変換が利用されます。
  2. 次にノイズ除去。これは画素の持つRGB値や濃淡値の異常を補正するものです。モノクロ画像で明るいところにポツンと黒い点がある時に、周りに白の画素が一つでもあれば、1画素分外側に白を広げることを膨張処理と言います。逆に収縮処理とは、例えば注目する画素の周りに黒の画素があれば1画素分白を狭める処理です。他にはフィルター処理があります。これは注目する画素(オペレータ)に特徴を与える計算因子を掛け合わせます。周囲のピクセルの濃淡値の平均値や中央値にオペレータを掛け合わせると滑らかな画像を作ることができます。
  3. エッジ検出とは、極端に濃淡値が変わる場所があれば、そこに物と物との境界つまりエッジがあるという考えに基づいています。元の画像に明るい箇所と暗い箇所がある場合、明暗が変化した場所を強調し、同じ明るさの場所を目立たなくします。
  4. さらに2値化という処理があります。これは256段階で表現された白黒画像を2段階に変換するものです。グレースケール変換以上に無駄なデータを削ぎ落とします。エッジ検出では輪郭だけしか分かりませんが、2値化では全体像を把握することができます。色の情報が0と1の2種類だけになるので、コンピューターにとってはとても計算しやすくなります。0から255までの中である数字を決めて、ある数字より濃淡値が大きければ白、小さければ黒にします。この濃淡を分ける値を閾値(しきい値)と言います。
画像処理

4.画像認識の手順

画像をデジタル化し、画像処理を行うと次のステップが画像解析(含む画像認識)になります。これは、対象物の抽出、特徴量の算出、算出結果に基づく判別の三段階から構成されます。

  1. 対象物の抽出とは、画像データの内容を解析の対象となるものとならないものにわけるということを意味します。このためには画像処理によって2値化されたデータを使用します。デジタル画像データはピクセルごとに輝度の数値情報を持っているので、輝度によって対象物と背景を切り分けることができます。対象物の抽出をすると個数、面積、アスペクト比などの多くの項目を測定することができます。
  2. 特徴量の算出とは、画像の中の対象物に対応するピクセルデータの演算処理を行なってその特徴を数値化することをいいます。これにより、例えば顔の画像の中で上下方向に特徴量の変化があれば目ではないか、左右方向に特徴量の変化があれば鼻ではないかという推論が可能になります。
  3. 判別とは、算出した特徴とそれと似たものを照らし合わせて、対象物は一体何であるかを判定します。この工程はパターン認識と呼ばれています。画像認識とは、対象物が持っている様々な特徴を人工知能プログラムに学習させ、正誤を判定させることとも言えます。

画像認識は、ディープラーニングという人工知能技術により、飛躍的に進歩しました。ディープラーニングは、たくさんの画像データから人工知能が対象物の特徴を自ら見つけ出すものです。例えばある画像の中から犬や猫を判別するのに、人が犬や猫の特徴量を定義するのがルールベースです。人が犬や猫の画像を与えてコンピューターが特徴量を把握するのが機械学習です。これに対して、人がラベリングした膨大な画像データからコンピューターが自動的に犬や猫の特徴量を把握して定義するのがディープラーニングです。画像認識は、人手によるルールからモデル構築、パターン認識へと移行していると言えます。

画像認識

5.画像認識の用途

画像認識は、あらゆるビジネスの場で活用されるようになってきました。メジャーなものだと工場の生産ライン上を流れる製品の中から不良品や混入した異物の発見に画像認識が活躍しています。比較的身近なところでは、空港の出入国管理ゲートの顔認証が挙げられます。車の自動運転においても歩行者や対向車の検知も画像認識で行うので、必須の技術となっています。このほか医療の分野で例えば癌細胞を検出する、災害対応では、衛星から撮影した広域写真を分析して災害の影響を調べる、といったことも可能になります。また、化粧品会社のサービスではスマホカメラの画像からスキンケア商品をリコメンドするというサービスもあるようです。弊社は顔認識のAIプログラムを小型化、高速化してコンパクトなロボット型端末PLEN Cubeに搭載しています。具体なサービスとしては、顔認証による施設の入退館管理や企業での勤怠管理、学校においては出欠管理などが実用化されています。

【(著) PLENRobotics株式会社】