Google Cloud Vision出力まとめ

Deep Learningは壮大な経験則の集まりのため、精度を高めるためには沢山の微調整が必要になります。
また日進月歩で新しい技術が開発されており、昨日の高精度が明日の低精度になるのも常です。
このことが意味するのはつまり大手がモデルを提供しているのであれば、私みたいな凡人はまずそれを使うことを検討するべきだということです。

また何といってもDeep Learningは学習が難しいため、学習済みの予測モデルが流用できれば開発工数の大部分が省略できることになります。

ということでGoogle Cloud Platformで提供されているAIサービスのうち画像分析のためのサービスGoogle Cloud Visionについて、そのAPIのアウトプットについてまとめてみました。
もし欲しいモデルが下記のアウトプットの中に含まれているもしくは組み合わせで構成できるのであれば、ほとんどの場合Google Cloud Visionを使って実装するのが最も安全で簡単な道になるでしょう。

Crop Hint

画像の中で重要な領域を検出する。
情報を持たない領域を落とすのに使う。

– boundingPoly: 画像内の座標
– confidence: 確度(0〜1)
– importanceFraction:

Face Detection

画像内に存在する顔を検出する。
画像内に顔が複数存在する場合はそれぞれの顔について同時に結果を得ることができる。

Google Cloud Visionの中でも最も汎用性が高く活用場面が多そう。

– angarLiklihood: 表情が怒っている度
– blurredLiklihood: ぼやけている度
– boundingPoly: 顔の4スミの座標
– detectionConfidence: この顔検出全体の自信度
– fbBoundingPoly: 頭も含めた首から上の4スミの座標
– headwearLikelihood: 頭に何かかぶっているか度
– joyLiklihood: 楽しそうか度
– landmarkConfidence: 下記のlandmarksへの自信
– landmarks: 下記の顔のパーツたちの座標(x,y,zの三次元座標)。ただし左、右というのは画像上の左右を意味する。
– 左目、右目、左眉毛の左端、左眉毛の右端、右眉毛の左端、右眉毛の右端、両目の中心、鼻の先、上唇、下唇、口の左端、口の右端、口の中心、鼻下の右端、鼻下の左端、鼻下の中央、左目上端、左目右端、左目下端、左目左端、左目瞳、右目上端、右目右端、右目下端、右目左端、右目瞳、左眉毛の上側の中心、右眉毛の上側の中心、左耳の中心(tragion)、右耳の中心、鼻の付け根、顎の先端、顎の左エラ、顎の右エラ
– panAngle: 顔の角度(水平方向)
– rollAngle: 顔の角度(横回転方向)
– sorrowLikelihood: 表情が悲しい度
– surpriseLikelihood: 表情が驚いている度
– tiltAngle: 顔の角度(垂直方向)
– underExposedLikelihood: 露出不足度

なおlikelihoodは
– VERY_UNLIKELY
– UNLIKELY
– POSSIBLE
– LIKELY
– VERY_LIKELY
の5段階評価

Landmark Detection

画像に含まれる一般的な自然のランドマークや人工建造物を検出する。

– BoundingPoly: 画像でのランドマークの座標
– description: ランドマークの説明
– locations: ランドマークが実際に存在する緯度経度
– score: 確度。0~1

Logo Detection

ロゴ検出は、画像に含まれる一般的な商品のロゴを検出する。

Text Detection

画像内のテキストを検出、抽出する。幅広い言語がサポートされている。言語の種類も自動で判別される。いわゆるOCR。
手書き文字の認識もできる。
textAnnotationとfullTextAnnotationの二種類がある。
fullTextAnnotationは文字を構造化して取り出す。

textAnnotation

– boundingPoly: テキストが存在する座標
– description: テキストの内容
– locale: テキストの言語

fullTextAnnotation

Page -> Block -> Paragraph -> Word -> Symbol

の順の階層構造になっている。

– Block: blocktype: ブロックのタイプ。TEXT
– boundingbox: 画像内での座標
– confidence: 確度(0〜1)
– detectedLanguages: 言語
– text: 実際のテキスト

Image Property

画像についての一般情報や支配的な色を検出する。

Label Detection

画像を説明するラベルを返す。一般的な用語(「野球」「ボール」「選手」など)。
ただし返すのは英語のみ。
同時にたくさん検出できる。

– description: ラベル
– score: 確度(0〜1)
– topicality:

Object Detection

画像内のモノを検出する。(自転車、人、ネコなど)。
複数同時検出が可能。
使用言語は英語のみ。

– boundingPoly: 画像内の座標
– name: モノの名前
– score: 確度(0〜1)

Safe Search Detection

有害コンテンツかどうかを検出する。
Google検索のsafe searchで使われてるとかなんとか

– adult: ポルノ画像
– medical: 医療
– racy: 人種
– spoof: 改変。インターネットミームらしい
– violence: 暴力

なおそれぞれ
– VERY_UNLIKELY
– UNLIKELY
– POSSIBLE
– LIKELY
– VERY_LIKELY
の5段階評価

https://cloudplatform-jp.googleblog.com/2016/09/cloud-vision-api.html

Web Detection

ウェブ上で画像を検出し、当てはまる言葉を検索する。
Google画像検索の逆、もしくはgoogle lensのイメージ
過去の記事で使ったけど、何の画像か調べるのにめっちゃ強力。

– bestGuessLabels: label: ラベル
– bestGuessLabels: languageCode: 言語(jaなど)
– fullMatchingImages: 同じような画像とweb上でのurl
– pagesWithMatchingImages: 似た画像が掲載されているwebサイトのurl
– partialMatchingImages: 一部の情報が共通している画像とそのurl
– visuallySimilarImages: 見た目が似ている画像とそのurl
– webEntities: 画像を表す情報
– description: 単語
– score: スコア。0以上の実数。1も上回ることあり

参考

コメントを残す