概要
Yoomでは「画像・PDFから文字情報を読み取る」というAIオペレーションを用いて、
画像やPDFファイルから文字情報の抽出を行うことが可能です。
ここでは場合を分けて抽出できるものとできないものについて、ご説明します。
なお、今回ご紹介する機能についてはチームプラン以上でご利用いただけます。
注意点
AIの精度向上により、現状できないことも今後実施できる様になる可能性がありますため、以下記載の内容に限らないことをご了承ください。
また、紹介する抽出方法や条件は現在確認できているものを含むあくまで例であり、
画像やファイルのフォーマットが変化した場合などは同様の挙動を示さない可能性があります。
そのため、まずは使用する画像やファイルを用いてテストを行っていただき実際に抽出状況をご確認いただけますと幸いです。
抽出可能な条件
以下のような条件を満たしている場合は、文字データの抽出を行うことが可能です。
1枚の画像やファイルで取得したい項目名などがしっかりと記載されている
例:住所や電話番号、氏名、金額など
この場合は、抽出したい項目欄に取得したい項目名を羅列してください
複数ページに渡るファイルなどで、抽出したい項目内にある値がユニークである
例:氏名の項目に入力されている氏名が全員異なる
この場合、抽出したい項目欄に「氏名の一覧」などのキーワードを設定してください
6500文字以内のファイルである(PDFや画像ファイルから文字情報(6500文字以内)を読み取る(15タスク)アクションの場合)
値がユニークで入力されている表状(テーブル状)のデータがあるファイル
例:以下のように列名以下の値がユニークかつ全て入力されている
この場合、抽出したい項目欄に「会社名の列の一覧」などのキーワードを設定してください
空白がある表状(テーブル状)のデータファイル
空白が複数ある、2行以上空いているなどの場合は読み取れない可能性があります。
抽出が難しい条件
以下のような場合は、文字データの抽出が難しい場合があります。
1枚の画像やファイルでも取得したい項目名が記載されていない
例:取得したい項目名がなく、AIも判別しにくい値など
名前や住所など、明らかに判別できるものであれば取得できる可能性があります
複数ページに渡るファイルなどで、抽出したい項目内にある値がユニークではない
例:氏名の項目に入力されている氏名に同じものがある
この場合、抽出したい項目欄に「氏名の一覧」を入れても重複している名前などは除外され取得されるため、意図した数の文字列を抽出することが出来ない場合があります
6500文字を超えるファイルである(PDFや画像ファイルから文字情報(6500文字以内)を読み取る(15タスク)アクションの場合)
仕様上読み取りが出来かねます
すべての文字情報、といった指示の仕方
文字情報をすべて抽出するといった広範囲に渡る指示の場合、正常に抽出出来ない場合があります
縦文字の情報の場合
新聞など、縦に入力されている文章情報を取得(特に広範囲の場合など)する場合、正常に取得できない場合があります。
図など文字情報以外の場合
図内にある文字の取得はできる可能性がありますが、図そのものを取得することはできません。
また同上を表す"のような記号の読み取りも現状はできません。
以上、画像・PDFから文字情報を読み取るオペレーションで実施できること/できないこと です。
# 画像,PDF,読み取り,OCR,注意点,AI