経理の業務効率が変わる!紙資料PDFを難なくデータ化する「Gemini Experimental 1206」の威力

経理業務では、実務上、まだなかなか紙の資料もあり、これをいかに効率よくデータ化できるかもポイントと考えられます。
従来のツールではなかなか精度に限界がありましたが、Google Deepmindから2024年12月にリリースされた「Gemini Experimental 1206」は、高度なテキストデータ化能力を持っています。

目次

紙資料データ化と現状のAIツールの限界

経理業務においては、実務上ではまだなかなか紙の資料もあり、これをいかに効率よくデータ化できるかは課題と考えられます。

スムーズにデータ化できれば、その後の加工や計算につき効率化を図っていく余地・選択肢を多様に考えていくことも可能になります。

もともとデータで作成したものをダイレクトにPDF化しているものであれば、それをテキストデータ化することは、現状ではさほど困難さはなくなってきている印象はあります。

ただ、紙資料をスキャンしてPDF化したものについては、現状のOCRツールでは、解像度の問題や手書き部分の読みづらさや複合機の汚れや解像度、複雑なレイアウトなどといった障害から、なかなか正確にテキストなどをうまく取り出して認識することができないことが多いというのが実感です。

現時点での生成AI(ChatGPT 4o、Gemini 1.5、Claude 3.5)についても、精度は向上しているものの、もう一歩、と感じることも多いのもまた実感です。

Gemini Experimental 1206を使ってみた

OpenAIが「o1」モデルなどを発表した翌日、Google DeepMindは、「Gemini Experimental 1206」というLLMのモデルを出してきました。

AIモデルのランキングである「Chatbot Arena」において、トップに君臨する圧倒的な能力の高さです(2024年12月10日現在)。

主な特徴として以下が挙げられています。

  • 大規模なコンテキストウィンドウ
    :超長文や複雑な文書でも、文脈を維持しながら応答可能
  • 高度な推論能力
    :複雑な問題や深い分析を必要とするタスクでも対応可能、研究や専門分野での利用が期待される
  • コード処理能力の向上
    :コード生成、デバッグ、分析といったプログラミング関連のタスクにおいても高い性能

しかも現状、なんと無料で使えるとのこと、、

「Gemini Experimental 1206」を試してみることにしました。

STEP
Google AI Studioにログイン

「Gemini Experimental 1206」はまだ実験モデルであるため、通常のGeminiアプリではなく、「Google AI Studio」から使っていくことになります。

STEP
Modelを「Gemini Experimental 1206」に設定

右上の「Model」を、「Gemini Experimental 1206」に設定

STEP
通常のLLMと同様に、プロンプト入力・資料追加

画像では日本年金機構の資料を使っていますが、より多様な「紙→PDF」資料を試してみたところ、高いテキストデータ化能力を発揮しました。

あえて粗めな紙からスキャンしたPDFを準備してみました。

ea9ee955508644e4e054327202eeeb6a

以下は、実際にテキストデータ化されたものです。
図やイラスト部分をうまく読み取れていないことを除いては、精度100%といっても過言ではないです。

事業主の皆さまへ
令和6年11月号
日本年金機構からのお知らせ
協会けんぽ管掌事業所のご担当者さまへ
令和6年12月2日以降の資格確認書の発行
令和6年12月1日をもって健康保険証は新規発行されなくなり、マイナ保険証へ移行しますが、マイナンバーカードをお持ちでない等、マイナ保険証を利用することができない状況にある方は、協会けんぽが発行する「資格確認書」で医療機関等を受診することができます。
また、令和6年12月2日以降、「被保険者資格取得届」および「被扶養者(異動)届」に「資格確認書発行要否」欄を新たに設けますので、新たに被保険者や被扶養者になる方が資格確認書が必要な場合は届書の「□発行が必要」にチェックを入れてください。届出内容に基づき、協会けんぽから資格確認書が発行されます。
資格確認書が必要な場合は12月2日以降に新様式で届書を提出してください。
なお、すでに被保険者、被扶養者である方が資格確認書が必要な場合は協会けんぽに直接申請してください。
≪被保険者資格取得届≫≪被扶養者(異動)届≫※イメージ
(20)資格確認書発行要否 □ 発行が必要
(20)資格確認書発行要否 □発行が必要
ご案内 賞与支払届の手続きには、「電子申請」をご利用ください
メリットがたくさんあります
紙の届出と比べ、処理が速く、通知がすぐに届きました
届書を印刷する手間がなくなりました
電子申請の詳細はホームページからご覧ください。
日本年金機構 電子申請 検索
https://www.nenkin.go.jp/denshibenri/index.html
届出のための移動時間や交通費、郵送費を削減できました
操作が難しいイメージがありましたが、実際使ってみると簡単でした
電子申請の利用に関するお問い合わせはこちらです。
ねんきん加入者ダイヤル(日本年金機構「電子申請・電子媒体申請」照会窓口)
0570-007-123 (ナビダイヤル)→「2番」
※050から始まる電話でおかけになる場合は、03-6837-2913→「2番」
(受付日時等はHPをご覧ください)
ご案内 CDによる被保険者データの提供が令和7年3月末で終了します
被保険者データを収録したCDの提供は、郵便事故による個人情報の漏えい防止や環境負荷の軽減を図る観点から、令和7年3月末をもって終了します。
日本年金機構では、被保険者データや毎月の社会保険料額等の各種情報・通知書をオンラインで受け取れる「オンライン事業所年金情報サービス」を提供しています。被保険者データの受け取りは、本サービスをご利用いただきますよう、ご理解・ご協力のほどよろしくお願いします。
日本年金機構 Japan Pension Service 裏面へつづく

「Gemini Experimental 1206」のテキストデータ化は迅速かつ精密で、OCRツールや従来のAIツールでは処理が難しかった複雑なレイアウトについても問題なく処理できました。

高度な推論能力などのみならず、このような読み取り精度についても、非常に能力の高いモデルであるということが分かりました。

Gemini Experimental 1206の性能

「Gemini Experimental 1206」のテキストデータ化能力について、Gemini Advancedに聞いてみました。

Gemini Experimental 1206 が紙のPDFを高精度でテキストデータ化できるのは、その優れた性能によるものです。

従来のOCR技術では、紙のPDFをテキストデータ化する際に、以下の課題がありました。

  • 文字の認識精度: 紙の質や印刷状態、手書き文字などによって、文字の認識精度が低下することがありました。
  • レイアウトの認識: 表や図などの複雑なレイアウトを正確に認識することが難しい場合がありました。
  • 画像の歪み: 紙の歪みやスキャン時の傾きによって、画像が歪み、文字認識が困難になることがありました。


Gemini Experimental 1206 は、これらの課題を克服するために、以下の技術を採用しています。

  • 高度な画像認識技術: 深層学習に基づく高度な画像認識技術により、従来よりも高精度に文字を認識することができます。
  • レイアウト理解: 文書全体のレイアウトを理解し、テキスト領域、画像領域、表領域などを正確に識別することができます。
  • 歪み補正: 画像の歪みを自動的に補正し、文字認識精度を向上させることができます。
  • 自然言語処理: OCRで認識したテキストデータを自然言語処理技術で解析し、誤認識を修正したり、文脈に応じた整形を行うことができます。


これらの技術により、Gemini Experimental 1206 は、従来のOCR技術では難しかった紙のPDFのテキストデータ化を、高精度で行うことが可能になりました。


特に、手書き文字の認識や複雑なレイアウトの文書、低品質なスキャン画像などに対しても、高い精度でテキストデータ化できる点が大きな特徴です。

というように、テキストデータ化能力についても、大幅に強化されたモデルであるといえそうです。

これは、経理業務の効率化に大きな利点を有しているといえます。

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!
目次