【GitHub Copilot講座】PDFからデータを抽出し、辞書ファイルを生成してみよう

この記事で出来るようになること

PDFからデータを抽出し、辞書ファイルを生成してみよう
リンクをコピーしました

このカリキュラムでは、PDFファイルからデータを抽出し、辞書形式のYAMLファイルを作成する方法を学びます。具体的には、「国コード一覧」が記載されたPDFファイルを用意し、そこから国名と国コードを取り出して、Railsなどで使えるja.yml形式の翻訳ファイルを作成します。

国コードを題材にしているのはあくまで一例であり、本当に伝えたいのは「PDFから辞書ファイルを作る方法そのもの」を体験してもらうことです。
このプロセスを知っておくと、他のPDFデータにも応用が効くようになるので、ぜひやり方のイメージをつかんでみてください。

まずは国コードが掲載されているPDFをダウンロードします。
今回はこちらのPDFをダウンロードしましょう。

ダウンロードしたファイルはわかりやすいよう、ファイル名を「国コード」に変更し、アプリのルートディレクトリに移動しておきます。

ルートディレクトリへ移動

それではこれから辞書ファイルを作成していきます。まずはconfig/localesディレクトリ内にja.ymlファイルを作成します。

ja.ymlの作成

それではダウンロードしたPDFファイルを参照し、辞書ファイルを作成しましょう。以下のようにしてPDFファイルを参照させてからプロンプトを入力します。

PDFファイルの添付

以下のプロンプトを入力します。

プロンプト：

国コード.pdfを参照し、Railsアプリケーション用の2文字の国コードの日本語ロケールファイルを作成してください。

すると以下のように辞書ファイルを作成することができます。

このようにして、自分で作成するのが大変な作業もAIに頼めばほんの数分で作成することができます。

この記事で学んだことをTwitterに投稿して、アウトプットしよう！

Twitterの投稿画面に遷移します