PDFからデータを抽出し、辞書ファイルを生成してみよう
このカリキュラムでは、PDFファイルからデータを抽出し、辞書形式のYAMLファイルを作成する方法を学びます。具体的には、「国コード一覧」が記載されたPDFファイルを用意し、そこから国名と国コードを取り出して、Railsなどで使えるja.yml
形式の翻訳ファイルを作成します。
国コードを題材にしているのはあくまで一例であり、本当に伝えたいのは「PDFから辞書ファイルを作る方法そのもの」を体験してもらうことです。
このプロセスを知っておくと、他のPDFデータにも応用が効くようになるので、ぜひやり方のイメージをつかんでみてください。
PDFをダウンロードしよう
まずは国コードが掲載されているPDFをダウンロードします。
今回はこちらのPDFをダウンロードしましょう。
ダウンロードしたファイルはわかりやすいよう、ファイル名を「国コード」に変更し、アプリのルートディレクトリに移動しておきます。
辞書ファイルを生成しよう
それではこれから辞書ファイルを作成していきます。まずはconfig/locales
ディレクトリ内にja.yml
ファイルを作成します。
それではダウンロードしたPDFファイルを参照し、辞書ファイルを作成しましょう。以下のようにしてPDFファイルを参照させてからプロンプトを入力します。
以下のプロンプトを入力します。
プロンプト:
国コード.pdfを参照し、Railsアプリケーション用の2文字の国コードの日本語ロケールファイルを作成してください。
すると以下のように辞書ファイルを作成することができます。
このようにして、自分で作成するのが大変な作業もAIに頼めばほんの数分で作成することができます。
この記事で学んだことをTwitterに投稿して、アウトプットしよう!
Twitterの投稿画面に遷移します