更新日:
【IT業界】 GPT-4oとは?GPT-4との違いを徹底解剖!
GPT-4oとは
2024年5月13日に発表されたGPT-4oは、OpenAIが開発した最新の言語モデルで、GPT-4を基にさらなる改良が加えられています。高度な自然言語処理能力を備え、より高速で効率的に情報を処理できる点が特徴です。
GPT-4oのo
はラテン語で「全て」を意味するomni
(オムニ)の略であり、特に、テキスト、音声、画像、ビデオなど複数のモーダルを統合して処理するマルチモーダル対応能力が強化されています。これにより、音声対応能力が飛躍的に更新し、ユーザーはより自然で人間らしい対話を実現でき、多様な用途に活用できるようになりました。
GPT-4oの使い方
Plusプラン以上であれば、画面左上のモデル選択からGPT-4oを選べば使用可能です。
無料プランでも使える
アカウントを登録していればなんと無料プランでも使用できます。Plusプランのようにモデルの選択メニューにはありませんが、デフォルトでGPT-4oが設定されています。GPT-3.5との切り替えは、回答の下に表示されるアイコンをクリックして選択します。
ただし、無料ユーザーがGPT-4oで送信できるメッセージの数には、用途と需要に応じて制限があります。制限に達すると、自動的にGPT-3.5に切り替わります。また、無料プランではDALL-Eモデルが使用できないため、画像生成は行えません。
デスクトップアプリが公開
GPT-4oの公開と同時に、パソコンのデスクトップアプリも公開されました。現在はPlusプランのユーザーから登録が始まっており、順次利用可能なユーザーを増やしているため、一部のユーザーは待たされる場合もあります。
ダウンロード方法
ダウンロード方法は画面右上のユーザーアイコンをクリックすると表示されるメニューから「Download the macOS app」を選択します。2024年5月13日現在は有料プランのmacユーザーのみ表示され、2024年の後半にはWindowsでもダウンロードできるようになるとのことです。またインストールに必要な条件としてCPUはApple Silicon(M1、M2など)、macOSはSonomaである必要があります。
使い方
アプリをインストールするとoptionキー
とスペースキー
でChatGPTのランチャーを呼び出すことができ、ここからChatGPTとの会話を始めることができます。
もちろんDockのアイコンから起動もできます。
アプリには音声入力機能もあるため、パソコンからも直接ChatGPTと音声会話できるようになりました。macユーザーであればぜひインストールしておきたいところです。
GPT-4oの特徴
GPT-4oの大きな特徴はomniという言葉が意味している通り、マルチモーダル能力が大幅に強化されたことです。これにより音声での対応速度が飛躍的に向上し、画像の生成や認識の精度もより正確になりました。この章では、OpenAIが公開している動画を参照しながら解説していきます。
※動画は英語なので、字幕で日本語に翻訳してご覧ください。
※一部の機能は随時追加されます。
高速化された音声対応
GPT-4o以前では、テキスト処理には自然言語処理(NLP)モデル、画像処理にはコンピュータビジョン(CV)モデル、音声処理には音声認識モデルと、それぞれ異なるシステムやモデルが使われていました。そのため、音声での対応の場合、以下のような過程で回答が返ってきます。
このため、音声での返答が返ってくるまでGPT-3.5では平均2.8秒、GPT-4では5.4秒かかっていました。
しかし、GPT-4oは音声認識、回答生成、音声回答を一つのニューラルネットワークでこなすため、なんと平均0.32秒で回答が返ってきます。公式で紹介されている下の動画でその対応速度の速さを確認できます。
感情を表現するAI
GPT-4o以前では、音声情報を全てテキストに変換していたため、相手の音調、話している人数、背景の雑音などの情報が失われていました。しかし、GPT-4oでは音声として情報を処理することができるため、笑い声を上げたり、声のトーンを変えたりといった感情を表現することができます。これにより、単なる情報のやり取りだけでなく、感情を伴ったコミュニケーションが可能になりました。
これはAIの世界にとって革命的なことです。これまでのAIは感情を表現することができず、機械的な応答が特徴でした。しかし、GPT-4oは感情を表現する能力を持っており、まるで人間と話しているかのような自然な対話が可能です。
この進化により、AIはより親しみやすく、利用者にとって使いやすい存在になりました。
下の動画でその凄さを体感してみてください。もはやAIとは思えません。
歌も歌います
GPT-4oはマルチモーダル機能の強化により、さらに人間に近づきました。感情も表現できるようになった上に下の動画のように歌まで歌うことができます。
次の動画では子守唄を歌っています。
カメラの映像から情報を収集
カメラの映像から情報を読み取り、回答を作成することもできます。これは本当にすごいです。
下の動画では、カメラに写っている情報を読み取ってスペイン語の勉強をしています。
また、次の動画ではカメラの映像から詳細に情報を読み取り、AIが回答を作成しています。最後の、盲目の人がタクシーを拾う場面は非常に衝撃的です。
コーディング補佐
GPT-4o以前でも、エンジニアがコーディングする際の強力な補助ツールでしたが、ChatGPTのデスクトップアプリでGPT-4oを使用すると今まで以上に便利にChatGPTを活用することができます。
例えば、コードの内容を教えてもらう際は、以前はコードを一度コピーしてプロンプト欄に貼り付けることでChatGPTに質問をしていました。しかし、アプリ版ではコードをハイライトするだけでChatGPTに情報が送られ、コードの解析などを行ってくれます。しかも、瞬時に音声で返答してくれるので、プログラミングに詳しい自分専用の講師に質問しているような感覚でAIと対話できます。
また、解析してもらいたい画像も、以前は画像ファイルとして送信していましたが、画面キャプチャをするだけでChatGPTに送信されます。
リアルタイム翻訳
GPT-4oでは、多言語対応能力も大幅に向上しています。日本語、スペイン語、フランス語、ドイツ語、韓国語、中国語、ロシア語、イタリア語、アラビア語など、50以上の言語を高い精度で処理できるため、リアルタイム翻訳を行うことができます。
以下の動画では、リアルタイム翻訳機能を使って別言語の人同士が会話しています。これからの時代、通訳は不要になるかもしれません。
画像作成能力の向上
マルチモーダルの強化は、画像を作成する上でも役立っています。以前はプロンプトで指定したテキストを画像として作成する精度が低かったのですが、GPT-4oではほぼプロンプト通りのテキストが画像内に作成されます。
さらに、画像を送信することで、その画像を参考に、より具体的な画像を生成することができます。
利用制限とコスト効果
GPT-4oでは、能力の向上だけでなく、利用制限の緩和やAPIのコスト削減も実現されています。
特徴 | GPT-4 | GPT-4o |
---|---|---|
無料プランの制限 | 利用不可 | 3時間で40メッセージ(上限あり) |
有料プランの制限 | 3時間で40メッセージ | 3時間で80メッセージ |
リクエストレート制限(毎分) | 2,000リクエスト | 10,000リクエスト |
トークンレート制限(毎分) | 2,000,000トークン | 10,000,000トークン |
入力トークン価格 | 100万あたり10ドル | 100万あたり5ドル |
出力トークン価格 | 100万あたり30ドル | 100万あたり15ドル |
利用制限
GPT-4oはGPT-4に比べてトークンレート制限が最大5倍の10,000,000トークンに増加しました。またメッセージ制限もGPT-4の倍の3時間ごとに最大80件まで送信することができます。
APIコスト
GPT-4oは、API利用コストがGPT-4に比べて50%削減されています。このコスト削減により、APIを使ってChatGPTを利用している個人や企業にとって、経済的負担が大幅に軽減されました。コストの面でAPIを利用したかったが利用できなかった方にとっては、大きな変更です。
まとめ
GPT-4oの一番の目玉は、マルチモーダル能力の向上による音声対応です。ほとんど人間と話しているかのように対応できるため、今後もさまざまな分野でAIが活躍しそうです。将来、本当に人間の仕事がなくなってしまうかもしれません。
ホリエモンもYouTubeでGPT-4oの凄さを語っています。
2024年5月13日時点では、まだ紹介したすべての機能は公開されておらず、使用できませんが、順次公開予定とのことなので、今後が非常に楽しみです。
この記事のまとめ
- GPT-4oはマルチモーダル能力の向上が大きな特徴
- 無料プランでもGPT-4oを使うことができる
- macOS専用のデスクトップアプリも公開
- 性能向上の他にもAPIコストが50%削減
