AI導入・開発はAIのミカタにお任せください お問い合わせ

OpenAI、音声AIの2大弱点を克服した「GPT-Realtime-2」を公開

OpenAI、音声AIの2大弱点を克服した「GPT-Realtime-2」を公開
  • URLをコピーしました!

音声AIがここ数年で急速に普及する一方、使い続けるほど気になる「欠陥」があった。処理中に無音になること、そして長い会話で最初の指示を忘れること——。OpenAIが2026年5月7日に公開した「GPT-Realtime-2」は、この2点を直接修正した新モデルだ。

目次

GPT-Realtime-2が解決した2つの問題

従来の音声AIが使いにくかった理由は、高度な技術の問題ではなかった。「黙る」と「忘れる」——人間の新人でもやらないような基本動作が、長い間解決されていなかった。

「今調べています」——処理中の沈黙をなくす機能

音声AIに何か尋ねると、答えを探している間ずっと無音になる。電話で質問したら、保留音もなく数十秒放置されるのと同じ感覚だ。GPT-Realtime-2には、処理中に「少々お待ちください」「確認しています」といった短い言葉を自動で発する機能が加わった。人間のオペレーターなら当たり前にやることを、AIがようやくできるようになった。

さらに、これまで1件ずつ順番にこなしていた調べ物を、同時並行で進められるようにもなった。カレンダーの空き確認と情報検索を一度にこなす——有能な秘書に近い動きだ。

長い会話でも指示を忘れない記憶力

もう一つの弱点は「記憶の短さ」だった。AIが一度に保持できる会話の量には上限があり、長い打ち合わせの途中で最初の指示を忘れることがあった。

OpenAIの発表によると、GPT-Realtime-2ではこの記憶容量が従来の4倍に拡張された。数時間の音声会話でも、冒頭に伝えた条件や要望を保持し続けられる。「さっきも言ったよね」とイラッとする場面が、なくなる。

すでに企業が動き始めた

機能の話だけでは、本当に使えるかどうかは分からない。では実際に、どこが使い始めているのか。

なお、現時点でGPT-Realtime-2はAPI(開発者や企業がシステムに組み込むための接続口)経由での提供となっており、一般向けのChatGPTアプリには今のところ搭載されていない。企業が自社のサービスに組み込む形での活用が先行している。

米国の不動産情報サービス・Zillowでは、音声で物件を探したり内見を予約したりできるシステムにGPT-Realtime-2を導入した。その結果、タスクの成功率が69%から95%に跳ね上がった。10回試して3回は失敗していたものが、ほぼ確実にうまくいくようになったということだ。「音声AIが実用レベルに達した」と言い切れる数字がここにある。

ドイツの通信大手・ドイツテレコムは、外国語で電話してきた顧客の言葉を、オペレーターの言語にリアルタイムで変換するサポート体制を構築した。顧客は母国語で話せばいい。言葉の壁を取り除く仕組みが、すでに動いている。

日本でも三菱UFJ銀行がOpenAIとの連携を強化し、顧客対応や業務での音声AI活用を進めている。

翻訳・文字起こし専用モデルも同時公開

こうした動きを後押しするように、OpenAIはGPT-Realtime-2と合わせて、音声AI全体を底上げする2つの専用モデルも公開した。

70言語対応のリアルタイム翻訳

「GPT-Realtime-Translate」は、70以上の言語をリアルタイムで翻訳するモデルだ。特徴は、話している人のペースやリズムを崩さないこと。通訳者が間に入っているかのように自然に変換する。料金は1分あたり約5円(0.034ドル)だ。

会議の文字起こしに特化したWhisper

「GPT-Realtime-Whisper」は、音声の文字起こしに特化したモデルだ。会議や動画の音声が、話されると同時にテキストになる。「録音してから後で起こす」という工程がなくなる。料金は1分あたり約2.5円(0.017ドル)——翻訳モデルの半額だ。

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

目次