1分の録音で声を完全再現
イーロン・マスクが設立したAI企業xAIが、2026年4月30日、新機能「Custom Voices」を正式発表した。同社のAIサービス「Grok」に接続するAPI(システム同士をつなぐ接続口)を通じて企業向けに提供される。
仕組みはシンプルだ。スマートフォンに向かって1分ほど、普通に話す。それだけで、xAIの発表によると2分以内に自分の声のコピーが完成する。
再現されるのは声の高さだけではない。話し方のくせ、言葉と言葉の間の取り方、感情の乗り方、しゃべるスピード——聞いた人が「この人だ」と感じる要素が丸ごとコピーされる。従来、これほどの精度を出すには専門スタジオで数時間かけて録音する必要があった。それが、スマホで1分話すだけに変わった。
できあがった音声は、企業がシステムに組み込んで使えるAPI経由で出力される。電話対応システムや音声アシスタントにそのまま接続できる形だ。
これはまだ研究段階の話ではない。衛星インターネットサービスのStarlinkは、xAIの音声AIをカスタマーサポートとセールスの窓口にすでに導入し、実際に稼働している。xAIの発表によれば、Starlinkは数百万人規模のユーザーを抱えており、この規模での運用が同機能の最初の大規模実証となった。電話口で対応している声が、すでにAIである時代が始まっている。
悪用リスクへの備え
「他人の声を勝手にコピーできるのでは」——声のクローン技術が話題になるたびに、この懸念は繰り返されてきた。
xAIは、この問いに対してガイドラインや注意喚起で応えなかった。仕組みそのものを変えた。
Custom Voicesでクローンを作るには、2つの確認を同時にクリアしなければならない。まず、システムが提示するランダムなフレーズを、その場でリアルタイムに読み上げる必要がある。次に、その音声が、事前に登録された本人の声と一致するかどうかを声紋——声の特徴を数値化したもの——で照合する。
つまり、誰かの過去の録音ファイルを手に入れても、それだけではクローンは作れない。本人が今この瞬間に発声しなければ、システムは通らない設計だ。この二段階検証とパスフレーズ認証の組み合わせが、悪用の入口を物理的に塞いでいる。
できあがったクローン音声はチーム内での利用に限定され、外部に公開・提供されることもない。安全策は後から付け足されたものではなく、サービスの設計段階から組み込まれている。それが今回の発表の核心だ。
xAIが想定する活用領域
現時点では大企業向けのプランに限定されているが、xAIの発表によると28の言語に対応しており、多国籍展開を行う企業にも即戦力として使える。
ゲームと音声コンテンツ
xAIの公式発表では、SpaceXの放送キャスターであるTyler Nicholson氏の声が実演に使われた。1分ほどの録音から再現したその声で、放送品質のコンテンツが作れることが示されている。ゲームのキャラクターボイスや動画ナレーションへの展開を、xAIは明示的に想定している。
ここで価格に触れておく必要がある。xAIの発表によると、100万文字の音声生成が4.20ドル(約620円)。音声AI市場で先行するElevenLabsは、同等の利用量に対してAPIの従量課金で数十ドル規模の料金が発生する設定であり、xAIは競合の14〜28分の1という水準を打ち出している。これまで大企業しか手が届かなかったコスト水準が、中小企業の射程に入ってきた。

