1. ホーム
  2. 生成AI実践・逆引き
  3. ElevenLabsで日本語ナレーション。動画やCMの声入れがAIで5分

にっしーですよ〜。1月の宮古島、最近ちょっと肌寒い日が続いてて、夜になると上着がいる気温です。「南の島でもこんなに冷えるんだ」って毎年同じ感想になっちゃうんだけど、ここ数日コーヒーが進む進む。

そのコーヒー飲みながら今日はElevenLabsの話を書いていきます。

「自分の声を複製する」って、もうSFじゃないんですよね

少し前に、宮古島でゲストハウスを経営してる知人と話してたんですよ。「館内案内の音声を作りたいんだけど、プロのナレーターに頼むのは予算的にきつい」って言ってた。

「じゃあElevenLabsで声を録音して作れるよ」って話したら、「え、それって本当に自分の声になるの?」ってなって。

なんでこんな反応になるかというと、今まで「音声合成」って聞くと、あのいかにもな機械音声のイメージがあるじゃないですか。でもElevenLabsが2025年6月にリリースしたEleven v3という最新モデルは、もうそのレベルから完全に抜け出してる気がします。

1分くらいの音声を録音して登録するだけで、そのクローン化した声でAIが原稿を読み上げてくれる。しかも日本語で、自然なイントネーションで。

ElevenLabsって何ができるサービスなの?

ElevenLabsはアメリカのスタートアップで、音声生成に特化したAIサービスです。

テキスト読み上げ(Text to Speech)
文章を入力したら声に変換してくれる。声の種類・感情・スピードも調整できます。
Voice Cloning(声のクローン)
自分の声または許可を得た声を録音して登録すると、その声で任意のテキストを読み上げさせられます。Instant Cloningなら1分程度の音声1本で登録できます。
Eleven v3(最新モデル)
2025年6月にアルファ版がリリースされて、いまはPublic APIでも使えます。70以上の言語に対応していて、日本語も明記されてる。感情タグ([excited]とか[whispers]みたいなやつ)を原稿に書き込むと、その箇所だけ声のトーンを変えられる。複数話者の掛け合いを生成するDialogue Modeもあります。

宮古島の事業者、どんな場面で使える?

「で、実際うちの仕事でどう使うの?」という話を具体的に3つ書きます。

観光宿・ゲストハウスの館内案内

チェックイン後に流す「ゴミの出し方」「Wi-Fiのパスワード」「近くのコンビニの場所」みたいな案内、文字だけのペーパーじゃなくて音声で流せたら一気に伝わり方が変わります。

オーナー自身の声でクローンを作れば、外国語スタッフがいなくても英語版・中国語版の案内を作れる可能性もある(Eleven v3は多言語対応)。「声はオーナーの声だけど言語が違う」というのはちょっと不思議な体験なんですが、実用的には全然ありだと思うんですよね。

僕もこれウチの事業者向けのデモで試したことがあって、宮古島の宿のオーナーに聴かせたら「え、これ自分の声?」ってなってた。そういうインパクトがある。

飲食店のおすすめメニュー音声

レジ横にタブレットを置いて、「今日のおすすめ」を音声で流す。スタッフが毎日口頭で案内するのって、忙しい時間帯だとどうしても抜ける。録音しておいた声があれば一定のクオリティを保てます。

メニュー変更があっても、テキストを書き換えて音声を再生成するだけで更新できる。プロのナレーターに毎回頼むコストを考えると、かなり違うと思います。

ショート動画のナレーション

InstagramリールやTikTokで宮古島の観光スポットを紹介する動画、ナレーションが入るだけで一段上の印象になります。でも「動画のたびに手録りで喋って録音して」という作業、正直続かないんですよ。

テキストを書き込んで音声を出す、という流れにしておけば、動画編集ソフトに音声を貼るだけで完成する。ナレーターを雇わなくていいし、同じ声だから統一感もある。僕もこれ200万溶かした実験期間のうちに試してみて、最初は「ほんまにこれ僕の声か?」ってビビりました。実際に動画に入れると違和感がほぼない。

10分で始める手順

1. アカウントを作る
elevenlabs.ioから無料アカウントを作れます。カード不要で試せます。
2. 録音する(Instant Cloningの場合)
雑音の少ない場所で、1分ほど声を録音します。スマホのボイスメモで十分。内容はなんでもよくて、本人の声が入った音源があればいい。
3. My Voicesにアップロード
ダッシュボードから「Voices」→「Add a new voice」→「Instant Voice Cloning」でアップロード。声に名前をつけて保存します。
4. テキストを入れて生成
「Text to Speech」のエリアに読み上げさせたいテキストを入れて、登録した声を選択して「Generate」を押すだけ。数秒で音声ファイルが出てきます。
5. 感情タグを使う(任意)
Eleven v3では原稿の中に [excited] とか [whispers] って書き込むと、その箇所だけトーンが変わります。「ここは穏やかに」「ここは元気よく」の調整がテキストで済む。

やってみて気づいたやらかしポイント

正直に書きます。

録音環境が悪いとクローンの質がガタ落ち

エアコンの音、外の車の音、冷蔵庫のノイズが入ったまま録音すると、それが「その声の特徴」として学習されます。なので出来上がったクローンが「なんか雑音混じりの声」になる。

対策はシンプルで、静かな部屋でスマホをなるべく口に近づけて録音するだけです。スタジオに行く必要は全くないんですが、録音場所だけはちゃんと選んだ方がいいと思います。

感情過多な原稿を入れると不自然になる

「!!!素晴らしい!!!」みたいな感情を盛り込みすぎた原稿を入れると、AIが解釈しきれなくて微妙なアクセントになることがあります。普通に話す時と同じくらいのテンション感で書いた原稿の方が、仕上がりが自然です。

長文を一気に入れると区切りがおかしくなる

長い文章を一気に入れると、どこで区切るかをAIが判断するんですが、意図しないところで間が入ることがあります。感覚的には1〜3文ずつ分けて生成して、音声ファイルを繋ぎ合わせる方がコントロールしやすいと思います。

料金はどうなってる?

2026年5月時点で確認できた情報を書きます(プランは変わることがあるので、公式を最終確認してください)。

無料プランは月1万字程度の生成ができます。「ちょっと試してみたい」段階には十分な量です。ただ、商用利用は有料プランから。

有料プランはStarterが月5ドル程度、Creatorが月22ドル程度というラインナップがある(研究レポート参照時点の目安)。Eleven v3は従来モデルよりクレジット消費が多い傾向があるので、実際に使う量によってプランを選ぶのがいいと思います。

Voice Cloningが商用で使える条件は、自分の声または使用許可を得た声に限ります。他人の声を無断でクローンするのはNGで、これは利用規約にも明記されてるので一応触れておきます。

使う/使わない の判断基準

向いてると思うのは、「同じ原稿を繰り返し音声化したい」「統一感のある声でコンテンツを作りたい」場面。館内案内の更新、動画ナレーションの量産、受付の自動音声案内はハマります。

逆に、お客さんとの電話対応やイベントのMCみたいに「その場の空気が大事」な場面は向かないと思います。生の声じゃないと伝わらないものはあるので、そこはElevenLabsに置き換えようとしない方がいい気がします。

まず1分録音してみてほしい

難しいことは何もなくて、最初の一歩は「静かな部屋で1分声を録音する」だけです。

無料枠で声のクローンが作れて、試しに何文か読み上げさせると「あ、これ使えそう」「ちょっと違う」の判断ができます。プロのナレーターに頼むかどうかの判断も、一回実際に触ってみてからの方がいいと思う。

宮古島でこういうツールを使う人がもっと増えたら嬉しいんですよね。一緒にやっていきましょう。

音声AI以外にも「音楽を作りたい」ならお店のテーマソング、SUNOで作ってみた、「写真1枚を動画にしたい」なら写真1枚から動画、Runway/Lumaで動かす、どのAIで何ができるかをざっと知りたいならやりたいこと逆引き:このAIならこれができる50連発と合わせて見てもらえると、音・動画まわりのAI活用が一気に整理されると思います。

「試してみたけどうまくいかない」「うちの業種ではどう使えばいいか相談したい」という場合は、ONEstaに気軽に連絡してみてください。

ONEstaへのお問い合わせはこちら