ElevenLabsで日本語ナレーション生成

にっしーですよ〜。1月の宮古島、最近ちょっと肌寒い日が続いてて、夜になると上着がいる気温です。「南の島でもこんなに冷えるんだ」って毎年同じ感想になっちゃうんだけど、ここ数日コーヒーが進む進む。

そのコーヒー飲みながら今日はElevenLabsの話を書いていきます。

「自分の声を複製する」って、もうSFじゃないんですよね

少し前に、宮古島でゲストハウスを経営してる知人と話してたんですよ。「館内案内の音声を作りたいんだけど、プロのナレーターに頼むのは予算的にきつい」って言ってた。

「じゃあElevenLabsで声を録音して作れるよ」って話したら、「え、それって本当に自分の声になるの？」ってなって。

なんでこんな反応になるかというと、今まで「音声合成」って聞くと、あのいかにもな機械音声のイメージがあるじゃないですか。でもElevenLabsが2025年6月にリリースしたEleven v3という最新モデルは、もうそのレベルから完全に抜け出してる気がします。

1分くらいの音声を録音して登録するだけで、そのクローン化した声でAIが原稿を読み上げてくれる。しかも日本語で、自然なイントネーションで。

ElevenLabsって何ができるサービスなの？

ElevenLabsはアメリカのスタートアップで、音声生成に特化したAIサービスです。

テキスト読み上げ（Text to Speech）: 文章を入力したら声に変換してくれる。声の種類・感情・スピードも調整できます。
Voice Cloning（声のクローン）: 自分の声または許可を得た声を録音して登録すると、その声で任意のテキストを読み上げさせられます。Instant Cloningなら1分程度の音声1本で登録できます。
Eleven v3（最新モデル）: 2025年6月にアルファ版がリリースされて、いまはPublic APIでも使えます。70以上の言語に対応していて、日本語も明記されてる。感情タグ（[excited]とか[whispers]みたいなやつ）を原稿に書き込むと、その箇所だけ声のトーンを変えられる。複数話者の掛け合いを生成するDialogue Modeもあります。

宮古島の事業者、どんな場面で使える？

「で、実際うちの仕事でどう使うの？」という話を具体的に3つ書きます。

観光宿・ゲストハウスの館内案内

チェックイン後に流す「ゴミの出し方」「Wi-Fiのパスワード」「近くのコンビニの場所」みたいな案内、文字だけのペーパーじゃなくて音声で流せたら一気に伝わり方が変わります。

オーナー自身の声でクローンを作れば、外国語スタッフがいなくても英語版・中国語版の案内を作れる可能性もある（Eleven v3は多言語対応）。「声はオーナーの声だけど言語が違う」というのはちょっと不思議な体験なんですが、実用的には全然ありだと思うんですよね。

僕もこれウチの事業者向けのデモで試したことがあって、宮古島の宿のオーナーに聴かせたら「え、これ自分の声？」ってなってた。そういうインパクトがある。

飲食店のおすすめメニュー音声

レジ横にタブレットを置いて、「今日のおすすめ」を音声で流す。スタッフが毎日口頭で案内するのって、忙しい時間帯だとどうしても抜ける。録音しておいた声があれば一定のクオリティを保てます。

メニュー変更があっても、テキストを書き換えて音声を再生成するだけで更新できる。プロのナレーターに毎回頼むコストを考えると、かなり違うと思います。

ショート動画のナレーション

InstagramリールやTikTokで宮古島の観光スポットを紹介する動画、ナレーションが入るだけで一段上の印象になります。でも「動画のたびに手録りで喋って録音して」という作業、正直続かないんですよ。

テキストを書き込んで音声を出す、という流れにしておけば、動画編集ソフトに音声を貼るだけで完成する。ナレーターを雇わなくていいし、同じ声だから統一感もある。僕もこれ200万溶かした実験期間のうちに試してみて、最初は「ほんまにこれ僕の声か？」ってビビりました。実際に動画に入れると違和感がほぼない。

10分で始める手順

1. アカウントを作る: elevenlabs.ioから無料アカウントを作れます。カード不要で試せます。
2. 録音する（Instant Cloningの場合）: 雑音の少ない場所で、1分ほど声を録音します。スマホのボイスメモで十分。内容はなんでもよくて、本人の声が入った音源があればいい。
3. My Voicesにアップロード: ダッシュボードから「Voices」→「Add a new voice」→「Instant Voice Cloning」でアップロード。声に名前をつけて保存します。
4. テキストを入れて生成: 「Text to Speech」のエリアに読み上げさせたいテキストを入れて、登録した声を選択して「Generate」を押すだけ。数秒で音声ファイルが出てきます。
5. 感情タグを使う（任意）: Eleven v3では原稿の中に [excited] とか [whispers] って書き込むと、その箇所だけトーンが変わります。「ここは穏やかに」「ここは元気よく」の調整がテキストで済む。

やってみて気づいたやらかしポイント

正直に書きます。

録音環境が悪いとクローンの質がガタ落ち

エアコンの音、外の車の音、冷蔵庫のノイズが入ったまま録音すると、それが「その声の特徴」として学習されます。なので出来上がったクローンが「なんか雑音混じりの声」になる。

対策はシンプルで、静かな部屋でスマホをなるべく口に近づけて録音するだけです。スタジオに行く必要は全くないんですが、録音場所だけはちゃんと選んだ方がいいと思います。

感情過多な原稿を入れると不自然になる

「！！！素晴らしい！！！」みたいな感情を盛り込みすぎた原稿を入れると、AIが解釈しきれなくて微妙なアクセントになることがあります。普通に話す時と同じくらいのテンション感で書いた原稿の方が、仕上がりが自然です。

長文を一気に入れると区切りがおかしくなる

長い文章を一気に入れると、どこで区切るかをAIが判断するんですが、意図しないところで間が入ることがあります。感覚的には1〜3文ずつ分けて生成して、音声ファイルを繋ぎ合わせる方がコントロールしやすいと思います。

料金はどうなってる？

2026年5月時点で確認できた情報を書きます（プランは変わることがあるので、公式を最終確認してください）。

無料プランは月1万字程度の生成ができます。「ちょっと試してみたい」段階には十分な量です。ただ、商用利用は有料プランから。

有料プランはStarterが月5ドル程度、Creatorが月22ドル程度というラインナップがある（研究レポート参照時点の目安）。Eleven v3は従来モデルよりクレジット消費が多い傾向があるので、実際に使う量によってプランを選ぶのがいいと思います。

Voice Cloningが商用で使える条件は、自分の声または使用許可を得た声に限ります。他人の声を無断でクローンするのはNGで、これは利用規約にも明記されてるので一応触れておきます。

使う／使わないの判断基準

向いてると思うのは、「同じ原稿を繰り返し音声化したい」「統一感のある声でコンテンツを作りたい」場面。館内案内の更新、動画ナレーションの量産、受付の自動音声案内はハマります。

逆に、お客さんとの電話対応やイベントのMCみたいに「その場の空気が大事」な場面は向かないと思います。生の声じゃないと伝わらないものはあるので、そこはElevenLabsに置き換えようとしない方がいい気がします。

まず1分録音してみてほしい

難しいことは何もなくて、最初の一歩は「静かな部屋で1分声を録音する」だけです。

無料枠で声のクローンが作れて、試しに何文か読み上げさせると「あ、これ使えそう」「ちょっと違う」の判断ができます。プロのナレーターに頼むかどうかの判断も、一回実際に触ってみてからの方がいいと思う。

宮古島でこういうツールを使う人がもっと増えたら嬉しいんですよね。一緒にやっていきましょう。

音声AI以外にも「音楽を作りたい」ならお店のテーマソング、SUNOで作ってみた、「写真1枚を動画にしたい」なら写真1枚から動画、Runway/Lumaで動かす、どのAIで何ができるかをざっと知りたいならやりたいこと逆引き：このAIならこれができる50連発と合わせて見てもらえると、音・動画まわりのAI活用が一気に整理されると思います。

「試してみたけどうまくいかない」「うちの業種ではどう使えばいいか相談したい」という場合は、ONEstaに気軽に連絡してみてください。

ONEstaへのお問い合わせはこちら

ElevenLabsで日本語ナレーション。動画やCMの声入れがAIで5分

「自分の声を複製する」って、もうSFじゃないんですよね

ElevenLabsって何ができるサービスなの？

宮古島の事業者、どんな場面で使える？

観光宿・ゲストハウスの館内案内

飲食店のおすすめメニュー音声

ショート動画のナレーション

10分で始める手順

やってみて気づいたやらかしポイント

録音環境が悪いとクローンの質がガタ落ち

感情過多な原稿を入れると不自然になる

長文を一気に入れると区切りがおかしくなる

料金はどうなってる？

使う／使わないの判断基準

まず1分録音してみてほしい

私達についてABOUT US

自社メディアOWNED MEDIA

加盟団体AFFILIATED ORGANIZATIONS

「自分の声を複製する」って、もうSFじゃないんですよね

ElevenLabsって何ができるサービスなの？

宮古島の事業者、どんな場面で使える？

観光宿・ゲストハウスの館内案内

飲食店のおすすめメニュー音声

ショート動画のナレーション

10分で始める手順

やってみて気づいたやらかしポイント

録音環境が悪いとクローンの質がガタ落ち

感情過多な原稿を入れると不自然になる

長文を一気に入れると区切りがおかしくなる

料金はどうなってる？

使う／使わない の判断基準

まず1分録音してみてほしい

使う／使わないの判断基準