Search in @shimadah

SHIMADA Hirofumi shimada@mstdn.maud.io

古い実装であるが、そこそこの精度がでている

SHIMADA Hirofumi shimada@mstdn.maud.io

旧型エンジンANYAの手法

SHIMADA Hirofumi shimada@mstdn.maud.io

いまどきの生成AI手法をつかってかな漢字変換ができないか?ということで

SHIMADA Hirofumi shimada@mstdn.maud.io

箱根合宿で発表したかったが皆よいつぶれたので(一同笑い)

SHIMADA Hirofumi shimada@mstdn.maud.io

最後に鹿さん。LLMでかな感じ変換を実装している件。

SHIMADA Hirofumi shimada@mstdn.maud.io

というわけでできました:huggingfaceに公開しています

SHIMADA Hirofumi shimada@mstdn.maud.io

データを作る:openGameArtのCC0英語ボイスを調達し、バッチ生成して...

SHIMADA Hirofumi shimada@mstdn.maud.io

というわけでパッチ当てて、Quadro RTX5000で動くモードを追加した。

SHIMADA Hirofumi shimada@mstdn.maud.io

調節雑ハック:読めないカタカタパターンをフィルタする。滑舌があやしいが破綻するよりはまし。

SHIMADA Hirofumi shimada@mstdn.maud.io

いろいろ考え試した:バックエンドをpyopenjtalkにする?espeak-ngをメンテする?後処理で修正する?

SHIMADA Hirofumi shimada@mstdn.maud.io

なぜ破綻するのか:音素化バックエンドが espeak-ngだが、日本語サポートが不完全

SHIMADA Hirofumi shimada@mstdn.maud.io

意地悪な内容のコーパスだが、テストデータとしてはきわめて正しい

SHIMADA Hirofumi shimada@mstdn.maud.io

ただ、ダメでした。半分くらいの文章で出力が破綻する。

SHIMADA Hirofumi shimada@mstdn.maud.io

ITAコーパスをZonosに読ませましょう

SHIMADA Hirofumi shimada@mstdn.maud.io

Style-Bert-VITS2 : 最近人気の日本語TTS。これをZonosに作らせればいいやんということで

SHIMADA Hirofumi shimada@mstdn.maud.io

いいことばかりではないが、それだけでは惜しいクローン性能をもっている。

SHIMADA Hirofumi shimada@mstdn.maud.io

Zonos:いわゆるワンショットTTS。新しく出たもの。同種よちかなり高いクローン性能。

SHIMADA Hirofumi shimada@mstdn.maud.io

最近はAI関係でよく遊んでいます。

SHIMADA Hirofumi shimada@mstdn.maud.io

次は飛び入りのzgockさん。自力でTTS用モデルを作った話。

SHIMADA Hirofumi shimada@mstdn.maud.io

いいところまでいっているけど不安定