The TV program time table #6: regalized program name

あべアニで番組開始の通知をする際「のんのんびより 開始1分前です」的な読み上げを行わせることができる。PhoneticNews に引き続き、この読み上げは voicetext を利用している。ただまあ仕方ないことだとは思うが、たまに正しく読み上げないことがある。忍ペンまん丸をしのぶぺんまんまるなどと読み上げたりする。これをなんとかできないだろうか。

アニメ作品のデータベースとしては animedb というプロジェクトがあり、その中で作品名のふりがなも管理されている。これを利用できるかもしれない。

ただ、

  • ドキュメントにも記載されているが若干表記の揺れが残っている。たとえば鷹の爪で grep すると

    $ grep "鷹の爪" google-ime-dict.txt
    ザフロッグマンショーヒミツケッシャタカノツメ THE FROGMAN SHOW「秘密結社鷹の爪」 固有名詞
    ヒミツケッシャタカノツメザムービーソウトウハニドシヌ 秘密結社 鷹の爪 THE MOVIE ~総統は二度死ぬ~ 固有名詞
    ヒミツケッシャタカノツメザムービーツーワタシヲアイシタクロウーロンチャ 秘密結社 鷹の爪 THE MOVIEⅡ ~私を愛した黒烏龍茶~ 固有名詞
    ヒミツケッシャタカノツメカウントダウン 秘密結社鷹の爪カウントダウン 固有名詞
    ヒミツケッシャタカノツメ 秘密結社鷹の爪 固有名詞
    ヒミツケッシャタカノツメザムービースリータカノツメジェイピーハエイエンニ 秘密結社 鷹の爪 THE MOVIE 3 http://鷹の爪.jpは永遠に 固有名詞
    ヒミツケッシャタカノツメザムービーフォーカスベルスキーヲモツオトコ 秘密結社鷹の爪 THE MOVIE 4 カスベルスキーを持つ男 固有名詞
    タカノツメネオ 鷹の爪 NEO 固有名詞
    ヒミツケッシャタカノツメジェーピー 秘密結社鷹の爪.jp 固有名詞
    タカノツメマックス 鷹の爪 MAX 固有名詞
    タカノツメゴーウツクシキエリエールショウシュウプラス 鷹の爪GO 美しきエリエール消臭プラス 固有名詞
    ヒミツケッシャタカノツメドットジェイピーブルーレイボックスジョウカンカンゼンシンサクエイゾウ 秘密結社 鷹の爪.jp Blu-ray BOX上巻[完全新作映像] 固有名詞
    シネマトラベルタカノツメタカノツメダンシネマトラベルヘイクノマキ シネマ・トラベル × 鷹の爪 鷹の爪団! シネマ・トラベルへ行くの巻! 固有名詞
    ヒミツケッシャタカノツメドゥー 秘密結社鷹の爪 DO 固有名詞

    などと「秘密結社」の有無、あるいは「秘密結社」に続いて空白が入っているかなどが揺れている。それともそれぞれの作品で正式名称の表記が揺れているのが正確な状態なんだろうか? よく知らない
  • 上記の例で Blu-ray BOX 上巻云々が含まれているものがあるがこれは作品名なのか? 製品名ではないのか?
  • タイトルに含まれる空白がよみがなでは省略されているが、これをそのまま読み上げさせると不自然なアクセントになってしまう。できればよみがなでも空白は維持してほしい。Google 日本語入力用の辞書ファイルなのであえてそうなっているのかと思ったら元データである animedb.yml でも同一なのでそういうわけでもないようだ

というわけで、作品名の正規化に用いるには若干難しいかもしれない。しかし膨大なデータなのは確かなので何かに利用したいなあ。

Leave a Reply

Your email address will not be published. Required fields are marked *