Pythonで
日本語処理入門

〜フリガナプログラムを作ろう〜

Takanori Suzuki

Open Source Conference Osaka 2024 / 2024 Jan 27

アジェンダ 📋

自然言語(日本語)処理とは
- 形態素解析 について
Janome でフリガナプログラム
SudachiPy でフリガナプログラム
LLM(大規模言語モデル)については 話しません

ゴール 🥅

自然言語処理がどういうものか知る
JanomeまたはSudachiPyを使った日本語処理ができそう

Photos 📷 Tweets 🐦 👍

#osc24os / @takanory

Slides / スライド 💻

slides.takanory.net

takanory slides

Who am I? / お前誰よ 👤

Takanori Suzuki / 鈴木たかのり ( @takanory)
PyCon JP Association 代表理事
BeProud 取締役 / Python Climber
Python Boot Camp 講師、Python mini Hack-a-thon 主催、Pythonボルダリング部部長

takanory profile kuro-chan and kuri-chan

PyCon JP Association 🐍

日本国内のPythonユーザのために、Pythonの普及及び開発支援を行うために、継続的にカンファレンス(PyCon)を開くことを目的とした 非営利組織

www.pycon.jp

pycon jp logo

PyCon JP Associationの主な活動

PyCon JP: 年1の大規模カンファレンス
Python Boot Camp: 初心者向けチュートリアル
Pythonコミュニティのサポート
PyCon JP TV: YouTubeライブ

PyCon JP Association ブース

PyCon JP 2024 主催メンバー募集
Python Boot Camp の紹介
PyLadies Caravan の紹介
Python、コミュニティ相談
Pythonステッカー配布

BeProud Inc. 🏢

BeProud: Pythonシステム開発、コンサル
connpass: IT勉強会支援プラットフォーム
PyQ: Python独学プラットフォーム
TRACERY: システム開発ドキュメントサービス

BeProud logos

自然言語処理とは 🗣️

NLP(Natural Language Processing)
自然言語(日本語、英語等)は厳格な構文がない
- Pythonは言語仕様があるので機械的に処理がしやすい
NLP(自然言語処理)用のライブラリが必要

NLPライブラリ

NLTK: Natural Language Toolkit
Gensim
spaCy
Pytorch-NLP
そのままでは 日本語を処理できない ものも
参考: Awesome Python

日本語の特徴

単語が スペースで区切られていない
- 「すもももももももものうち」
文脈で 単語の分かれ目 が違う
- 「東京都と神奈川の小京都」
一つの漢字に 複数の読み方
- 「一月一日は元日で昨日は大晦日」

単語に分割して情報を取得

日本語を単語に分割する
- 「すもも/も/もも/も/もも/の/うち」
- 「東京/都/と/神奈川/の/小/京都」
読みの情報を取得する
- 「いちがつ/ついたち/は/がんじつ…」
→ 形態素解析

形態素解析とは 💬

自然言語(日本語)を 形態素 に分割
- 形態素=単語などの要素
品詞などの情報を付加
日本語の辞書が必要

品詞、原形、読み

形態素解析が付加する主な情報
「とても美味しいビールを飲みたい」
- 品詞: とても(副詞)美味しい(形容詞)ビール(名詞)…
- 原形: 飲み→飲む
- 読み: 美味しい→おいしい、飲み→のみ

形態素解析の用途

検索エンジンの検索インデックス
文章の分類
単語の数で文章の特徴を表す(Bag of Words)
重要な単語に重み付けする(TF-IDF)

形態素解析を利用したプログラム

文章にフリガナを振るプログラムを作る

形態素解析を利用したプログラム

実行イメージ(HTMLの ruby タグを使用)

$ ./furigana.py "美味しい麦酒を飲もう" > result.html && cat result.html
<ruby><rb>美味</rb><rt>おい</rt></ruby>しい
<ruby><rb>麦酒</rb><rt>びーる</rt></ruby>を
<ruby><rb>飲</rb><rt>の</rt></ruby>もう

result

Janome で形態素解析 👀

Janome とは

URL: mocobeta.github.io/janome/
Pure Python で書かれた 辞書内包 の形態素解析器
- OSに依存しない
- すぐ使い始められる

Janomeをインストール

pip install janome でインストール

$ python3.11 -m venv env  # venvモジュールで仮想環境作成
$ . env/bin/activate
(env) $ pip install janome
...
Successfully installed janome-0.5.0

Janomeで形態素解析

janome コマンドで形態素解析

(env) $ echo "美味しい麦酒を飲もう" | janome
美味しい	形容詞,自立,*,*,形容詞・イ段,基本形,美味しい,オイシイ,オイシイ
麦酒	名詞,一般,*,*,*,*,麦酒,ビール,ビール
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
飲も	動詞,自立,*,*,五段・マ行,未然ウ接続,飲む,ノモ,ノモ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ

形態素解析の結果

「表層形品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音」の形式

美味しい	形容詞,自立,*,*,形容詞・イ段,基本形,美味しい,オイシイ,オイシイ
麦酒	名詞,一般,*,*,*,*,麦酒,ビール,ビール
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
飲も	動詞,自立,*,*,五段・マ行,未然ウ接続,飲む,ノモ,ノモ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ

プログラムで形態素解析

(env) $ python
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()  # トークナイザーを生成
>>> for token in t.tokenize("美味しい麦酒を飲もう"):
...     print(token)
... 
美味しい	形容詞,自立,*,*,形容詞・イ段,基本形,美味しい,オイシイ,オイシイ
麦酒	名詞,一般,*,*,*,*,麦酒,ビール,ビール
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
飲も	動詞,自立,*,*,五段・マ行,未然ウ接続,飲む,ノモ,ノモ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ

Janomeで分かち書き

tokenize() メソッドで分かち書きモード（wakati=True）を指定

>>> tokens = t.tokenize("美味しい麦酒を飲もう", wakati=True)
>>> tokens
<generator object Tokenizer.__tokenize_stream at 0x10055e9d0>
>>> list(tokens)
['美味しい', '麦酒', 'を', '飲も', 'う']
>>> list(t.tokenize("すもももももももものうち", wakati=True))
['すもも', 'も', 'もも', 'も', 'もも', 'の', 'うち']

読みなどの情報を取得

>>> tokens = list(t.tokenize("飲もう"))
>>> tokens[0].surface  # 表層形
'飲も'
>>> tokens[0].part_of_speech  # 品詞情報
'動詞,自立,*,*'
>>> tokens[0].base_form  # 原形
'飲む'
>>> tokens[0].reading  # 読み
'ノモ'
>>> tokens[0].phonetic  # 発音
'ノモ'
>>> tokens = list(t.tokenize("縮む"))  # 読みと発音が異なる例
>>> tokens[0].reading, tokens[0].phonetic
('チヂム', 'チジム')

Janomeでフリガナ 🖊️

形態素(トークン)の 表層形 と読みを取得

>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize("美味しい麦酒を飲もう"):
...     token.surface, token.reading  # 表層形, 読み
... 
('美味しい', 'オイシイ')
('麦酒', 'ビール')
('を', 'ヲ')
('飲も', 'ノモ')
('う', 'ウ')

Janomeでフリガナ 🖊️

surface (表層形)と reading (読み)を使用

import sys
from janome.tokenizer import Tokenizer

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    t = Tokenizer()
    result = ""
    for token in t.tokenize(s):
        result += (f"<ruby><rb>{token.surface}</rb>"
                   f"<rt>{token.reading}</rt></ruby>")
    return result

if __name__ == "__main__":
    print(furigana(sys.argv[1]))

Janomeでフリガナ 🖊️

すべての文字にフリガナが振られている

(env) $ python furigana1.py "美味しい麦酒を飲もう"
<ruby><rb>美味しい</rb><rt>オイシイ</rt></ruby><ruby><rb>麦酒</rb><rt>ビール</rt></ruby><ruby><rb>を</rb><rt>ヲ</rt></ruby><ruby><rb>飲も</rb><rt>ノモ</rt></ruby><ruby><rb>う</rb><rt>ウ</rt></ruby>

実行結果1

フリガナをひらがなにする

jaconvを使用して ひらがなに変換

(env) $ pip install jaconv

import sys
from jaconv import kata2hira  # カタカナをひらがなに変換
from janome.tokenizer import Tokenizer

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    t = Tokenizer()
    result = ""
    for token in t.tokenize(s):
        result += (f"<ruby><rb>{token.surface}</rb>"
                   f"<rt>{kata2hira(token.reading)}</rt></ruby>")
    return result

フリガナをひらがなにする

フリガナが ひらがな になった

(env) $ python furigana2.py "美味しい麦酒を飲もう"
<ruby><rb>美味しい</rb><rt>おいしい</rt></ruby><ruby><rb>麦酒</rb><rt>びーる</rt></ruby><ruby><rb>を</rb><rt>を</rt></ruby><ruby><rb>飲も</rb><rt>のも</rt></ruby><ruby><rb>う</rb><rt>う</rt></ruby>

フリガナがひらがなに

漢字が含まれる場合のみを対象に

surface に 漢字が含まれる 場合のみ対象
漢字を表す正規表現を定義
- 参考: note.nkmk.me

import re

KANJI = r"[\u3005-\u3007\u4E00-\u9FFF]"  # 漢字を表す正規表現

漢字が含まれる場合のみを対象に

正規表現で漢字を含むかをチェック

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    t = Tokenizer()
    result = ""
    for token in t.tokenize(s):
        if re.search(KANJI, token.surface):  # 漢字か？
            result += (f"<ruby><rb>{token.surface}</rb>"
                       f"<rt>{kata2hira(token.reading)}</rt></ruby>")
        else:
            result += token.surface
    return result

漢字が含まれる場合のみを対象に

「を」「う」の フリガナが消えた

(env) $ python furigana3.py "美味しい麦酒を飲もう"
<ruby><rb>美味しい</rb><rt>おいしい</rt></ruby><ruby><rb>麦酒</rb><rt>びーる</rt></ruby>を<ruby><rb>飲も</rb><rt>のも</rt></ruby>う

「を」「う」のフリガナが消えた

送りがなに対応

「美味しい」の「美味」のみにフリガナ
ruby() 関数を作成し 送りがな処理 を追加

KANA = r"[\u3041-\u309F]+$"  # 末尾のひらがなを表す正規表現

def ruby(kanji: str, kana: str) -> str:
    """1つの単語にフリガナを振る"""
    hira = kata2hira(kana)
    okuri = ""
    if m := re.search(KANA, kanji):
        okuri = m[0]
        kanji = kanji.removesuffix(okuri)  # 送り仮名を削除
        hira = hira.removesuffix(okuri)  # 送り仮名を削除
    return f"<ruby><rb>{kanji}</rb><rt>{hira}</rt></ruby>{okuri}"

送りがなに対応

ruby() 関数を呼び出すように変更

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    t = Tokenizer()
    result = ""
    for token in t.tokenize(s):
        if re.search(KANJI, token.surface):  # 漢字か？
            result += ruby(token.surface, token.reading)
        else:
            result += token.surface
    return result

送りがなに対応

送りがな が処理できるようになった！

(env) $ python furigana4.py "美味しい麦酒を飲もう"
<ruby><rb>美味</rb><rt>おい</rt></ruby>しい<ruby><rb>麦酒</rb><rt>びーる</rt></ruby>を<ruby><rb>飲</rb><rt>の</rt></ruby>もう

送りがなに対応

だがまだ完璧ではない

辞書をカスタマイズ 📕

想定したフリガナにならない

新出(しんしゅつ)漢字
後付け(あとづけ)

(env) $ echo "新出漢字、後付け" | janome
新出	名詞,固有名詞,人名,姓,*,*,新出,ニイデ,ニーデ
漢字	名詞,一般,*,*,*,*,漢字,カンジ,カンジ
、	記号,読点,*,*,*,*,、,、,、
後	接頭詞,名詞接続,*,*,*,*,後,コウ,コー
付け	名詞,一般,*,*,*,*,付け,ツケ,ツケ

ユーザー定義辞書を使用

2種類の辞書フォーマット
ここでは「簡略辞書フォーマット」を選択
参考: ユーザー定義辞書を使う

ユーザー定義辞書を使用

ユーザー定義辞書(janome_dict.csv)

新出,カスタム名詞,シンシュツ
後付け,カスタム名詞,アトヅケ

Tokenizer() の引数に辞書を指定

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    t = Tokenizer("janome_dict.csv", udic_type="simpledic")
    result = ""

ユーザー定義辞書を使用

ユーザー定義辞書 で結果をカスタマイズ

(env) $ python furigana5.py "新出漢字を後付けする"    
<ruby><rb>新出</rb><rt>しんしゅつ</rt></ruby><ruby><rb>漢字</rb><rt>かんじ</rt></ruby>を<ruby><rb>後付</rb><rt>あとづ</rt></ruby>けする

ユーザー定義辞書を利用

Janomeの辞書の問題点

mecab-ipadic-2.7.0 ベースの辞書
「後付け」など登録されていない語が多い
新しい単語が入っていない
- よりよい辞書を持つライブラリへ

SudachiPy で形態素解析 🍊

SudachiPyとは

URL: github.com/WorksApplications/sudachi.rs
Rust 製の形態素解析ライブラリ
単語数の異なる 3種類の辞書
処理速度が速い

SudachiPyをインストール

辞書は small、core、full の3種類
ここでは core をインストール

(env) $ pip install sudachidict_core sudachipy
...
Successfully installed sudachidict_core-20230927 sudachipy-0.6.8

SudachiPyで形態素解析

sudachipy コマンドで形態素解析
読みを確認するには -a オプション

(env) $ echo "美味しい麦酒を飲もう" | sudachipy
美味しい	形容詞,一般,*,*,形容詞,連体形-一般	美味しい
麦酒	名詞,普通名詞,一般,*,*,*	麦酒
を	助詞,格助詞,*,*,*,*	を
飲もう	動詞,一般,*,*,五段-マ行,意志推量形	飲む
EOS
(env) $ echo "美味しい麦酒を飲もう" | sudachipy -a 
美味しい	形容詞,一般,*,*,形容詞,連体形-一般	美味しい	美味しい	オイシイ	0	[6880]
麦酒	名詞,普通名詞,一般,*,*,*	麦酒	麦酒	ビール	0	[649]
を	助詞,格助詞,*,*,*,*	を	を	ヲ	0	[]
飲もう	動詞,一般,*,*,五段-マ行,意志推量形	飲む	飲む	ノモウ	0	[]
EOS

プログラムで形態素解析

(env) $  python
>>> from sudachipy import Dictionary
>>> tokenizer = Dictionary().create()
>>> for token in tokenizer.tokenize("美味しい麦酒を飲もう"):
...     print(token)
... 
美味しい
麦酒
を
飲もう

読みなどの任意の情報を取得

>>> tokens = list(tokenizer.tokenize("飲もう"))
>>> tokens[0].surface()  # 表層形
'飲もう'
>>> tokens[0].part_of_speech()  # 品詞情報
('動詞', '一般', '*', '*', '五段-マ行', '意志推量形')
>>> tokens[0].reading_form()  # 読み
'ノモウ'
>>> tokens[0].dictionary_form()  # 原形
'飲む'

SudachiPyで分かち書き

表層系(surface())のリストを作成すれば分かち書きに

(env) $  python
>>> from sudachipy import Dictionary
>>> tokenizer = Dictionary().create()
>>> tokens = tokenizer.tokenize("美味しい麦酒を飲もう")
>>> [token.surface() for token in tokens]
['美味しい', '麦酒', 'を', '飲もう']

SudachiPyで分かち書き

3種類の分割モード(Cがデフォルト)

>>> from sudachipy import Dictionary, SplitMode
>>> tokenizer = Dictionary().create()
>>> for mode in SplitMode.A, SplitMode.B, SplitMode.C:
...     [t.surface() for t in tokenizer.tokenize(s, mode)]
... 
['高輪', 'ゲートウェイ', '駅', 'から', '国会', '議事', '堂', '前', '駅', 'に', '向かう']
['高輪', 'ゲートウェイ', '駅', 'から', '国会議事堂前', '駅', 'に', '向かう']
['高輪ゲートウェイ駅', 'から', '国会議事堂前駅', 'に', '向かう']

単語の正規化にも対応

normalized_form() で単語を正規化
表記揺れ対策に使えるかも

>>> from sudachipy import Dictionary, SplitMode
>>> tokenizer = Dictionary().create()
>>> for word in ("Vacation", "ヴァイオリン", "亜細亜",
...              "シュミレーション", "國", "たとえば"):
...     tokenizer.tokenize(word, mode)[0].normalized_form()
...
'バケーション'
'バイオリン'
'アジア'
'シミュレーション'
'国'
'例えば'

SudachiPyでフリガナ 🖊️

JanomeからSudachiPyに書き換え

from sudachipy import dictionary

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    t = dictionary.Dictionary().create()
    result = ""
    for token in t.tokenize(s):
        surface = token.surface()
        if re.search(KANJI, surface):  # 漢字か？
            result += ruby(surface, token.reading_form())
        else:
            result += surface
    return result

SudachiPyでフリガナ 🖊️

同じ結果が得られる
新出漢字、後付けも デフォルト辞書 で対応

(env) $ python furigana6.py "美味しい麦酒を飲もう。新出漢字を後付けする"

SudachiPyでフリガナ

辞書を切り替え

full の辞書は 雑多な固有名詞 が増えている
-s オプションで 辞書の切り替え が可能

(env) $ pip install sudachidict_full
(env) $ echo "僕のヒーローアカデミア" | sudachipy
僕	代名詞,*,*,*,*,*	僕
の	助詞,格助詞,*,*,*,*	の
ヒーロー	名詞,普通名詞,一般,*,*,*	ヒーロー
アカデミア	名詞,普通名詞,一般,*,*,*	アカデミア
EOS
(env) $ echo "僕のヒーローアカデミア" | sudachipy -s full
僕のヒーローアカデミア	名詞,固有名詞,一般,*,*,*	僕のヒーローアカデミア
EOS

辞書を切り替え

Dictionary() に引数 dict="full" を指定

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    t = dictionary.Dictionary(dict="full").create()
    result = ""
    for token in t.tokenize(s):
        surface = token.surface()
        if re.search(KANJI, surface):  # 漢字か？
            result += ruby(surface, token.reading_form())
        else:
            result += surface
    return result

フリガナのさらなる改善 ✨

対応できていないパターン

[漢字]+[ひらがな]+ のパターンのみに対応
途中にひらがながあると対応できない
- 例: 追い出す、しみ込む、立ち入り禁止
カタカナ にもフリガナを振っている
- 例: アフリカ大陸、東アジア

対応できていないパターン

適切なフリガナにならない

$ python furigana7.py "追い出す、しみ込む、立ち入り禁止。アフリカ大陸と東アジア"
<ruby><rb>追い出</rb><rt>おいだ</rt></ruby>す、<ruby><rb>しみ込</rb><rt>しみこ</rt></ruby>む、<ruby><rb>立ち入り禁止</rb><rt>たちいりきんし</rt></ruby>。<ruby><rb>アフリカ大陸</rb><rt>あふりかたいりく</rt></ruby>と<ruby><rb>東アジア</rb><rt>ひがしあじあ</rt></ruby>

対応できていないパターン

doctestを追加

doctestでdocstringに対話的なテストを記述

def ruby(kanji: str, kana: str) -> str:
    """1つの単語にフリガナを振る
    >>> ruby("麦酒", "びーる")
    '<ruby><rb>麦酒</rb><rt>びーる</rt></ruby>'
    >>> ruby("飲もう", "のもう")
    '<ruby><rb>飲</rb><rt>の</rt></ruby>もう'
    >>> ruby("追い出す", "おいだす")
    '<ruby><rb>追</rb><rt>お</rt></ruby>い<ruby><rb>出</rb><rt>だ</rt></ruby>す'
    >>> ruby("しみ込む", "しみこむ")
    'しみ<ruby><rb>込</rb><rt>こ</rt></ruby>む'
    >>> ruby("立ち入り禁止", "たちいりきんし")
    '<ruby><rb>立</rb><rt>た</rt></ruby>ち<ruby><rb>入</rb><rt>い</rt></ruby>り<ruby><rb>禁止</rb><rt>きんし</rt></ruby>'
    >>> ruby("東アジア", "ひがしあじあ")
    '<ruby><rb>東</rb><rt>ひがし</rt></ruby>アジア'
    """

doctestを実行

python -m doctest でテストを実行
4/6件のテストが失敗

(env) $ python -m doctest furigana8.py
**********************************************************************
File "/Users/takanori/.../furigana8.py", line 16, in furigana8.ruby
Failed example:
    ruby("追い出す", "おいだす")
Expected:
    '<ruby><rb>追</rb><rt>お</rt></ruby>い<ruby><rb>出</rb><rt>だ</rt></ruby>す'
Got:
    '<ruby><rb>追い出</rb><rt>おいだ</rt></ruby>す'
...
1 items had failures:
   4 of   6 in furigana8.ruby

フリガナ処理を改善

ひらがなとカタカナに対応
make_ruby() 関数を追加

KANA = r"[\u3041-\u309F\u30A1-\u30FF]+"  # ひらがなとカタカナを表す正規表現

def make_ruby(kanji: str, furi: str) -> str:
    """rubyタグを生成して返す"""
    return f"<ruby><rb>{kanji}</rb><rt>{furi}</rt></ruby>"

フリガナ処理を改善

かなの前後で分割して、フリガナ処理を改善

def ruby(kanji: str, kana: str) -> str:
    hira = kata2hira(kana)
    text = ""
    while m := re.search(KANA, kanji):  # kanjiの中のすべてのかな
        okuri = m[0]
        index = hira.find(kata2hira(okuri), m.start())  # 最初のかなの位置
        furigana = hira[:index]
        hira = hira[index + len(okuri):]  # 残りのふりがな
        f_kanji, kanji = kanji.split(okuri, 1)  # kanjiを送りがなで分割
        if furigana:
            text += make_ruby(f_kanji, furigana)
        text += okuri  # 送りがなを追加
    if kanji:  # 漢字が残っている場合
        text += make_ruby(kanji, hira)
    return text

doctestと実行結果を確認

6件のテストに成功(なにも出力されない)

(env) $ python -m doctest furigana9.py
(env) $ python furigana9.py "追い出す、しみ込む、立ち入り禁止。アフリカ大陸と東アジア"
<ruby><rb>追</rb><rt>お</rt></ruby>い<ruby><rb>出</rb><rt>だ</rt></ruby>す、しみ<ruby><rb>込</rb><rt>こ</rt></ruby>む、<ruby><rb>立</rb><rt>た</rt></ruby>ち<ruby><rb>入</rb><rt>い</rt></ruby>り<ruby><rb>禁止</rb><rt>きんし</rt></ruby>。アフリカ<ruby><rb>大陸</rb><rt>たいりく</rt></ruby>と<ruby><rb>東</rb><rt>ひがし</rt></ruby>アジア

改善されたフリガナ

フリガナレベル対応 🏫

小学校で習う漢字はフリガナを振らない
別表　学年別漢字配当表：文部科学省
学年別漢字配当表 - Wikipedia

別表　学年別漢字配当表

学年別漢字配当表の HTMLを確認

<td>〜</td> の間を抜き出せば使えそう

<tr>
<th valign="top">第一学年</th>
<td>一　右　雨　円　王　音　下　火　花...力　林　六（80字）</td>
</tr>
<tr>
<th valign="top" scope="row">第二学年</th>
<td>引　羽　雲　園　遠　何　科　夏　家...里　理　話（160字）</td>
</tr>

学年別漢字配当表をスクレイピング

kanji_grade.py

import re
import json
from urllib import request

def main():
    """学年別漢字配当表をJSON形式で保存"""
    URL = "https://www.mext.go.jp/a_menu/shotou/new-cs/youryou/syo/koku/001.htm"
    kanji_grade = []
    with request.urlopen(URL) as f:
        for line in f:
            if m := re.match(r"<td>(.*)（\d+字）</td>", line.decode("utf-8")):
                kanji_grade.append(m[1].replace("　", ""))
    with open("kanji_grade.json", "w") as f:
        json.dump(kanji_grade, f, indent=2, ensure_ascii=False)


if __name__ == "__main__":
    main()

学年別漢字配当表を JSON で保存

上から順に小学1年生〜6年生の漢字
kanji_grade.json

[
  "一右雨円王音下火花貝学気九休玉金空月犬見五口校左三山子四糸字耳七車手十出女小上森人水正生青夕石赤千川先早草足村大男竹中虫町天田土二日入年白八百文木本名目立力林六",
  "引羽雲園遠何科夏家歌画回会海絵外角楽活間丸岩顔汽記帰弓牛魚京強教近兄形計元言原戸古午後語工公広交光考行高黄合谷国黒今才細作算止市矢姉思紙寺自時室社弱首秋週春書少場色食心新親図数西声星晴切雪船線前組走多太体台地池知茶昼長鳥朝直通弟店点電刀冬当東答頭同道読内南肉馬売買麦半番父風分聞米歩母方北毎妹万明鳴毛門夜野友用曜来里理話",
  "悪安暗医委意育員院飲運泳駅央横屋温化荷界開階寒感漢館岸起期客究急級宮球去橋業曲局銀区苦具君係軽血決研県庫湖向幸港号根祭皿仕死使始指歯詩次事持式実写者主守取酒受州拾終習集住重宿所暑助昭消商章勝乗植申身神真深進世整昔全相送想息速族他打対待代第題炭短談着注柱丁帳調追定庭笛鉄転都度投豆島湯登等動童農波配倍箱畑発反坂板皮悲美鼻筆氷表秒病品負部服福物平返勉放味命面問役薬由油有遊予羊洋葉陽様落流旅両緑礼列練路和",
  "愛案以衣位囲胃印英栄塩億加果貨課芽改械害街各覚完官管関観願希季紀喜旗器機議求泣救給挙漁共協鏡競極訓軍郡径型景芸欠結建健験固功好候航康告差菜最材昨札刷殺察参産散残士氏史司試児治辞失借種周祝順初松笑唱焼象照賞臣信成省清静席積折節説浅戦選然争倉巣束側続卒孫帯隊達単置仲貯兆腸低底停的典伝徒努灯堂働特得毒熱念敗梅博飯飛費必票標不夫付府副粉兵別辺変便包法望牧末満未脈民無約勇要養浴利陸良料量輪類令冷例歴連老労録",
  "圧移因永営衛易益液演応往桜恩可仮価河過賀快解格確額刊幹慣眼基寄規技義逆久旧居許境均禁句群経潔件券険検限現減故個護効厚耕鉱構興講混査再災妻採際在財罪雑酸賛支志枝師資飼示似識質舎謝授修述術準序招承証条状常情織職制性政勢精製税責績接設舌絶銭祖素総造像増則測属率損退貸態団断築張提程適敵統銅導徳独任燃能破犯判版比肥非備俵評貧布婦富武復複仏編弁保墓報豊防貿暴務夢迷綿輸余預容略留領",
  "異遺域宇映延沿我灰拡革閣割株干巻看簡危机揮貴疑吸供胸郷勤筋系敬警劇激穴絹権憲源厳己呼誤后孝皇紅降鋼刻穀骨困砂座済裁策冊蚕至私姿視詞誌磁射捨尺若樹収宗就衆従縦縮熟純処署諸除将傷障城蒸針仁垂推寸盛聖誠宣専泉洗染善奏窓創装層操蔵臓存尊宅担探誕段暖値宙忠著庁頂潮賃痛展討党糖届難乳認納脳派拝背肺俳班晩否批秘腹奮並陛閉片補暮宝訪亡忘棒枚幕密盟模訳郵優幼欲翌乱卵覧裏律臨朗論"
]

漢字配当表を読み込む

フリガナプログラムでJSONから読み込む

import json

def get_kanji_grade_set() -> set[str]:
    """漢字配当表の全漢字のセットを返す"""
    kanji_grade = set()
    with open("kanji_grade.json") as f:
        for s in json.load(f):
            kanji_grade.update(set(s))
    return kanji_grade

漢字が範囲内かチェック

形態素内の 全漢字 が漢字配当表に含まれるか

def is_ruby_required(surface: str, grade: set[str]) -> bool:
    """フリガナが必要かを判定する"""
    if re.search(KANJI, surface) is None:  # 漢字を含んでいるか
        return False
    kanji_set = set(re.findall(KANJI, surface))
    return not kanji_set <= grade  # 配当表外の漢字があるか

`furigana()` 関数を書き換え

def furigana(s: str) -> str:
    """文字列にフリガナを振ったHTMLを返す"""
    kanji_grade = get_kanji_grade_set()
    t = dictionary.Dictionary(dict="full").create()
    result = ""
    for token in t.tokenize(s):
        surface = token.surface()
        if is_ruby_required(surface, kanji_grade):
            result += ruby(surface, token.reading_form())
        else:
            result += surface
    return result

小学校の漢字はフリガナなしに

(env) $ python furigana10.py "祇園精舎の鐘の声、諸行無常の響あり。沙羅双樹の花の色、盛者必衰の理をあらはす。"
<ruby><rb>祇園精舎</rb><rt>ぎおんしょうじゃ</rt></ruby>の<ruby><rb>鐘</rb><rt>かね</rt></ruby>の声、諸行無常の<ruby><rb>響</rb><rt>ひびき</rt></ruby>あり。<ruby><rb>沙羅双樹</rb><rt>さらそうじゅ</rt></ruby>の花の色、<ruby><rb>盛者必衰</rb><rt>じょうしゃひっすい</rt></ruby>の理をあらはす。

中学生向けフリガナ

さらなる拡張アイデア

小学校の学年をオプションで指定
常用漢字に対応
Web API化

まとめ 📝

自然言語処理、形態素解析 の概要を知る
Janome で形態素解析、フリガナ
SudachiPy で形態素解析、フリガナ
自然言語処理 プログラムを作る流れ を知る

Thank You 🙏

slides.takanory.net

@takanory takanory takanory takanory

takanory profile kuro-chan and kuri-chan

Pythonで日本語処理 入門

アジェンダ 📋

ゴール 🥅

Photos 📷 Tweets 🐦 👍

Slides / スライド 💻

Who am I? / お前 誰よ 👤

PyCon JP Association 🐍

PyCon JP Associationの 主な活動

PyCon JP Association ブース

PyCon JP Association ブース

BeProud Inc. 🏢

自然言語処理 とは 🗣️

自然言語処理 とは 🗣️

NLPライブラリ

日本語 の特徴

単語に分割して情報を取得

形態素解析 とは 💬

形態素解析 とは 💬

品詞、原形、読み

形態素解析の用途

形態素解析を利用した プログラム

形態素解析を利用した プログラム

Janome で形態素解析 👀

Janome とは

Janomeをインストール

Janomeで形態素解析

形態素解析の結果

プログラムで形態素解析

Janomeで分かち書き

読みなどの情報を取得

Janomeで フリガナ 🖊️

Janomeで フリガナ 🖊️

Janomeで フリガナ 🖊️

Janomeで フリガナ 🖊️

フリガナを ひらがな にする

フリガナを ひらがな にする

漢字が含まれる場合のみを対象に

漢字が含まれる場合のみを対象に

漢字が含まれる場合のみを対象に

送りがなに対応

送りがなに対応

送りがなに対応

だがまだ完璧ではない

辞書 をカスタマイズ 📕

想定したフリガナにならない

ユーザー定義辞書を使用

ユーザー定義辞書を使用

ユーザー定義辞書を使用

Janomeの辞書の 問題点

SudachiPy で形態素解析 🍊

SudachiPyとは

SudachiPyをインストール

SudachiPyで形態素解析

プログラムで形態素解析

読みなどの任意の情報を取得

SudachiPyで分かち書き

SudachiPyで分かち書き

単語の正規化にも対応

SudachiPyで フリガナ 🖊️

SudachiPyで フリガナ 🖊️

SudachiPyで フリガナ 🖊️

辞書を切り替え

辞書を切り替え

フリガナのさらなる 改善 ✨

対応できていないパターン

対応できていないパターン

doctestを追加

doctestを実行

フリガナ処理を改善

フリガナ処理を改善

doctestと実行結果を確認

フリガナレベル対応 🏫

フリガナレベル対応 🏫

学年別漢字配当表の HTMLを確認

学年別漢字配当表を スクレイピング

学年別漢字配当表を JSON で保存

漢字配当表を読み込む

漢字が範囲内かチェック

furigana() 関数を書き換え

小学校の漢字はフリガナなしに

Pythonで
日本語処理入門

Who am I? / お前誰よ 👤

PyCon JP Associationの主な活動

自然言語処理とは 🗣️

自然言語処理とは 🗣️

日本語の特徴

形態素解析とは 💬

形態素解析とは 💬

形態素解析を利用したプログラム

形態素解析を利用したプログラム

Janomeでフリガナ 🖊️

Janomeでフリガナ 🖊️

Janomeでフリガナ 🖊️

Janomeでフリガナ 🖊️

フリガナをひらがなにする

フリガナをひらがなにする

辞書をカスタマイズ 📕

Janomeの辞書の問題点

SudachiPyでフリガナ 🖊️

SudachiPyでフリガナ 🖊️

SudachiPyでフリガナ 🖊️

フリガナのさらなる改善 ✨

学年別漢字配当表をスクレイピング

`furigana()` 関数を書き換え