Dale-Chall式読みやすさ指数とは?定義・仕組み・計算方法
Dale-Chall式は、文章の読みにくさを予測する方法の一つです。読みやすさのテストである。Dale-Chall式は1変数のテストです:それは使用される単語の難しさを測定します。文の構造(構文)の難しさは測定しません。
最初の読みやすさのテストの一つであるDale-Chall式は、語彙リストを使ったものである。文章中の単語数を数え、その数に応じて等級が決まるというものです。アメリカの学区で教科書を格付けする際に使用された。1995年、著者らは最新の単語リストを発表した。
コンピュータを使った読みやすさの測定に語彙リストを利用することは、原理的には容易である。リストはルックアップテーブルとして整理される。文章中のリストされた単語の割合から計算式のデータが得られ、ユーザーにはグレードレベルが提示されます。
定義と背景
Dale–Chall式は、Edward Dale と Jeanne Chall によって考案された読みやすさ指標で、主に英語の文章を対象とします。特徴は「易しい単語のリスト(基準語彙)」を用いることで、文章中にそのリストに含まれない語(=難しい語)がどれだけあるかを中心に評価する点です。1995年に語彙リストが改訂され、より現代的な語彙が反映されました。
仕組み(概念)
- まず文章を単語と文に分割します。
- 単語ごとに「基準語彙リスト」に載っているかどうかを判定し、載っていなければ「難しい語」とカウントします。
- 難しい語の比率(全単語に占める割合)と、1文あたりの平均語数(平均文長)を用いてスコアを算出します。
- 算出されるスコアは「生スコア(raw score)」として得られ、これをもとに読みやすさの等級(学年レベル)に対応づけます。
計算方法(具体的な手順と数式)
基本的な計算手順は次の通りです。
- 文章中の総単語数(W)と総文数(S)を数える。
- 基準語彙リストに含まれない単語の数(D)を数える(同じ語の繰り返しも個別に数える)。
- 難しい語の割合(PDW: Percentage of Difficult Words)を求める。
PDW = (D / W) × 100 - 平均文長(ASL: Average Sentence Length)を求める。
ASL = W / S - 生スコア(Raw Score)を次の式で計算する。
Raw Score = 0.1579 × PDW + 0.0496 × ASL
ただし、PDW が 5 より大きい(つまり難しい語が全体の 5% 超)場合は補正項 3.6365 を加えます:
Raw Score = 0.1579 × PDW + 0.0496 × ASL + 3.6365(PDW > 5 のとき) - 生スコアを、Dale–Chall が定めた基準表に照らして学年レベル(grade level)に換算する。
計算の例(簡単なサンプル)
例:ある文章の総単語数 W = 100、難しい語 D = 20、文数 S = 5 とする。
- PDW = (20 / 100) × 100 = 20
- ASL = 100 / 5 = 20
- PDW は 5 を超えるので補正を加える:
Raw = 0.1579 × 20 + 0.0496 × 20 + 3.6365
= 3.158 + 0.992 + 3.6365 ≒ 7.79
この生スコアは大まかに「中〜高等学校レベル(米国のgrade 9–10 程度)」などと判定されます(具体的な対応表により分類)。
利点・長所
- 語彙の難しさに焦点を当てるため、専門用語や難解語が多い文章を検出しやすい。
- 語彙リストを使うため、コンピュータ実装が比較的容易(ルックアップ処理で判定可能)。
- 教育現場での教科書評価など実務的な用途で長く使われてきた実績がある。
限界・注意点
- 文の構造(構文の複雑さ)や文章の論理的なわかりやすさは直接評価しない。
- 語彙リストは言語・文化依存であり、英語用のリストをそのまま他言語に適用することはできない。
- 固有名詞、専門用語、略語、語形変化などの扱いに注意が必要。表記ゆれや派生語はリスト照合で誤判定されることがある。
- 文章の目的(説得、技術説明、創作など)や読者の背景知識を考慮しないため、実際の「理解しやすさ」とは差が出る場合がある。
日本語で使う場合の実務的注意点
Dale-Chall式は英語向けに設計された手法です。日本語に適用するには次のような追加作業が必要です。
- 形態素解析(例えば MeCab など)で単語に分割する。助詞や接頭辞・接尾辞の扱いをどうするか方針を決める。
- 日本語向けの「易しい語彙リスト」を用意する(英語のリストを単純に翻訳するだけでは不十分)。
- 文の区切り(句点や改行)を正確に検出する。口語表現や改行の多い文章は誤差を生みやすい。
実装のヒント
- 前処理:正規化(全角半角統一、表記ゆれの正規化)、不要記号の除去。
- トークン化:英語なら空白で分割、日本語なら形態素解析器を使用。
- 語彙照合:単語ごとにリストに含まれるかをルックアップ。大文字小文字の違いは前処理で揃える。
- 文のカウント:ピリオド・感嘆符・疑問符などで区切る方法(英語)、日本語は「。」などで区切る。
- 結果の解釈:生スコアだけで判断せず、文の目的や想定読者も考慮する。
まとめ
Dale-Chall式は単語の難易度に基づくシンプルかつ実用的な読みやすさ指標です。語彙リストと比率計算に基づくため自動化が容易ですが、構文的・意味的な要素は扱わない点に注意が必要です。日本語で適用する場合は語彙リストの整備や形態素解析などの追加処理が不可欠です。
関連ページ
- 読みやすさのテスト一覧
- テキストの難易度
質問と回答
Q: Dale-Challの公式とは何ですか?
A: Dale-Chall式とは、文章を読む難易度を予測する方法です。
Q: Dale-Chall式は何を測定するのですか?
A:Dale-Chall式は、文章に使われている単語の難易度を測定するものです。
Q: Dale-Chall式は、文構造の難易度を測定するのでしょうか?
A: いいえ、Dale-Chall式は文の構造(シンタックス)の難易度を測定するものではありません。
Q: Dale-Chall式はどのように機能するのですか?
A: Dale-Chall式は、語彙リストを用いて、文章中のリストアップされた単語の数をカウントし、計算式を適用してグレードレベルを算出します。
Q:Dale-Chall式は何に使われていたのですか?
A: Dale-Chall式は、米国の学区で教科書を格付けするために使用されました。
Q: Dale-Chall式は更新されましたか?
A: はい、1995年にDale-Chall式の著者が最新の単語リストを発表しました。
Q: Dale-Chall式をコンピュータを使った読みやすさの測定に使うのは簡単ですか?
A: はい、Dale-Challの公式は、ルックアップテーブルとして構成されており、文章中の単語の割合から公式のデータが得られ、また、ユーザーにはグレードレベルが提示されるため、コンピュータベースの読みやすさの測定に使用するのは簡単です。