Studentのt分布
今月(2009年12月)2日(水),突然研究室の方に,この3月まで本研究科数学専攻におられた服部哲弥先生(現在,慶応義塾大学経済学部の教授)からメールが入った.私からの「宿題」の答えが得られたようだ,というものであった.以下,服部先生のご了解も得ているので,メールの内容も含めてこのことを紹介する.

(服部先生からのメール)
「唐突ですが,3月に理学研究科で歓送会を開いていただいた折,行きがけのタクシーの中で出された宿題について,別のことで調べ物をしているうちに資料に行き当たりました.宿題は,『Studentのt分布について,Studentが筆名であるという事情は有名だが,分布名 t のほうはどういう経緯か?』という内容だったと記憶しています.」

本部局では,毎年3月,教授懇談会と称して,退職される教授や,転出される教授の方々の送別会を開催している.市内のホテルで開催するのだが,青葉山キャンパスからのタクシーでの移動の途中,私の長年の疑問を服部先生へお話ししたのであった.

「Studentのt分布」とは,二つの標本(サンプル)集団の平均値の差が有意かどうかを「検定」するときに用いる分布である.検定とは,「どの程度の確かさで結論を言えるのかを調べること」である.標本数が多いとき(これを自由度が大きいと表現する)には,標本の平均値の分布は正規分布(ガウス分布とも言う)となるが,少ないときは,正規分布より背が低く,裾野が広い分布となる.このような分布を「Studentのt分布」と呼んでいる.

「Student」は論文の著者名であるが,ファーストネームもミドルネームもない,単にStudentである.このStudentは,W.S. Gosset(1876-1937:以下,ゴセットと記す)のペンネームであることはよく知られている.ゴセットは,英国オックスフォード大学で数学と化学の学位を取得し,ビール会社ギネスに入社した.ビールを作るさまざまな工程で,少ない標本数から母集団(検査すべき対象全体のこと)の性質を推測する研究を行っていた.当然のことながら,抽出する標本数は少ない方が望ましい.

さて,ゴセットがペンネーム「Student(文字通り,学生という意味なのであろう)」を使わざるをえなかった理由は,それ以前,ギネス社の別の技術者が製造工程の秘密を明かす論文を書いたため,会社上層部はこれを問題視して,以後,社員に論文を書くことを禁じたのだという.また,ゴセットがStudentであることをギネス社が知ったのは,彼の死後のことであったという.

このあたりの事情は,「統計学を拓いた異才たち−経験則から科学へ進展した一世紀−」(D. ザルツブルグ著,竹内恵行・熊谷悦生訳,日本経済新聞社,2006年,437ページ)に詳しい.

さて,さまざまな母集団に関する推定値がとる確率密度分布が提案されており,それぞれ名前が付いていている.例えば,二つの標本集団の間で,分散(ばらつきのこと,標準偏差の2乗)が等しいかどうかを調べるときに用いる「F分布」は有名である.これは統計学の大御所,R.A. Fisher(1890-1962)の頭文字が分布の名前となった.以下の服部先生のメールにあるように,このFisherこそがまさにt分布の生みの親だったのである.

私は,Studentのt分布はどうして「t」分布であるのかずっと疑問に思い,少しは調べていたのだが,結局分からずじまいであった.それで統計学や確率論を専門とされている服部先生とタクシーでご一緒したとき,これ幸いとお尋ねしたのであった.

(服部先生からのメール)
「最近,Studentの原論文と,それを検討して『Studentのt分布』を世に広めた大御所R.A. Fisherの論文を貼っているweb siteに行き当たりました.
Student,‘The probable error of a mean', Biometrica, 6 (1908), 1-25.
 http://cda.mrs.umn.edu/~jongmink/Stat2611/s1.pdf
R.A. Fisher,‘Applications of "Student's" distribution', Metron, 5 (1925), 90-104.
 http://digital.library.adelaide.edu.au/coll/special//fisher/43.pdf
 http://digital.library.adelaide.edu.au/coll/special//fisher/stat_math.html
これらを読んで事情が想像できた気がします.結論から言うと,
・[事実] Studentはtという変数を上記論文で使わなかった.
・[事実] Fisherは上記の論文でt分布に従う確率変数をtとおいた(したがって,これがt分布に従う変数を初めて「t」とおいた論文).
・[印象] Fisherはtと置くにあたって,特別な意味を持たせた気配は無い.
・[推測] むしろ,Fisher自身は,単に特別な意味の無い変数としてtと置いたつもりだったのが,特別な意味がなかったおかげでそのまま残ってしまった.というのがt分布の「t」の由来だろうというのが私の推測です.」

なお,この文章に続いて,さらに詳しい解説が付けられていた.これらをこの欄の最後に示しておく.

結局Fisherは,ゴセットが使った変数(ゴセットはzを使った)の定義を少し変え,その変数にtを用いたのである.なお,この定義式の直前の式は,標本分散s2に対する式であるので,sの次のtを使ったと考えるのが自然のようだ.これが,今日,t分布とかt検定と呼ばれる始まりであった.服部先生は,tという変数はあまりにも無色な,すなわち,何の意味も付与されていないために,今日まで残ったのだろうと推測する.

以上の説明,これには私も納得する.これで長年の疑問が解決した.機会があれば,このことを講義などで紹介することにしよう.それにしても服部先生のメールの記述,「事実」や「印象」,「推測」とか,なんと数学者らしい明瞭な記述なのでしょう,感心しました.

2009年12月15日記

<服部先生による詳しい説明>
(以下の文章では,一部表現を変えたり,追記したりしたところがある.また,文中に<注1>などとして,注釈を末尾に記した.)

まず,Studentの論文(1908)にはtという変数は出てきません.彼の問題意識は今日の教科書の説明と同様に,サンプル平均x <注1>を標本標準偏差sを単位にして計った変数 z = x/s の分布yです.(x,s,z,yはStudentの論文の変数名.Studentの論文の8ページ目に出てきます.そこまではχ2分布<注2>の話.)問題意識は最初から不変ですが,変数はx, y,zと「無色」のものを選んだようです.

Fisherの論文(1925)は,1920年代にStudentから,上記の論文を,「使ってくれそうなのはFisherさんだけ」と送られたのを受けて書いたものだそうで,この論文がStudentのtが世に広まったきっかけのようです.(当時の生物計測学派の主流であった大標本理論に対して,農事試験場にいたFisherが,サンプル数の少ない小標本理論の重要性,すなわち,母集団ではなく標本の偏差で規格化する必要性,に気づいた,という学問上のいきさつがあったそうです.なお,Studentは生物計測学派のボスK. Pearsonの研究室で勉強し,Studentが論文を掲載した Biometricaは,まさにPearsonの雑誌でしたが,PearsonはStudentのt分布を重視しなかったそうです.FisherとPearsonの確執は有名だそうですが,Studentは温厚な性格で,Fisherとも友好関係を保っていたので,論文を送って認めてもらうことができた,といったドラマがあるようです.)

Fisherの論文に話を戻すと,序文§1で,正規母集団N(m,σ)<注3>のサンプルサイズn'のサンプル平均{x}について,『m,σが既知ならば t=({x}-m) √{n'}/σ<注4>がN(0, 1)に従う』と注意するところから説き起こしています.(t,{x},m,n',σはFisherの論文の変数名.)

そして§2 本論の最初で,標本分散s2を導入した後, t=({x}-m)√{n'}/sとして,変数tを定義します.tという変数はここで初めてStudentのt分布に従う変数として登場します.

Studentが単純にsを単位にしてxを計る,という立場だったのに対して,Fisherは漸近理論への意識が既にあったようで,サンプルサイズn'〜∞ で N(0,1)に従う変数になるようにn'の平方根をかけています.このこともあって,Student の変数名zからあえて変えたのかもしれません.

また,§1 で, N(0,1)に従う変数をいったんtとおいていることからも,tは「無色」の,由来のない,暫定的な変数のつもりだったように見えます.

さらに§2では,標本分散s2の定義式に続いて,並べるように,tの定義が書かれているので,「s」の次の「t」という意味合いに見えます.

これらの3つの点から,Fisher が問題の量(標本平均と標本標準偏差の比)をtと書くに当たって,特別な意図がなかった,という印象を持ちました.

Fisher 以降の論文や著書については知りませんが,Fisherがtを使っているので,これが「t」の起こりであることは間違いありませんから,あとはそれがのちに他の変数名で「上書き」されなかったということになります.その事情は推測するよりありませんが,「t」に色がついてなかったことが幸いした(?)としか思えません.

以上が,最初の結論の要約の内容です.

<以下,筆者による注釈>
注1:一般に平均を表現するときは,変数の上部にバーを付けるが,使っているワープロソフトではその機能がないので,この欄では下線で代用する.
注2:カイ2乗と読む.
注3:N(m,σ)とは,平均値m,標準偏差σの正規分布のこと.したがって,後に出てくるN(0,1)とは,平均値ゼロ,標準偏差1の正規分布を意味する.
注4:ルート(√)の後ろの項(スラッシュの前まで)は,√の中にあると読む.


website top page