2013/03/30

天気と自殺の関係について考えたこと

アメリカ西海岸の魅力を語るとき、その気候について触れない人はいないだろう。



バークレーも例外ではない。




市当局によると、1年のうち300日以上が晴れだという。




まったくもう、あきれるくらいに天気が良いのだ。




だから、




落ち込んだときも(だいたい英語がうまく話せなかったときだ)、




余裕がないときも(だいたい宿題に追われているときだ)、




この晴れ渡った空を眺めているうちに、自然に心の凝りがほぐれてくるというか、




「まあ、いいか」という按配になる。




「太陽も明るいことだし、ひとつ気楽にいこうじゃないか」と。




この安定感、信頼感は、ただごとではない。




そういう意味では、




我々は、ドストエフスキーがカリフォルニアに生まれなかったことを感謝すべきかもしれない。




「悪霊」や「カラマーゾフの兄弟」の舞台がバークレーだったらどうだろう。たぶん、文学史に残る傑作にはならなかったのではないか(それはそれで読んでみたい気もするけど)。




そういえば、「日照時間の少ない国は自殺者が多い」という内容の記事を、どこかで読んだ。あれは本当だろうか。疑問に思った私は、習いたての計量経済学の知識を使って、ひとつ調べてみることにした。



 この散布図は、世界各国の日照時間(各都市における年間累計時間の平均値)を横軸に、自殺率(10万人あたりの年間自殺者数)を縦軸に取ったものである。
 日照時間はWMO(World Meteorological Organization:世界気象機関)から、自殺率はWHO(World Health Organization:世界保健機関)から、それぞれ引用した。サンプル数は86個、これは両方のデータが揃っていた国の数である。

 自殺率のベストテンは(ベストという表現は不適当だな、しかし)、

 第1位  リトアニア 31.6 (1,733)
 第2位  韓国 31.2 (2,428) 
 第3位  カザフスタン 25.6 (2,199)
 第4位  ベラルーシ 25.3 (1,782)
 第5位  ハンガリー 21.7 (1,988)
 第6位  日本 23.8 (1,832)
 第7位  ラトビア 17.5 (1,721)
 第8位  中国 22.2 (2,402)
 第9位  スリランカ 21.6 (2,621)
 第10位 ロシア 21.4 (1,693)
 (カッコ内は日照時間)

という顔ぶれとなった。
 日照時間の短い北欧勢が上位を占める一方で、東アジア勢もなかなかの健闘ぶり(という表現も不適当だな、やはり)を見せている。これは日中韓の社会が特別にストレスフルということなのか、それとも民族的な死生観の違いによるものなのか、そのあたりを比較文化論的に突き詰めていくと一大テーマになりそうだ。

 ちなみに、自殺率の最も少ない国は、

 第86位 ジャマイカ 0.1 (3,002)

であった。
 さすがはレゲエ発祥の地、そしてボブ・マーリーを生んだ国。保安官は撃っても(I Shot the Sheriff)、自殺はしないのだ。

 視線を散布図に戻そう。全体として見れば、データのばらつき(分散)は大きいものの、どことなく負の相関がありそう、つまり「日照時間が少ない国は自殺者が多い」と言えそうだ。
 でもそれでは単なる印象論である。統計的にどのくらいの確度を持ってそう言えるのか、もうちょっと議論を掘り下げる必要があるだろう。
 ここでは、最も単純な分析手段として、線形(Linear)の単回帰モデル(Simple Regression Model)を使うことにしよう。

 ・・・何だか教科書みたいな文章になってきたな。すみません。興味のない方は適当に読み飛ばしてください。


 上記は、統計ソフトStataの出力結果である(あなたがGSPPに入学したら、きっとこの画面に親しみを覚えるようになるだろう!)。これは、先の散布図に対する回帰モデルが



で表されるということを意味している。Xは日照時間、Yは自殺率である。
 この式の傾き(説明変数xの係数)は「-0.0057」だ。すなわち、日照時間が「1,000時間」減ると、自殺率は「-0.0057×(-1,000)=5.7」だけ増える(10万人当たりの自殺者数が5.7人増える)ということだ。少なくともこのモデルの解釈としてはそうなる。

 このマイナスの傾きは、どのくらいの確からしさで(どの程度の有意水準で)存在すると言えるのだろうか。それを調べるには、まず、「傾きがゼロである」という仮説(Null Hypothesis)を用意して、これに対するt検定(t-test)を実施すればよい。
 その結果は如何に?実はすでにStataが計算してくれている。「-4.70」がそれだ(出力結果の赤囲み部分を参照)。そしてp値(p-value)は0.001未満(画面上には「0.000」と表示さていれる)である。このp値は、「実際には傾きがゼロなのに(日照時間と自殺率には何の関係もないのに)そうではないと判断してしまう確率」のことだ。つまり、p値が0.1%未満ということは、裏を返せば99.9%の確率で「日照時間は自殺率に何らかの負の影響を及ぼしている」ということになる。


 ってこたァ、「日照時間が少ねえほど自殺する奴が増える」ってことですナ、ご隠居さん。やっぱりお天道さんてなァありがてえもんだ。オイラひとつ賢くなりやした。うちのカミさんにもひとつ聞かせてやらなくっちゃあ・・・という結論に飛びつくのは、まだ早い。上述の分析には、実はいくつものツッコミどころがあるのだ。


<ツッコミどころその1: クロスセクションデータとしての不完全性>
 この散布図は、分類的には「時系列データ」ではなく、「クロスセクションデータ」である。つまり、前提として、すべてのデータは同一時点のものでなければならない。
 ところが、実はこれらのデータの取得年度は同じではない。日本とリトアニアの自殺率は2011年のデータだが、韓国とベラルーシは2010年、ハンガリーとラトビアは2009年、カザフスタンは2008年、といった具合に。
 加えて、同じ国でも日照時間と自殺率の年度は異なっている。アメリカを例にとると、その自殺率は2009年のデータだが、日照時間は1961-1990年の平均値なのだ。
 言うまでもなく、データは年とともに変わるものである。自殺率は特にそうだろう。今回上位にランクインした国は当該年度にたまたま多くの自殺者が出ただけかもしれないし、その逆もあり得る。
 解釈の精度を上げるには、たとえば「一定期間の自殺率のデータを引っ張ってきて、それらの平均値を出す」といった方法があるだろう。

<ツッコミどころその2: 日照時間のデータの有意性>
 日照時間のデータの扱いにも議論の余地がある。たとえば、アメリカについては166都市の平均を取っているのだが、その中にはマイアミ(3,154時間)やサンディエゴ(3,055時間)のように日照時間の長いところもあれば、ニューヨーク(2,535時間)やシカゴ(2,508時間)のように短いところもある。それらをひっくるめて2,714時間という平均値を割り出しているという、まあ乱暴な話ではある。
 国土の広い国も狭い国も、データの分散の大きい国も小さい国も、単純に平均値として同じまな板に乗せているのだから、その有意性については推して知るべし、ということだ。

<ツッコミどころその3: 除外変数バイアスの存在>
 回帰モデルを解釈する要素のひとつに、R-2乗値(R-squared)がある。これは、「従属変数y(自殺率)の変動のうち、独立変数x(日照時間)によって説明できる割合」を意味する。今回のモデルのR-2乗値は「0.2084」(Stataの出力結果の青囲みの部分を参照)。つまり、日照時間が自殺率の変動に寄与する割合は約2割ということだ。
 R-2乗値の解釈に絶対的な基準はない。とはいえ、これがクロスセクションデータであることを考慮すれば、まずまずの相関と言えるだろう。
 他方で、日照時間で説明できる割合が2割ということは、残り8割が説明できないということでもある。ではその8割に含まれる要素として、どんなものがあるだろう。失業率、離婚率、鬱病の発症率?あるいは、その国の宗教が(イスラム教やキリスト教のように)自殺を禁じているか、(仏教のように)明確に禁じていないか?
 より正確なモデルを作るには、上に挙げたような除外変数(Omitted Variables)を加えた重回帰モデル(Multiple Regression Model)を作り、「日照時間が自殺率の変動にどれだけ寄与するのか」について、改めて評価する必要がある。

<ツッコミどころその4: 誤差項の分散の不均一性>
 通常の回帰モデルを使う前提のひとつに、「回帰によって説明できない誤差項の分散(Variance of Errors)は一定である」(Homoskedasticity)というものがある。言い換えると、「【従属変数y(自殺率)の観測値】から【回帰曲線(y = -0.0057x + 23.697)上のy値】を引いた数の2乗は、独立変数x(日照時間)に関係なく常に一定である」ということだ。
 しかし、上の散布図を見る限り、これは明らかに一定ではない。たとえば、日照時間が2,500時間付近の自殺率のデータのばらつき具合と、3,000時間付近のそれとでは、どう見ても前者の方がばらついている。これは困った事態である。何が困るかというと、誤差項の分散にムラがあると、回帰モデルの傾きの有意性に怪しい部分が出てくるのだ。
 したがって、このような「誤差項の分散の不均一性」(Heteroskedasticity)を反映したモデルを組み立てるには、たとえば加重最小2乗法(Weighted Least Squares)などを用いて推定をやり直す必要がある。

 とまあ、ここまで長々とごたくを並べておいて、結局何が言いたかったのかといえば、「アメリカ西海岸の気候は素晴らしい」という、それだけのことである。お後がよろしいようで。

【補遺】
 このブログの大いなる特徴のひとつに、「筆者より読者の方が頭が良い」というものがある。
 賢明にして寛容な、そして愛すべき読者諸氏よ。今回の記事に、事実誤認、説明不足、文意不明瞭、あるいはそのすべてを認められたならば、どうか遠慮なく私にご教授ありたい。

0 件のコメント:

コメントを投稿