公衆トイレ論文は信用ならない(2) マッチドペア分析は妥当か

2019年1月14日 0 投稿者: rokujo

前回の記事に引き続き、公衆トイレ論文のマッチドペア分析が妥当かどうかを検証しました。結果、差別禁止法が施行された自治体と他に選択された自治体がマッチドペアとして妥当ではないどころか、検証中、この論文は全く体をなしていないことがわかりました。

読むのが面倒な人、時間がない人は、一番下までスクロールしてください。

こちらの記事にも問題点が述べられています。

 

マッチドペア分析とは

データ分析の妥当性を高めるため、調査対象のサンプルのほかに、調査対象外のサンプルについても同様の分析を行い、比較する手法です。今回の調査なら、GIPANDOs(トイレ等を含む差別禁止法)が施行されている自治体のほかに、施行されていない自治体についても同様の分析を行うということです。対照実験と同じ考え方ですね。

妥当性を高めるためには、傾向が似ている自治体を選択しなければなりません。東京都足立区と沖縄県石垣市を比較しても違い過ぎて何の意味もないですよね?せめて足立区と江戸川区を比較してほしいです。この記事では、比較した都市群が本当に似ているのか、を検証します。

 

公衆トイレ論文で考慮された要素

論文には「人口・ヒスパニックでない白人比率・所得が20万ドル以上の人口割合・所得の中央値・貧困線以下の人口割合・Born Again(キリスト教福音主義か?)を自認する人の割合・2012年大統領選でオバマに投票した人の割合・犯罪率」(P5)を考慮したと書かれています。これらを変数化し最も傾向の似ている自治体が、比較対象として選ばれたそうです。考慮する要素の統計情報および、変数化されたデータについては、論文では明らかにされていません。

考慮されていない要素として重要と思われるのは、まず人口密度です。アメリカのトイレが商業施設に固まっていることは前回の記事で書きました。人口密度が少なければ自治体内の商業施設数が少なくなり、したがってトイレの数も少なくなるからです。商業施設売上もトイレ数に比例すると思われるので、これも考慮するべきです。自治体内にイオンモールが多ければその分トイレの数も多いですよね。

また、年代別人口比率も重要です。性犯罪は20~40代男性の犯行が圧倒的に多いので、高齢化が進んでいる自治体では性犯罪自体が少ないと考えられるからです。

 

使用したデータ

公衆トイレ論文によればGIPANDOsが施行された自治体は7つです。論文では7つの自治体に対して、マッチする自治体を2つずつ選択しています。この記事ではGIPANDOsあり・GIPANDOsなし(1)・GIPANDOsなし(2)を1グループとして、7グループに分けて検証します。

Demographic Statistics for Massachusettsや Botson.com、その他(世帯所得中央値)で利用できる数値を使って、7自治体と比較自治体群が本当に似通っているのか、 検証しました。年代別人口比率は残念ながら18~65歳の数値しか得られなかったので、高齢化率を表すと思われる年齢の中央値を採用しました。

 

検証

まずは最も人口の多いボストン市を含むグループ1です。グループ1でGIPANDOsありの自治体の人口の2/3を占めるので、このグループが似通っていれば、マッチドペアはほぼ信頼できるといってよいでしょう。

太字にしたのは、著者が差異があると判断した数値です。

グループ1 GIPANDOsあり GIPANDOsなし(1) GIPANDOsなし(2)
ボストン ケンブリッジ チェルシー (参考)マサチューセッツ州
人口 625087 106038 35649 6349097
面積(平方マイル) 48.43 6.43 2.19 7800
人口密度(人/平方マイル) 12907 16491 16278 814
白人率 54.5 68.1 57.9 84.5
年齢の中央値(歳) 30.8 31.2 32.2 39.4
世帯所得中央値(ドル) 53601 72529 47291 66866
貧困率 19.5 12.9 23.3 9.3
一人当たり小売店売上(ドル) 7656 11905 8781 9579
暴力事件発生率(10万人当たり件数) 835 403 1852 404

このグループはマサチューセッツ州の中で最も都市化の進んだ地域です。マサチューセッツ州全体と比べて人口密度が高いこと、年齢の中央値が非常に若いことから読み取れます。人口が全然異なるのでこの時点で比較対象としては怪しいのですが、人口密度のほうが重要と思われるので、検討からは外します。

私がこの検証をしていて、差異が存在する項目が最も多かったのはこのグループです。ボストンとケンブリッジを比較すると、ケンブリッジの白人率が非常に高く、所得はかなり高く、小売店売上も高く、人口密度が高く、暴力事件発生数は半分以下であることがわかります。チェルシーはボストンの2倍以上の暴力事件発生数があり、所得は低く、貧困率も高いです。他にボストンくらいの都市化が進んでいる自治体がなかったんでしょうかね。

残念ながら、比較対象としては不適格と判断せざるを得ません。この時点で検証を打ち切ってもいいくらいです。

 

グループ2 GIPANDOsあり GIPANDOsなし(1) GIPANDOsなし(2)
メドフォード ビバリー ウォータータウン (参考)マサチューセッツ州
人口 56738 39796 32248 6349097
面積(平方マイル) 8.14 16.6 4.11 7800
人口密度(人/平方マイル) 6970 2397 7846 814
白人率 86.5 96 91.4 84.5
年齢の中央値(歳) 36.7 40.3 38.8 39.4
世帯所得中央値(ドル) 133931 70563 87401 66866
貧困率 6.4 5.7 6.3 9.3
一人当たり小売店売上(ドル) 9787 9027 14401 9579
暴力事件発生率(10万人当たり件数) N/A 207 172 404

グループ2は高齢化率を見るとグループ1より都市化が進んでいる自治体群ではありません。メドフォードは極端に所得が高く、ビバリーの2倍近くです。人口密度も約3倍です。年齢の中央値も3.6歳違います。ウォータータウンはメドフォードと似ていますが、一人当たり小売店売り上げが1.5倍以上とかなり高いです。大規模商業施設が存在すると考えられます、

 

グループ3 GIPANDOsあり GIPANDOsなし(1) GIPANDOsなし(2)
メルローズ ビバリー ビバリー (参考)マサチューセッツ州
人口 27263 39796 39796 6349097
面積(平方マイル) 4.69 16.6 16.6 7800
人口密度(人/平方マイル) 5813 2397 2397 814
白人率 95.2 96 96 84.5
年齢の中央値(歳) 41 40.3 40.3 39.4
世帯所得中央値(ドル) 85704 70563 70563 66866
貧困率 3.3 5.7 5.7 9.3
一人当たり小売店売上(ドル) 4756 9027 9027 9579
暴力事件発生率(10万人当たり件数) 138 207 207 404

グループ3はなぜかビバリーが(1)と(2)を兼ねています。他に適当な自治体がなかったのでしょう。これもメルローズとビバリーでは人口密度が2倍違うし、小売店売り上げは約半分だし、暴力事件発生率も2/3程度です。

 

グループ4 GIPANDOsあり GIPANDOsなし(1) GIPANDOsなし(2)
ニュートン ブルックリン アーリントン (参考)マサチューセッツ州
人口 85945 59132 43290 6349097
面積(平方マイル) 18.05 6.79 5.18 7800
人口密度(人/平方マイル) 4761 8709 8357 814
白人率 88.1 N/A N/A 84.5
年齢の中央値(歳) 39.4 35.7 41.7 39.4
世帯所得中央値(ドル) 119148 96488 89841 66866
貧困率 4.3 N/A N/A 9.3
一人当たり小売店売上(ドル) 12193 N/A N/A 9579
暴力事件発生率(10万人当たり件数) 88 137 117 404

グループ4はデータが不足していて比べにくいですが、人口密度、年齢の中央値、暴力事件発生数がかなり異なることがわかります。

 

グループ5 GIPANDOsあり GIPANDOsなし(1) GIPANDOsなし(2)
セイラム リビア ウォルサム (参考)マサチューセッツ州
人口 41654 52459 61181 6349097
面積(平方マイル) 8.1 5.91 12.7 7800
人口密度(人/平方マイル) 5142 8876 4817 814
白人率 85.4 84.4 83 84.5
年齢の中央値(歳) 37 38.2 34 39.4
世帯所得中央値(ドル) 55780 51863 74198 66866
貧困率 9.7 14.6 7 9.3
一人当たり小売店売上(ドル) 7668 7273 10200 9579
暴力事件発生率(10万人当たり件数) 378 508 237 404

グループ5は人口密度、貧困率、暴力事件発生数が異なってます。

 

グループ6 GIPANDOsあり GIPANDOsなし(1) GIPANDOsなし(2)
サマーヴィル ケンブリッジ ウォルサム (参考)マサチューセッツ州
人口 76519 106038 61181 6349097
面積(平方マイル) 4.11 6.43 12.7 7800
人口密度(人/平方マイル) 18618 16491 4817 814
白人率 77 68.1 83 84.5
年齢の中央値(歳) 30.7 31.2 34 39.4
世帯所得中央値(ドル) 67118 72529 74198 66866
貧困率 12.5 12.9 7 9.3
一人当たり小売店売上(ドル) 7512 11905 10200 9579
暴力事件発生率(10万人当たり件数) 348 403 237 404

グループ6はウォルサム人口密度が極端に低いです。小売店売り上げもサマーヴィルがかなり少ないです。

 

グループ7 GIPANDOsあり GIPANDOsなし(1) GIPANDOsなし(2)
スワンプスコット マーブルヘッド ミルトン (参考)マサチューセッツ州
人口 13896 19964 27182 6349097
面積(平方マイル) 3.05 4.53 13.04 7800
人口密度(人/平方マイル) 4556 4407 2085 814
白人率 N/A N/A N/A 84.5
年齢の中央値(歳) 44.4 44.4 38.8 39.4
世帯所得中央値(ドル) 92258 98399 111071 66866
貧困率 N/A N/A N/A 9.3
一人当たり小売店売上(ドル) N/A N/A N/A 9579
暴力事件発生率(10万人当たり件数) N/A 134 102 404

グループ7は人口が少ないせいか全然データが得られませんでしたが、それでも人口密度に差があります。

 

総括

最も信頼がなければならないグループ1において相当の差異がでていることが、マッチドペア分析の信頼性を失わせています。他のグループでもすべて差異があります。全グループで人口密度にかなりの差があったことは特筆すべきでしょう。

そもそもマサチューセッツ州内でマッチドペアを作ろうとすること自体に無理があったと言わざるを得ません。

 

例え話

第1グループのボストン(62万人)、ケンブリッジ(10.6万人)、チェルシー(3.6万人)は街の規模が全然違います。人口だけ考えると、東京都で例えれば足立区(68万人)と昭島市(11万人)と瑞穂町(3.3万人)に相当します。ですがこの3自治体の人口密度は全然違います(12775・6455・1950人/平方キロ)。

また、ボストンの人口密度(12907人/平方マイル=4983人/平方キロ)と近い東京都の自治体を3つ選ぶなら、千代田区(5417人/平方キロ)、稲城市(5051人/平方キロ)、武蔵村山市(4686人/平方キロ)となりますが、どう考えても、この3つの自治体が同じ傾向になるとは思えません。例えば平均年収は順に944万、399万、312万とかなりの差があります。

 

マッチする自治体は選択可能なのか

すると、そもそもマッチドペア分析で完璧にマッチする自治体を選択できるのか?という疑問が生じます。おそらくそれは不可能です。公衆トイレ論文において「マサチューセッツ州内で最も傾向の似ている自治体を選択した」という手続きは完全に正しいでしょう。可能な限り、マサチューセッツ州内で選択できる範囲内で、傾向の似ている自治体が選択されたことに疑いはありません。ただし、「選択できる範囲内で最も傾向が似ている」にすぎません。「傾向が強い」ということは以上の検証よりありえません。

 

結論

公衆トイレ論文におけるマッチドペア分析では、適切な比較対象を選択することが不可能だった。したがって論文の分析結果には、意味がない。

 

さらに重要な事実

検証中、論文内に、データの不足について書いてあることに気づきました。まず、スワンプスコットについてはデータが得られなかったとあります。したがってグループ7については公衆トイレ論文の調査対象外です。

また、ケンブリッジ、リビア、チェルシーについてもデータが得られなかったため、調査から外した、これに関連して、得られなかったデータが必要なセイラム、サマーヴィル、ボストンについても調査対象外としたという衝撃的な事実が小さな字でさらっと書いてありました。つまりグループ1、5,6についても調査対象外です。この調査はグループ2、3,4についてのみ行われたということです!

ボストンを外してこの論文に何の意味があるのでしょう?東京都(927万人)を対象にした調査だっつってるのに、足立区(68万人)を調査から外して羽村市(5.7万人)、稲城市(8.4万人)、日の出町(1.7万人)だけで統計を取りました、といっていることと同じです。マジでこの統計何の意味があるの?私のまじめに調査した時間返せよ!

(1/16追記)GIPANDOs自治体の人口合計は約15万人ですから、法制度施行前の10万人当たり犯罪率が0だったのも頷けます。本当に0人なんです。サンプル数が極端に少なすぎるんですね。法制度施行後の10万人当たり犯罪率も0.5ですので、これは1件ということですね。つまり、GIPANDOs自治体のサンプル数は1です

結論2

公衆トイレ論文は調査の体をなしていない。読むだけ時間の無駄。