前回の記事に引き続き、公衆トイレ論文のマッチドペア分析が妥当かどうかを検証しました。結果、差別禁止法が施行された自治体と他に選択された自治体がマッチドペアとして妥当ではないどころか、検証中、この論文は全く体をなしていないことがわかりました。
読むのが面倒な人、時間がない人は、一番下までスクロールしてください。
こちらの記事にも問題点が述べられています。
マッチドペア分析とは
データ分析の妥当性を高めるため、調査対象のサンプルのほかに、調査対象外のサンプルについても同様の分析を行い、比較する手法です。今回の調査なら、GIPANDOs(トイレ等を含む差別禁止法)が施行されている自治体のほかに、施行されていない自治体についても同様の分析を行うということです。対照実験と同じ考え方ですね。
妥当性を高めるためには、傾向が似ている自治体を選択しなければなりません。東京都足立区と沖縄県石垣市を比較しても違い過ぎて何の意味もないですよね?せめて足立区と江戸川区を比較してほしいです。この記事では、比較した都市群が本当に似ているのか、を検証します。
公衆トイレ論文で考慮された要素
論文には「人口・ヒスパニックでない白人比率・所得が20万ドル以上の人口割合・所得の中央値・貧困線以下の人口割合・Born Again(キリスト教福音主義か?)を自認する人の割合・2012年大統領選でオバマに投票した人の割合・犯罪率」(P5)を考慮したと書かれています。これらを変数化し最も傾向の似ている自治体が、比較対象として選ばれたそうです。考慮する要素の統計情報および、変数化されたデータについては、論文では明らかにされていません。
考慮されていない要素として重要と思われるのは、まず人口密度です。アメリカのトイレが商業施設に固まっていることは前回の記事で書きました。人口密度が少なければ自治体内の商業施設数が少なくなり、したがってトイレの数も少なくなるからです。商業施設売上もトイレ数に比例すると思われるので、これも考慮するべきです。自治体内にイオンモールが多ければその分トイレの数も多いですよね。
また、年代別人口比率も重要です。性犯罪は20~40代男性の犯行が圧倒的に多いので、高齢化が進んでいる自治体では性犯罪自体が少ないと考えられるからです。
使用したデータ
公衆トイレ論文によればGIPANDOsが施行された自治体は7つです。論文では7つの自治体に対して、マッチする自治体を2つずつ選択しています。この記事ではGIPANDOsあり・GIPANDOsなし(1)・GIPANDOsなし(2)を1グループとして、7グループに分けて検証します。
Demographic Statistics for Massachusettsや Botson.com、その他(世帯所得中央値)で利用できる数値を使って、7自治体と比較自治体群が本当に似通っているのか、 検証しました。年代別人口比率は残念ながら18~65歳の数値しか得られなかったので、高齢化率を表すと思われる年齢の中央値を採用しました。
検証
まずは最も人口の多いボストン市を含むグループ1です。グループ1でGIPANDOsありの自治体の人口の2/3を占めるので、このグループが似通っていれば、マッチドペアはほぼ信頼できるといってよいでしょう。
太字にしたのは、著者が差異があると判断した数値です。
グループ1 | GIPANDOsあり | GIPANDOsなし(1) | GIPANDOsなし(2) | |
ボストン | ケンブリッジ | チェルシー | (参考)マサチューセッツ州 | |
人口 | 625087 | 106038 | 35649 | 6349097 |
面積(平方マイル) | 48.43 | 6.43 | 2.19 | 7800 |
人口密度(人/平方マイル) | 12907 | 16491 | 16278 | 814 |
白人率 | 54.5 | 68.1 | 57.9 | 84.5 |
年齢の中央値(歳) | 30.8 | 31.2 | 32.2 | 39.4 |
世帯所得中央値(ドル) | 53601 | 72529 | 47291 | 66866 |
貧困率 | 19.5 | 12.9 | 23.3 | 9.3 |
一人当たり小売店売上(ドル) | 7656 | 11905 | 8781 | 9579 |
暴力事件発生率(10万人当たり件数) | 835 | 403 | 1852 | 404 |
このグループはマサチューセッツ州の中で最も都市化の進んだ地域です。マサチューセッツ州全体と比べて人口密度が高いこと、年齢の中央値が非常に若いことから読み取れます。人口が全然異なるのでこの時点で比較対象としては怪しいのですが、人口密度のほうが重要と思われるので、検討からは外します。
私がこの検証をしていて、差異が存在する項目が最も多かったのはこのグループです。ボストンとケンブリッジを比較すると、ケンブリッジの白人率が非常に高く、所得はかなり高く、小売店売上も高く、人口密度が高く、暴力事件発生数は半分以下であることがわかります。チェルシーはボストンの2倍以上の暴力事件発生数があり、所得は低く、貧困率も高いです。他にボストンくらいの都市化が進んでいる自治体がなかったんでしょうかね。
残念ながら、比較対象としては不適格と判断せざるを得ません。この時点で検証を打ち切ってもいいくらいです。
グループ2 | GIPANDOsあり | GIPANDOsなし(1) | GIPANDOsなし(2) | |
メドフォード | ビバリー | ウォータータウン | (参考)マサチューセッツ州 | |
人口 | 56738 | 39796 | 32248 | 6349097 |
面積(平方マイル) | 8.14 | 16.6 | 4.11 | 7800 |
人口密度(人/平方マイル) | 6970 | 2397 | 7846 | 814 |
白人率 | 86.5 | 96 | 91.4 | 84.5 |
年齢の中央値(歳) | 36.7 | 40.3 | 38.8 | 39.4 |
世帯所得中央値(ドル) | 133931 | 70563 | 87401 | 66866 |
貧困率 | 6.4 | 5.7 | 6.3 | 9.3 |
一人当たり小売店売上(ドル) | 9787 | 9027 | 14401 | 9579 |
暴力事件発生率(10万人当たり件数) | N/A | 207 | 172 | 404 |
グループ2は高齢化率を見るとグループ1より都市化が進んでいる自治体群ではありません。メドフォードは極端に所得が高く、ビバリーの2倍近くです。人口密度も約3倍です。年齢の中央値も3.6歳違います。ウォータータウンはメドフォードと似ていますが、一人当たり小売店売り上げが1.5倍以上とかなり高いです。大規模商業施設が存在すると考えられます、
グループ3 | GIPANDOsあり | GIPANDOsなし(1) | GIPANDOsなし(2) | |
メルローズ | ビバリー | ビバリー | (参考)マサチューセッツ州 | |
人口 | 27263 | 39796 | 39796 | 6349097 |
面積(平方マイル) | 4.69 | 16.6 | 16.6 | 7800 |
人口密度(人/平方マイル) | 5813 | 2397 | 2397 | 814 |
白人率 | 95.2 | 96 | 96 | 84.5 |
年齢の中央値(歳) | 41 | 40.3 | 40.3 | 39.4 |
世帯所得中央値(ドル) | 85704 | 70563 | 70563 | 66866 |
貧困率 | 3.3 | 5.7 | 5.7 | 9.3 |
一人当たり小売店売上(ドル) | 4756 | 9027 | 9027 | 9579 |
暴力事件発生率(10万人当たり件数) | 138 | 207 | 207 | 404 |
グループ3はなぜかビバリーが(1)と(2)を兼ねています。他に適当な自治体がなかったのでしょう。これもメルローズとビバリーでは人口密度が2倍違うし、小売店売り上げは約半分だし、暴力事件発生率も2/3程度です。
グループ4 | GIPANDOsあり | GIPANDOsなし(1) | GIPANDOsなし(2) | |
ニュートン | ブルックリン | アーリントン | (参考)マサチューセッツ州 | |
人口 | 85945 | 59132 | 43290 | 6349097 |
面積(平方マイル) | 18.05 | 6.79 | 5.18 | 7800 |
人口密度(人/平方マイル) | 4761 | 8709 | 8357 | 814 |
白人率 | 88.1 | N/A | N/A | 84.5 |
年齢の中央値(歳) | 39.4 | 35.7 | 41.7 | 39.4 |
世帯所得中央値(ドル) | 119148 | 96488 | 89841 | 66866 |
貧困率 | 4.3 | N/A | N/A | 9.3 |
一人当たり小売店売上(ドル) | 12193 | N/A | N/A | 9579 |
暴力事件発生率(10万人当たり件数) | 88 | 137 | 117 | 404 |
グループ4はデータが不足していて比べにくいですが、人口密度、年齢の中央値、暴力事件発生数がかなり異なることがわかります。
グループ5 | GIPANDOsあり | GIPANDOsなし(1) | GIPANDOsなし(2) | |
セイラム | リビア | ウォルサム | (参考)マサチューセッツ州 | |
人口 | 41654 | 52459 | 61181 | 6349097 |
面積(平方マイル) | 8.1 | 5.91 | 12.7 | 7800 |
人口密度(人/平方マイル) | 5142 | 8876 | 4817 | 814 |
白人率 | 85.4 | 84.4 | 83 | 84.5 |
年齢の中央値(歳) | 37 | 38.2 | 34 | 39.4 |
世帯所得中央値(ドル) | 55780 | 51863 | 74198 | 66866 |
貧困率 | 9.7 | 14.6 | 7 | 9.3 |
一人当たり小売店売上(ドル) | 7668 | 7273 | 10200 | 9579 |
暴力事件発生率(10万人当たり件数) | 378 | 508 | 237 | 404 |
グループ5は人口密度、貧困率、暴力事件発生数が異なってます。
グループ6 | GIPANDOsあり | GIPANDOsなし(1) | GIPANDOsなし(2) | |
サマーヴィル | ケンブリッジ | ウォルサム | (参考)マサチューセッツ州 | |
人口 | 76519 | 106038 | 61181 | 6349097 |
面積(平方マイル) | 4.11 | 6.43 | 12.7 | 7800 |
人口密度(人/平方マイル) | 18618 | 16491 | 4817 | 814 |
白人率 | 77 | 68.1 | 83 | 84.5 |
年齢の中央値(歳) | 30.7 | 31.2 | 34 | 39.4 |
世帯所得中央値(ドル) | 67118 | 72529 | 74198 | 66866 |
貧困率 | 12.5 | 12.9 | 7 | 9.3 |
一人当たり小売店売上(ドル) | 7512 | 11905 | 10200 | 9579 |
暴力事件発生率(10万人当たり件数) | 348 | 403 | 237 | 404 |
グループ6はウォルサム人口密度が極端に低いです。小売店売り上げもサマーヴィルがかなり少ないです。
グループ7 | GIPANDOsあり | GIPANDOsなし(1) | GIPANDOsなし(2) | |
スワンプスコット | マーブルヘッド | ミルトン | (参考)マサチューセッツ州 | |
人口 | 13896 | 19964 | 27182 | 6349097 |
面積(平方マイル) | 3.05 | 4.53 | 13.04 | 7800 |
人口密度(人/平方マイル) | 4556 | 4407 | 2085 | 814 |
白人率 | N/A | N/A | N/A | 84.5 |
年齢の中央値(歳) | 44.4 | 44.4 | 38.8 | 39.4 |
世帯所得中央値(ドル) | 92258 | 98399 | 111071 | 66866 |
貧困率 | N/A | N/A | N/A | 9.3 |
一人当たり小売店売上(ドル) | N/A | N/A | N/A | 9579 |
暴力事件発生率(10万人当たり件数) | N/A | 134 | 102 | 404 |
グループ7は人口が少ないせいか全然データが得られませんでしたが、それでも人口密度に差があります。
総括
最も信頼がなければならないグループ1において相当の差異がでていることが、マッチドペア分析の信頼性を失わせています。他のグループでもすべて差異があります。全グループで人口密度にかなりの差があったことは特筆すべきでしょう。
そもそもマサチューセッツ州内でマッチドペアを作ろうとすること自体に無理があったと言わざるを得ません。
例え話
第1グループのボストン(62万人)、ケンブリッジ(10.6万人)、チェルシー(3.6万人)は街の規模が全然違います。人口だけ考えると、東京都で例えれば足立区(68万人)と昭島市(11万人)と瑞穂町(3.3万人)に相当します。ですがこの3自治体の人口密度は全然違います(12775・6455・1950人/平方キロ)。
また、ボストンの人口密度(12907人/平方マイル=4983人/平方キロ)と近い東京都の自治体を3つ選ぶなら、千代田区(5417人/平方キロ)、稲城市(5051人/平方キロ)、武蔵村山市(4686人/平方キロ)となりますが、どう考えても、この3つの自治体が同じ傾向になるとは思えません。例えば平均年収は順に944万、399万、312万とかなりの差があります。
マッチする自治体は選択可能なのか
すると、そもそもマッチドペア分析で完璧にマッチする自治体を選択できるのか?という疑問が生じます。おそらくそれは不可能です。公衆トイレ論文において「マサチューセッツ州内で最も傾向の似ている自治体を選択した」という手続きは完全に正しいでしょう。可能な限り、マサチューセッツ州内で選択できる範囲内で、傾向の似ている自治体が選択されたことに疑いはありません。ただし、「選択できる範囲内で最も傾向が似ている」にすぎません。「傾向が強い」ということは以上の検証よりありえません。
結論
公衆トイレ論文におけるマッチドペア分析では、適切な比較対象を選択することが不可能だった。したがって論文の分析結果には、意味がない。
さらに重要な事実
検証中、論文内に、データの不足について書いてあることに気づきました。まず、スワンプスコットについてはデータが得られなかったとあります。したがってグループ7については公衆トイレ論文の調査対象外です。
また、ケンブリッジ、リビア、チェルシーについてもデータが得られなかったため、調査から外した、これに関連して、得られなかったデータが必要なセイラム、サマーヴィル、ボストンについても調査対象外としたという衝撃的な事実が小さな字でさらっと書いてありました。つまりグループ1、5,6についても調査対象外です。この調査はグループ2、3,4についてのみ行われたということです!
ボストンを外してこの論文に何の意味があるのでしょう?東京都(927万人)を対象にした調査だっつってるのに、足立区(68万人)を調査から外して羽村市(5.7万人)、稲城市(8.4万人)、日の出町(1.7万人)だけで統計を取りました、といっていることと同じです。マジでこの統計何の意味があるの?私のまじめに調査した時間返せよ!
(1/16追記)GIPANDOs自治体の人口合計は約15万人ですから、法制度施行前の10万人当たり犯罪率が0だったのも頷けます。本当に0人なんです。サンプル数が極端に少なすぎるんですね。法制度施行後の10万人当たり犯罪率も0.5ですので、これは1件ということですね。つまり、GIPANDOs自治体のサンプル数は1です。
結論2
公衆トイレ論文は調査の体をなしていない。読むだけ時間の無駄。