تقلب؟ 3
بررسی عددسازیها و تناقضات آمار صندوقها در این
وبلاگ
تنافض در آمار تفکیکی بیش از دویست حوزه
+
گزارش موسسه چتم هاوس
+
آمار و روانشناسی
+
میان آرای اعلام شده توسط وزارت کشور و گزارش پرستیوی اختلاف وجود دارد
+
در نمودار احمدی نژاد، منحنی از جایی نزدیک به یک
شروع می شود و سیر نزولی رو طی می کند ولی بقیه نمودارها سیر صعودی رو از صفر شروع
می کنند که نشان می دهیم که نشانه تقلب در انتخابات است.
+
اما بریم سراغ بنفورد:
خاکریز
اقتصاد دو مقاله دیگر در این باره معرفی کرده است. (البته این
آقا،
مقالهی جدیدتری در
سایتش گذاشته است.)
این مطلب سایت الف درباره صحت
انتخابات بر اساس قانون بنفورد را بخوانید (در رابطه با
این مقاله سایت
انتخاب) و البته کامنتهای "حسن توکلی" زیر آن را هم نگاه کنید که اشتباهات
نویسنده را نشان داده است.
یکی دیگر از دوستانم (حمید و.) هم مشغول محاسبه بنفورد شده است. دو نمودار از
مقایسه اعداد انتخابات ایران و انتخابات امریکا با توزیع بنفورد به دست آورده است.
این مربوط به اعداد صندوقهاست که برای ایران 45000 و نمونه امریکا 3500 صندوق است.
همینطور این دوستم گفته که در اکثر استانها آرای احمدینژاد و مجموع خیلی مخدوش
است و البته در مورد کروبی و رضایی هم باید توجه داشت که اعداد خیلی پایین است و
لزوما به نتایج این تست نمیتوان اطمینان کرد.
مطلبی که در زیر میآید، توضیحات یکی از دوستانم درباره
قانون بنفورد است، شاید
شما هم بخواهید به زبان خیلی ساده با این قانون آشنا شوید:
میدونیم که مثلا قد آقایان یا قد خانومها، هر کدوم دارای توزیع احتمالاتی
(پیدیاف) نرمال (گوسین) هستن.
همینطور بسیاری پدیدهها هستن که مثلا توزیع احتمالاتی یکنواخت دارن.
در این بین، پدیدههایی هستن که توزیع نمایی دارن. مثل جمعیت شهرها یا کشورها.
کلا جمعیت پدیدهای هست که
به صورت نمایی رشد میکنه. یا مثلا متغیر تصادفی تعداد دوستهای یه آدم هم
دارای توزیع نمایی هست. یعنی چی؟
یعنی اینکه احتمال اینکه یه آدم بیشتر دوست داشته باشه به صورت نمایی هی کم
میشه.
جناب نیوکامب (۱۸۸۱) و جناب بنفورد (۱۹۳۸) مشاهدات جالبی داشتن: اینکه در چنین
مواردی به طرز بامزهای رقم سمت چپ اعدادی که به عنوان جمعیت شهرها هستن، میل
دارن اعداد کوچکتری باشن. یعنی بیشتر ۱ هست. بعد ۲ هست. بعد ۳ هست و ... و ۹ از
همه کمتر ظاهر میشه. چرا؟
با توجه به بحثی که شد با کمی دقت روشن میشه که احتمال اینکه رقم سمت چپ عددی
که از توزیع نمایی حاصل شده، برابر ۱ باشه برابر هست با
log(2 / 1) و احتمال اینکه ۲ باشه برابره با
log(3 / 2)
و احتمال اینکه برابر باشه با n
هست
log( (n+1) / n).
میبینی که احتمالها داره کم میشه. اگه اینا رو محاسبه کنیم احتمال اینکه اولین رقم
سمت چپ برابر با ۱، ۲، ...، ۹ باشه، هست: 0.301 - 0.176 - 0.125 - 0.097
- 0.079 - 0.069 - 0.058 - 0.051 - 0.046
پس ما میتونیم برای رقم سمت چپ جمعیت شهرها یه متغیر تصادفی جدید تعریف کنیم
که از توزیع بالا پیروی میکنه.
پر واضحه که کمیت ما گسسته هست و ۹ حالت به خودش میتونه بگیره.
حالا مسئله چیه؟ مسئله اینه که در پدیدهای به نام انتخابات، یا اعداد و ارقام
مربوط به اقتصاد که ذاتا نمایی هستن، ما میتونیم بیایم
روی رقم سمت چپ اعداد برآمده، متغیر تصادفی جدیدی با توزیع بالا در نظر بگیریم
و ببینیم که آیا اعداد برآمده از این توزیع پیروی میکنن یا نه.
خب اگه از این توزیع تا حد خوبی تبعیت کنن که فبها المراد و نعم المطلوب. اما
اگه خیلی فیت نشن، شائبه این به وجود میاد که اعداد به صورت طبیعی به دست
نیومدن
و عددسازی صورت گرفته. البته همه اینها احتمالاتیه. مثلا من به دست آوردم که
احتمال اینکه فقط مقولهای به نام شانس، باعث به وجود اومدن آمار کروبی شده
باشه،
چیزی هست در حدود ۴ در دههزار که اصلا قابل قبول نیست. یعنی حداقل باید میشد
۵ در صد که شائبه عددسازی به وجود نیاد. اما همونطور که یکی از مقالات هم گفته
بود
اعداد کروبی عادی نیستن.
از اینجا به بعد حرفام رو میتونی از این
منبع دنبال کنی:
میدانیم که آزمونهای مختلفی وجود داره برای
اینکه ببینیم آیا دستهای از اعداد روی توزیع احتمالاتی (پیدیاف) خاصی فیت
میشن یا نه.
یکی از معروفترین آزمونها آزمون مربع-کای (کای-۲) هست. که چی کار میکنه؟
میاد با توجه به توزیع احتمالاتی گسسته (پیدیاف) و اعداد برآمده از آزمایش
(انتخابات یا هر چی)، یک عدد تولید میکنه به نام
آماره کای-۲. اسمش رو بذار
X2.
فرمولش رو از منبع گفته شده میتونی ببینی.
خب؟ حالا نگاه میکنه میبینه که چند درجه آزادی داریم. مثلا در حالتی که رقم
سمت چپ میتونه ۹ حالت اتخاذ کنه یعنی ۸ درجه آزادی داریم (یکی کمتر)
بعد ما یه توزیع احتمالاتی کای-۲ هم داریم که یه پارامتر به عنوان درجه آزادی
میگیره. این رو توی نرمافزار متلب با تابع:
chi2cdf
نشون میدن. درجه آزادی و
X2
رو به عنوان ورودی میدی به
chi2cdf
و به عنوان خروجی میزان احتمالی رو که ممکنه چیزی به غیر از شانس (عددسازی)
باعث به وجود اومدن این عدد شده باشه رو بهت میده.
به تجربه ثابت شده که اگر عدد حاصله زیر ۹۵٪ بود مشکلی نیست و طبیعی هست. اما
اگه بالای ۹۵٪ بود هر چی بیشتر باشه، مشکوکتره.
توی محاسبات من، احتمال احمدینژاد شد ۹۳٪ شد که میشه زیرسیبیلی ردش کرد ولی
کروبی شد ۹۹.۹۶ ٪ که بسیار آنرماله.
همه این صحبتا که انجام شد، رو میشه برای متغیر تصادفی دومین، سومین و ... رقم
سمت چپ هم انجام داد. منتها اوناهر کدوم توزیع احتمالاتی (پیدیاف) خاص خودشون
رو دارن
که نزدیک به یکنواخته.
مثلا احتمال اینکه یه عدد با ۱۲ شروع بشه (برای عددی حاصل از توزیع احتمالاتی
نمایی) برابر هست با:
log (13 / 12) پس بنابراین احتمال اینکه رقم دوم عددی برابر ۲ باشه برابر هست
با
log(13 / 12) + log(23 / 22) + log(33 / 32) + ... + log(93 / 92).
و به این ترتیب میشه جدولی از احتمالات برای ۱۰ حالت مختلفی که رقم دوم یه عدد
میتونه داشته باشه (۰ و ۱ و ... و ۹) به دست آورد و محاسبات رو ایضا ادامه
داد.
فقط توجه به این نکته ضروری هست که برای رقمهای دوم و سوم و چهارم و ... از
سمت چپ ۱۰ حالت محتمل وجود داره (بر خلاف رقم سمت چپ که ۹ حالت داره)
و در نتیجه ۹ درجه آزادی داریم نه ۸ درجه آزادی که حین محاسبه
ch2cdf
باید پارامتر ۹ به عنوان درجه آزادی پاس بشه.
این یه توضیح مختصر مفید بود از این داستان بنفورد. این رو هم بگم که برای
اولین بار در سال ۱۹۷۲ شخصی به نام
هال واریان
پیشنهاد داد که از این قانون (بنفورد) در مباحث اجتماعی-اقتصادی استفاده بشه.
اگه سرچ بکنی، در مورد تقلبهای انتخاباتی ونزوئلا و امریکا
هم مقالاتی پیدا میکنی که با استفاده از همین قانون کشف شده.
در نقد حرف نویسنده وبلاگ
خاکریز
اقتصاد راجع به مقاله فرانسوی: تنها دلیلی
که گفتن نمیشه روی رقم اول بنفورد زد، ظاهرا این هست که نرمافزارهای عددساز رقم
اول رو لحاظ میکنن و انجام این کار معتبر نیست. و یا یه توجیه دیگه می تونه این
باشه که احتمال اینکه رقم دوم از توزیع بنفورد پیروی کنه بیشتره. چرا؟ چون اگه
تعداد آرا کم باشه، با توجه به اینکه رقم اول ارزش بیشتری داره احتمال اینکه
باندهای قابل قبولی از توانهای ۱۰ رو بتونه به خوبی کاور کنه، به مراتب کمتر از
رقم دوم هست. و در نتیجه رقم دوم معتبرتره. باید در محاسبات چک بشه که باندها به
خوبی پوشونده بشن. اون آقا فرانسویه هم این چک رو انجام داده و ایرادی که نویسنده
وبلاگ به جناب فرانسوی گرفته، معتبر نیست.
یک مقاله دیگر +

2 نظر:
درود
نوح عزیز، یکی از 2 شرطبندی را به شما باختم! (به یاد دارید که؟ صعود به جامجهانی و انتخاب احمدینژاد)
بگذریم. نوح عزیز، بعضی از لینکهایی که گذاشتید در رد تقلب انتخاباتی مشکل دارد! مثلاً در مورد خطی بودن، استدلال وبلاگ پسر فهمیده اساساً مشکل دارد. به علاوه استدلال تابناک دربارهی شکست کاندیداها در استان خود هم اساساً مغالطه است! این آمار را ببینید:
http://fa.wikipedia.org/wiki/%D8%A2%D9%85%D8%A7%D8%B1_%D8%A7%D9%86%D8%AA%D8%AE%D8%A7%D8%A8%D8%A7%D8%AA_%D8%B1%DB%8C%D8%A7%D8%B3%D8%AA_%D8%AC%D9%85%D9%87%D9%88%D8%B1%DB%8C_%DB%B1%DB%B3%DB%B8%DB%B8
آقای موسوی در استان آذربایجان شرقی، آقای کروبی در لرستان و آقای رضایی در خوزستان، هر سه در برابر احمدینژاد شکست خوردهاند. حالا تابناک به جای استناد به استانها آمده یک شهر از هر استان را که آقای احمدینژاد در آن شهر رای دوم را آورده انتخاب کرده و گذاشته. نمیشود که...
بیایید تلاش کنیم یک جمعبندی از این تقلبها منتشر کنیم. به عبارتی تمام یادداشتهای این چند روزه و استدلالهایی که تازه به ذهنتان رسیده را به صورت کاملاً دستهبندی شده در یک یادداشت جدید منتشر کنیم و این بار به جای استناد به وبلاگها و سایتها، به آمارهای رسمی وزارت کشور استناد کنیم. موافقید؟ به علاوه آمارهای انتخاباتهای قبلی و انتخاباتهای آمریکا را هم پیدا کنیم و آنها را از لحاظ خطی بودن و از لحاظ قومی بررسی کنیم. من هم آمادهی همکاریام. تنها وظیفهام را مشخص کنید. آیا موافقید؟
پیروز باشید
آقا ما کی باشیم که بخواهیم وظیفه مشخص کنیم. من پایه ام. از همین خطی بودن شروع کنیم. ته و توش رو در بیاریم. استدلال حامد قدوسی چی میگه؟
ارسال يک نظر