تقلب؟ 3


بررسی عددسازی‌ها و تناقضات آمار صندوق‌ها در این وبلاگ 
تنافض در آمار تفکیکی بیش از دویست حوزه +
گزارش موسسه چتم هاوس +
آمار و روان‌شناسی +
میان آرای اعلام شده توسط وزارت کشور و گزارش پرس‌تی‌وی اختلاف وجود دارد +
در نمودار احمدی نژاد، منحنی از جایی نزدیک به یک شروع می شود و سیر نزولی رو طی می کند ولی بقیه نمودارها سیر صعودی رو از صفر شروع می کنند که نشان می دهیم که نشانه تقلب در انتخابات است. +

اما بریم سراغ بن‌فورد:
خاکریز اقتصاد دو مقاله دیگر در این باره معرفی کرده است. (البته این آقا، مقاله‌ی جدیدتری در سایتش گذاشته است.)
این مطلب سایت الف درباره صحت انتخابات بر اساس قانون بنفورد را بخوانید (در رابطه با این مقاله سایت انتخاب) و البته کامنت‌های "حسن توکلی" زیر آن را هم نگاه کنید که اشتباهات نویسنده را نشان داده است. 

یکی دیگر از دوستانم (حمید و.) هم مشغول محاسبه بنفورد شده است. دو نمودار از مقایسه اعداد انتخابات ایران و انتخابات امریکا با توزیع بنفورد به دست آورده است. این مربوط به اعداد صندوق‌هاست که برای ایران 45000 و نمونه امریکا 3500 صندوق است. همینطور این دوستم گفته که در اکثر استان‌ها آرای احمدی‌نژاد و مجموع خیلی مخدوش است و البته در مورد کروبی و رضایی هم باید توجه داشت که اعداد خیلی پایین است و لزوما به نتایج این تست نمی‌توان اطمینان کرد.



مطلبی که در زیر می‌آید، توضیحات یکی از دوستانم درباره قانون بنفورد است، شاید شما هم بخواهید به زبان خیلی ساده با این قانون آشنا شوید:

می‌دونیم که مثلا قد آقایان یا قد خانوم‌ها، هر کدوم دارای توزیع احتمالاتی (پی‌دی‌اف) نرمال (گوسین) هستن. همینطور بسیاری پدیده‌ها هستن که مثلا توزیع احتمالاتی یکنواخت دارن.
در این بین، پدیده‌هایی هستن که توزیع نمایی دارن. مثل جمعیت شهرها یا کشورها. کلا جمعیت پدیده‌ای هست که به صورت نمایی رشد می‌‌کنه. یا مثلا متغیر تصادفی تعداد دوست‌های یه آدم هم دارای توزیع نمایی هست. یعنی چی؟ یعنی اینکه احتمال اینکه یه آدم بیشتر دوست داشته باشه به صورت نمایی هی کم می‌شه.

جناب نیوکامب (۱۸۸۱) و جناب بنفورد (۱۹۳۸) مشاهدات جالبی داشتن: اینکه در چنین مواردی به طرز بامزه‌ای رقم سمت چپ اعدادی که به عنوان جمعیت شهرها هستن، میل دارن اعداد کوچکتری باشن. یعنی بیشتر ۱ هست. بعد ۲ هست. بعد ۳ هست و ... و ۹ از همه کمتر ظاهر میشه. چرا؟ با توجه به بحثی که شد با کمی دقت روشن میشه که احتمال اینکه رقم سمت چپ عددی که از توزیع نمایی حاصل شده، برابر ۱ باشه برابر هست با  log(2 / 1) و احتمال اینکه ۲ باشه برابره با log(3 / 2) و احتمال اینکه برابر باشه با n هست  log( (n+1)  /   n). میبینی که احتمال‌ها داره کم میشه. اگه اینا رو محاسبه کنیم احتمال اینکه اولین رقم سمت چپ برابر با ۱، ۲، ...، ۹ باشه، هست: 0.301 -  0.176 - 0.125 - 0.097 - 0.079 - 0.069 - 0.058 - 0.051 - 0.046

پس ما می‌تونیم برای رقم سمت چپ جمعیت شهرها یه متغیر تصادفی جدید تعریف کنیم که از توزیع بالا پیروی می‌کنه. پر واضحه که کمیت ما گسسته هست و ۹ حالت به خودش می‌تونه بگیره. حالا مسئله چیه؟ مسئله اینه که در پدیده‌ای به نام انتخابات، یا اعداد و ارقام مربوط به اقتصاد که ذاتا نمایی هستن، ما می‌تونیم بیایم روی رقم سمت چپ اعداد برآمده، متغیر تصادفی جدیدی با توزیع بالا در نظر بگیریم و ببینیم که آیا اعداد برآمده از این توزیع پیروی می‌کنن یا نه. خب اگه از این توزیع تا حد خوبی تبعیت کنن که فبها المراد و نعم المطلوب. اما اگه خیلی فیت نشن، شائبه این به وجود میاد که اعداد به صورت طبیعی به دست نیومدن و عددسازی صورت گرفته. البته همه اینها احتمالاتیه. مثلا من به دست آوردم که احتمال اینکه فقط مقوله‌ای به نام شانس، باعث به وجود اومدن آمار کروبی شده باشه، چیزی هست در حدود ۴ در ده‌هزار که اصلا قابل قبول نیست. یعنی حداقل باید می‌شد ۵ در صد که شائبه عددسازی به وجود نیاد. اما همون‌طور که یکی از مقالات هم گفته بود اعداد کروبی عادی نیستن.

از اینجا به بعد حرفام رو می‌تونی از این منبع دنبال کنی:
میدانیم که آزمون‌های مختلفی وجود داره برای اینکه ببینیم آیا دسته‌ای از اعداد روی توزیع احتمالاتی (پی‌دی‌اف) خاصی فیت می‌شن یا نه. یکی از معروف‌ترین آزمون‌ها آزمون مربع-کای (کای-۲) هست. که چی کار می‌کنه؟ میاد با توجه به توزیع احتمالاتی گسسته ‌(پی‌دی‌اف) و اعداد برآمده از آزمایش (انتخابات یا هر چی)، یک عدد تولید می‌کنه به نام آماره کای-۲. اسمش رو بذار X2. فرمولش رو از منبع گفته شده می‌‌تونی ببینی. خب؟ حالا نگاه می‌کنه می‌بینه که چند درجه آزادی داریم. مثلا در حالتی که رقم سمت چپ می‌تونه ۹ حالت اتخاذ کنه یعنی ۸ درجه آزادی داریم (یکی کمتر) بعد ما یه توزیع احتمالاتی کای-۲ هم داریم که یه پارامتر به عنوان درجه آزادی می‌گیره. این رو توی نرم‌افزار متلب با تابع: chi2cdf نشون می‌دن. درجه آزادی و X2 رو به عنوان ورودی می‌دی به chi2cdf و به عنوان خروجی میزان احتمالی رو که ممکنه چیزی به غیر از شانس (عددسازی) باعث به وجود اومدن این عدد شده باشه رو بهت میده.
به تجربه ثابت شده که اگر عدد حاصله زیر ۹۵٪ بود مشکلی نیست و طبیعی هست. اما اگه بالای ۹۵٪ بود هر چی بیشتر باشه، مشکوک‌تره. توی محاسبات من، احتمال احمدی‌نژاد شد ۹۳٪ شد که میشه زیرسیبیلی ردش کرد ولی کروبی شد ۹۹.۹۶ ٪ که بسیار آنرماله.

همه این صحبتا که انجام شد، رو میشه برای متغیر تصادفی دومین، سومین و ... رقم سمت چپ هم انجام داد. منتها اوناهر کدوم توزیع احتمالاتی (پی‌دی‌اف) خاص خودشون رو دارن
که نزدیک به یکنواخته. مثلا احتمال اینکه یه عدد با ۱۲ شروع بشه (برای عددی حاصل از توزیع احتمالاتی نمایی) برابر هست با: log (13 / 12) پس بنابراین احتمال اینکه رقم دوم عددی برابر ۲ باشه برابر هست با log(13 / 12) + log(23 / 22) + log(33 / 32) + ... + log(93 / 92).
و به این ترتیب میشه جدولی از احتمالات برای ۱۰ حالت مختلفی که رقم دوم یه عدد می‌تونه داشته باشه (۰ و ۱ و ... و ۹) به دست آورد و محاسبات رو ایضا ادامه داد. فقط توجه به این نکته ضروری هست که برای رقم‌های دوم و سوم و چهارم و ... از سمت چپ ۱۰ حالت محتمل وجود داره (بر خلاف رقم سمت چپ که ۹ حالت داره) و در نتیجه ۹ درجه آزادی داریم نه ۸ درجه آزادی که حین محاسبه  ch2cdf باید پارامتر ۹ به عنوان درجه آزادی پاس بشه.

این یه توضیح مختصر مفید بود از این داستان بنفورد. این رو هم بگم که برای اولین بار در سال ۱۹۷۲ شخصی به نام هال واریان پیشنهاد داد که از این قانون (بنفورد) در مباحث اجتماعی-اقتصادی استفاده بشه. اگه سرچ بکنی، در مورد تقلب‌های انتخاباتی ونزوئلا و امریکا هم مقالاتی پیدا می‌کنی که با استفاده از همین قانون کشف شده.

در نقد حرف نویسنده وبلاگ خاکریز اقتصاد راجع به مقاله فرانسوی:
تنها دلیلی که گفتن نمیشه روی رقم اول بنفورد زد، ظاهرا این هست که نرم‌افزارهای عددساز رقم اول رو لحاظ می‌کنن و انجام این کار معتبر نیست. و یا یه توجیه دیگه می‌ تونه این باشه که احتمال اینکه رقم دوم از توزیع بنفورد پیروی کنه بیشتره. چرا؟ چون اگه تعداد آرا کم باشه، با توجه به اینکه رقم اول ارزش بیشتری داره احتمال اینکه باندهای قابل قبولی از توان‌های ۱۰ رو بتونه به خوبی کاور کنه، به مراتب کمتر از رقم دوم هست. و در نتیجه رقم دوم معتبرتره. باید در محاسبات چک بشه که باندها به خوبی پوشونده بشن. اون آقا فرانسویه هم این چک رو انجام داده و ایرادی که نویسنده وبلاگ به جناب فرانسوی گرفته، معتبر نیست.

یک مقاله دیگر +

 

رای:

2 نظر:

نوید گفت...

درود
نوح عزیز، یکی از 2 شرط‌بندی را به شما باختم! (به یاد دارید که؟ صعود به جام‌جهانی و انتخاب احمدی‌نژاد)
بگذریم. نوح عزیز، بعضی از لینک‌هایی که گذاشتید در رد تقلب انتخاباتی مشکل دارد! مثلاً در مورد خطی بودن، استدلال وبلاگ پسر فهمیده اساساً مشکل دارد. به علاوه استدلال تابناک درباره‌ی شکست کاندیداها در استان خود هم اساساً مغالطه است! این آمار را ببینید:
http://fa.wikipedia.org/wiki/%D8%A2%D9%85%D8%A7%D8%B1_%D8%A7%D9%86%D8%AA%D8%AE%D8%A7%D8%A8%D8%A7%D8%AA_%D8%B1%DB%8C%D8%A7%D8%B3%D8%AA_%D8%AC%D9%85%D9%87%D9%88%D8%B1%DB%8C_%DB%B1%DB%B3%DB%B8%DB%B8
آقای موسوی در استان آذربایجان شرقی، آقای کروبی در لرستان و آقای رضایی در خوزستان، هر سه در برابر احمدی‌نژاد شکست خورده‌اند. حالا تابناک به جای استناد به استان‌ها آمده یک شهر از هر استان را که آقای احمدی‌نژاد در آن شهر رای دوم را آورده انتخاب کرده و گذاشته. نمی‌شود که...
بیایید تلاش کنیم یک جمع‌بندی از این تقلب‌ها منتشر کنیم. به عبارتی تمام یادداشت‌های این چند روزه و استدلال‌هایی که تازه به ذهن‌تان رسیده را به صورت کاملاً دسته‌بندی شده در یک یادداشت جدید منتشر کنیم و این بار به جای استناد به وبلاگ‌ها و سایت‌ها، به آمارهای رسمی وزارت کشور استناد کنیم. موافقید؟ به علاوه آمارهای انتخابات‌های قبلی و انتخابات‌های آمریکا را هم پیدا کنیم و آن‌ها را از لحاظ خطی بودن و از لحاظ قومی بررسی کنیم. من هم آماده‌ی همکاری‌ام. تنها وظیفه‌ام را مشخص کنید. آیا موافقید؟
پیروز باشید

نوح گفت...

آقا ما کی باشیم که بخواهیم وظیفه مشخص کنیم. من پایه ام. از همین خطی بودن شروع کنیم. ته و توش رو در بیاریم. استدلال حامد قدوسی چی میگه؟