مروری بر نرم‌افزارهای آماری رایگان

همکار یابش - جباری۱۴۰۲-۱۰-۳۰بازدید ۴۷۹
Posted on

مروری بر نرم‌افزارهای آماری رایگان

نرم‌افزار آماری رایگان چیست؟

نرم‌افزار آماری رایگان، یک جایگزین عملی برای نرم‌افزارهای آماری تجاری است. بسیاری از افراد برنامه‌های رایگانی که از نظر عملکرد مشابه بسته‌های تجاری هستند را ترجیح می‌دهند، زیرا برخی از بسته‌های آماری رایگان تجزیه و تحلیل‌های آماری مختلفی را انجام می‌دهند اما بسیاری از برنامه‌های رایگان نیز برای استفاده به طور خاص برای توابع خاص مانند تحلیل عاملی، تحلیل توان در محاسبات اندازه نمونه، طبقه بندی و درختان رگرسیون یا تجزیه و تحلیل داده های از دست رفته طراحی شده اند.

به طور کلی نرم‌افزارهای آماری به دو دسته منو محور و فرمان محور تقسیم می‌شوند.یادگیری نرم‌افزارهای منو محور نسبتاً آسان است. برخی دیگر از نرم‌افزارها، بسته‌های متا یا محیط‌های محاسباتی آماری هستند که به کاربر اجازه می‌دهند رویه‌های آماری کاملاً جدیدی را کدنویسی کنند. این بسته ها از منابع مختلفی از جمله دولت ها، دانشگاه ها و افراد خصوصی ارائه می شوند.

این مقاله در درجه اول مروری بر بسته های آماری عمومی است.

نرم افزار های آماری رایگان

تاریخچه مختصر نرم‌افزارهای آماری رایگان

نرم‌افزار آماری SAS یکی از اولین بسته‌های آماری تجاری بود که در سال ۱۹۶۸ برای مِین‌فریم‌ها منتشر شد. SAS از آن زمان نسخه‌های رایگان برای استفاده را منتشر کرده است که جدیدترین آنها SAS Studio است. Epi Info یک برنامه رایگان برای استفاده از مراکز کنترل و پیشگیری از بیماری ها در دهه ۱۹۸۰ توسعه یافت. یکی از اولین نرم‌افزارهای آماری کاملاً رایگان و منبع باز R بود که برای اولین بار در سال ۲۰۰۰ منتشر شد.

برخی از بسته‌های نرم‌افزار رایگان از طرف دولت‌ها ارائه می‌شوند، به عنوان مثال Epi Info، که از CDC (مراکز کنترل و پیشگیری از بیماری‌ها) است. برخی از بسته‌های نرم‌افزاری دیگر از سازمان‌ها یا دانشگاه های کوچکتر یا مستقل هستند. JASP توسط دانشگاه آمستردام پشتیبانی می شود. دو بسته دیگر، R، و PSPP به عنوان بخشی از پروژه گنو توسط گروه بزرگی از افراد، که بسیاری از آنها داوطلب هستند، در سراسر جهان در حال توسعه هستند. این بسته‌ها از این جهت قابل توجه هستند که فقط منبع باز نیستند، بلکه نرم‌افزار رایگان هستند، به همان معنا که مطالب نوشته‌شده در ویکی‌پدیا رایگان است: دیگران می‌توانند به دلخواه ویرایش، استفاده و توزیع مجدد کنند.

OpenStat به عنوان یک کمک آموزشی توسعه داده شد. بسته های دیگر برای اهداف خاصی توسعه یافته اند، اما می توانند به طور کلی تر مورد استفاده قرار گیرند. یک مثال Epi Info است که برای سلامت عمومی توسعه یافته است.

این نرم‌افزارهای رایگان در تعدادی از نشریات علمی استفاده شده‌اند. به عنوان مثال، OpenStat در یک نامه تحقیقاتی به JAMA و در چندین مطالعه منتشر شده استفاده شد. Irristat در یک گزارش کشاورزی استفاده شد، EasyReg، EpiInfo، R و WinIdams در چندین مقاله استفاده شده است.

بررسی نرم‌افزارهای آماری رایگان

چند بررسی از نرم افزارهای آماری رایگان وجود دارد. دو بررسی در مجلات وجود داشت (اما نه توسط همتایان)، یکی توسط ژو و کولجاکا و مقاله دیگری توسط گرانت که عمدتاً شامل بررسی مختصری از R بود. ژو و کولجاکا برخی از ویژگی‌های مفید نرم‌افزار مانند سهولت استفاده، داشتن تعدادی رویه‌های آماری و توانایی توسعه رویه‌های جدید را تشریح کردند. آنها چندین برنامه را بررسی کردند و مشخص کردند که کدام یک در آن زمان بیشترین عملکرد را داشتند. در آن زمان، چندین برنامه ممکن است تمام توانایی مورد نظر برای آمارهای پیشرفته را نداشته باشند. گرانت برخی از ویژگی های برنامه نویسی R را بررسی کرد و به طور خلاصه به در دسترس بودن برنامه های دیگر اشاره کرد. یک مقاله دیگر بسته های آماری، عمدتا تجاری، اما شامل R را بررسی کرد. یک مقاله EasyReg را بررسی کرد و در مورد دقت آن بحث کرد.

تنها دو بررسی خروجی بسته‌های مختلف را مقایسه کرده‌اند. در بررسی سال ۲۰۰۶، همه بسته‌ها فایل‌های CSV یا فرمت مایکروسافت اکسل را می‌خوانند. همه بسته‌ها دقیقاً نتایج یکسانی برای همبستگی و رگرسیون دادند. بسته‌های نرم‌افزار رایگان نیز همان نتایج رگرسیونی را ارائه می‌دهند که اکسل انجام داد. یکی از تفاوت‌های اصلی بین بسته‌ها نحوه مدیریت داده‌های از دست رفته بود. با مجموعه داده‌های نمونه استفاده شده در بررسی، و برای نسخه‌های بسته موجود در نوامبر ۲۰۰۶، زمانی که این بررسی انجام شد، دو بسته، MicrOsiris و Epi Info، می‌توانند فایل‌هایی را با موارد خالی بخوانند. دو برنامه دیگر، Stat4U و WinIdams به چیزی برای موارد گمشده نیاز دارند، مانند -۹ یا -۹٫۹۹٫ بسته‌های دیگر فقط می‌توانند مجموعه‌های داده‌ای را بدون مقادیر گمشده مدیریت کنند. بررسی اخیر، از سال ۲۰۲۲، خروجی تعدادی از بسته‌های آماری رایگان را مقایسه کرد و متوجه شد که همه آنها تقریباً نتایج یکسانی دارند.

در مقابل، بررسی‌های مختلفی از نرم افزارهای آماری تجاری وجود دارد، مانند مقایسه بین چندین بسته اصلی و بررسی مختصر چندین بسته.

استفاده از نرم‌افزارهای آماری رایگان

قبل از استفاده از هر بسته آماری، به طور کلی خوب است که یک پیشینه قوی در آمار داشته باشید. سپس می‌توانید از بسته ها به بهترین نحو استفاده کنید، به عنوان مثال، برای انتخاب مناسب‌ترین آزمون، باید اطمینان حاصل کرد که تمام فرضیات لازم برآورده شده است، تا بتوان نتیجه‌گیری مناسب را گرفت.

هنگامی که مسائل آماری درک شدند، گام بعدی این است که تصمیم بگیرید از کدام بسته استفاده کنید. اکثر این بسته‌ها منو محور هستند و حداکثر ظرف چند ساعت قابل یادگیری هستند، به جز R، که معمولاً کد محور (یا فرمان محور) است و به زمان بسیار بیشتری برای یادگیری نیاز دارد و تا حدی CDC Epi Info، که همچنین برای یادگیری کمی زمان می‌برد.

تعدادی از پکیج ها آموزش هم دارند. این آموزش ها به معرفی اولیه و یادگیری اصول اولیه برنامه ها کمک می کند. برای مثال، CDC آموزش هایی در مورد Epi Info دارد. صفحه CDC همچنین یک آموزش نمایش اسلاید ویدیویی از دانشگاه نبراسکا را فهرست می‌کند و سایت دیگری کلاس‌های آموزشی آنلاین دارد. R دارای تعداد زیادی آموزش و راهنما، به زبان انگلیسی و سایر زبان‌ها است مانند سایت R FAQ که از جمله آنهاست. SPSS دارای یک آموزش بسیار آسان برای پیگیری، و مجموعه ای غنی از تجزیه و تحلیل های آماری، از جمله T-test، Oneway و Factorial Anova، رگرسیون خطی و لجستیک و تجزیه و تحلیل اجزای اصلی است. همچنین پیش‌بینی شده است که وارد کردن داده‌ها از بسیاری از فرمت‌های فایل مختلف بسیار آسان باشد. تعدادی از بسته‌ها دارای فهرست‌های بحث ایمیل هستند، از جمله R و PSPP.

اکثر بسته ها دارای راهنما هستند. این موارد زمانی مفید هستند که سوالاتی در مورد روش‌های خاص یا آزمون های آماری داشته باشید. بر روی راهنما SPSS  و راهنما R، کلیک کنید و وارد صفحه راهنما شوید. سایت CDC EpiInfo خود راهنما ندارد، اما Emory، یکی از اعضای هیئت علمی دانشکده بهداشت عمومی یک کتابچه راهنمای مقدماتی EpiInfo را منتشر کرده است.

اکثر بسته های تجاری و رایگان عمده رویه‌های آماری مشترک دارند. دلیل اصلی استفاده از بسته های رایگان احتمالاً هزینه است.

بسته‌های منو محور

بسیاری از بسته ها دارای نوعی منوی باز هستند که برای دریافت یا وارد کردن داده‌ها، دستکاری داده ها و انتخاب تجزیه و تحلیل آماری استفاده می شود. پس از شروع برنامه، به طور کلی داده ها را می توان از مجموعه داده های ذخیره شده قبلی یا وارد کردن از فرمت دیگری به دست آورد. از این منو می‌توان فایل‌های‌ داده در فرمت‌های مختلف را وارد کرد. به عنوان مثال، اگر داده ها به صورت CSV (متن با کاما بین مقادیر) باشند، برنامه فرمت را تشخیص داده و یک مجموعه داده از فایل CSV ایجاد می کند. در نهایت می توان از برنامه برای انجام برخی تحلیل‌ها استفاده کرد. در این منوی تجزیه و تحلیل می توان متغیرهای مورد علاقه را به همراه سایر گزینه ها انتخاب کرد. سپس آنالیز اجرا می شود و نتایج بدست می آید.

بسته‌های فرمان محور

بسته‌های فرمان محور نیاز به کد نویسی دارند لذا برای استفاده از این بسته‌ها باید زبان برنامه نویسی مورد نیاز را یادبگیرید. یادگیری نرم‌افزارهای فرمان محور سخت‌تر است و به زمان بیشتری نیاز دارد. R را می‌توان هم به صورت منو محور و هم به عنوان یک زبان برنامه نویسی و هم به عنوان مفسر استفاده کرد.

گرفتن داده

اکثر بسته‌ها می‌توانند داده‌ها را از اکسل یا CSV وارد کنند.

نکته‌ی مهم این است که آیا داده‌های گم شده وجود دارد یا خیر. برخی از بسته ها مانند PSPP و MicrOsiris می‌توانند به طور خودکار با داده‌های از دست رفته مقابله کنند. به عنوان مثال، تصور کنید یک مجموعه از داده ها به این شکل است:

گرفتن داده

در این مجموعه داده، مقدار سن سام و محل تولد سالی گم شده است. وقتی برخی از بسته‌ها، مانند PSPP یا MicrOsiris، مجموعه داده اصلی را می‌خوانند یا وارد می‌کنند، بسته‌ها تشخیص می‌دهند که آن مقادیر گم شده‌اند و محاسبات خود را بر این اساس انجام می‌دهند. MicrOsiris به طور خودکار ۱٫۵ یا ۱٫۶ میلیارد را به جای خالی اختصاص می دهد و این مقادیر از تجزیه و تحلیل حذف می شوند.

بسته‌های دیگر نیاز به یک نگه‌دارنده دارند، مانند «-۹» که در آن داده‌های گمشده وجود دارد. قبل از استفاده از بسته برای خواندن داده‌ها، مجموعه داده‌ها باید ویرایش شوند تا در جایی که داده‌های گمشده وجود دارد، قرار گیرد. بنابراین برای مثال:

داده های گم شده

اگر مجموعه داده در واقع شامل ‘-۹’ باشد، در این صورت زمانی که داده ها در برنامه خوانده می‌شوند باید به آن ها گفته شود که ۹- به معنای داده‌های از دست رفته است.

محدودیت های بسته‌ها

اکثر بسته ها به نوعی محدودیت‌هایی دارند.

برخی از برنامه ها، از جمله Easyreg، Epidata و Instat، به نظر می‌رسد که داده های از دست رفته را مدیریت یا به خوبی از آن استفاده نمی‌کنند. در حالی که EpiInfo روش های آماری زیادی دارد، همبستگی یکی از آنها نیست. بلکه با رگرسیون همبستگی پیدا می شود. این بدان معناست که EpiInfo یک جدول منفرد که همبستگی بین متغیرهای متعدد را نشان دهد تولید نخواهد کرد. طبق کتابچه راهنمای نصب Zelig، استفاده از Zelig مستلزم آن است که R و چندین کتابخانه آن قبلاً نصب شده باشند، و نصب همچنین به درجاتی از پیشینه در R نیاز دارد. یک محدودیت MicrOsiris در مدیریت خروجی است. هنگامی که محاسبات کامل شد، صفحات خروجی از طریق نتایج عبور می‎‌کنند، اما کادرهای مختلف منو نیز بر روی نتایج ظاهر می شوند و بنابراین نمی توان به نتایج دسترسی داشت. خروجی را می توان به عنوان یک فایل متنی ذخیره کرد و سپس استفاده کرد.

R توسط تعداد زیادی از مردم در سراسر جهان نوشته می شود و هم مورد استفاده قرار می گیرد و از بسیاری از انجمن ها و سایر امکانات اینترنتی می توان برای دریافت پشتیبانی از سایر کاربران استفاده کرد. در حالی که R قدرتمند است، منحنی یادگیری می تواند برای کسانی که قبلاً با انواع دیگر برنامه نویسی علمی آشنا نیستند، نسبتاً شیب دار باشد.

منبع: https://en.wikipedia.org/wiki/Free_statistical_software

این پست چقدر برای شما مفید بود؟

روی یک ستاره کلیک کنید تا به آن امتیاز دهید!

میانگین امتیاز ۰ / ۵٫ تعداد امتیاز: ۰

اولین نفری باشید که به این پست امتیاز می دهید.

اشتراک گذاری این مطلب:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *