نرمافزار آماری رایگان چیست؟
نرمافزار آماری رایگان، یک جایگزین عملی برای نرمافزارهای آماری تجاری است. بسیاری از افراد برنامههای رایگانی که از نظر عملکرد مشابه بستههای تجاری هستند را ترجیح میدهند، زیرا برخی از بستههای آماری رایگان تجزیه و تحلیلهای آماری مختلفی را انجام میدهند اما بسیاری از برنامههای رایگان نیز برای استفاده به طور خاص برای توابع خاص مانند تحلیل عاملی، تحلیل توان در محاسبات اندازه نمونه، طبقه بندی و درختان رگرسیون یا تجزیه و تحلیل داده های از دست رفته طراحی شده اند.
به طور کلی نرمافزارهای آماری به دو دسته منو محور و فرمان محور تقسیم میشوند.یادگیری نرمافزارهای منو محور نسبتاً آسان است. برخی دیگر از نرمافزارها، بستههای متا یا محیطهای محاسباتی آماری هستند که به کاربر اجازه میدهند رویههای آماری کاملاً جدیدی را کدنویسی کنند. این بسته ها از منابع مختلفی از جمله دولت ها، دانشگاه ها و افراد خصوصی ارائه می شوند.
این مقاله در درجه اول مروری بر بسته های آماری عمومی است.
تاریخچه مختصر نرمافزارهای آماری رایگان
نرمافزار آماری SAS یکی از اولین بستههای آماری تجاری بود که در سال ۱۹۶۸ برای مِینفریمها منتشر شد. SAS از آن زمان نسخههای رایگان برای استفاده را منتشر کرده است که جدیدترین آنها SAS Studio است. Epi Info یک برنامه رایگان برای استفاده از مراکز کنترل و پیشگیری از بیماری ها در دهه ۱۹۸۰ توسعه یافت. یکی از اولین نرمافزارهای آماری کاملاً رایگان و منبع باز R بود که برای اولین بار در سال ۲۰۰۰ منتشر شد.
برخی از بستههای نرمافزار رایگان از طرف دولتها ارائه میشوند، به عنوان مثال Epi Info، که از CDC (مراکز کنترل و پیشگیری از بیماریها) است. برخی از بستههای نرمافزاری دیگر از سازمانها یا دانشگاه های کوچکتر یا مستقل هستند. JASP توسط دانشگاه آمستردام پشتیبانی می شود. دو بسته دیگر، R، و PSPP به عنوان بخشی از پروژه گنو توسط گروه بزرگی از افراد، که بسیاری از آنها داوطلب هستند، در سراسر جهان در حال توسعه هستند. این بستهها از این جهت قابل توجه هستند که فقط منبع باز نیستند، بلکه نرمافزار رایگان هستند، به همان معنا که مطالب نوشتهشده در ویکیپدیا رایگان است: دیگران میتوانند به دلخواه ویرایش، استفاده و توزیع مجدد کنند.
OpenStat به عنوان یک کمک آموزشی توسعه داده شد. بسته های دیگر برای اهداف خاصی توسعه یافته اند، اما می توانند به طور کلی تر مورد استفاده قرار گیرند. یک مثال Epi Info است که برای سلامت عمومی توسعه یافته است.
این نرمافزارهای رایگان در تعدادی از نشریات علمی استفاده شدهاند. به عنوان مثال، OpenStat در یک نامه تحقیقاتی به JAMA و در چندین مطالعه منتشر شده استفاده شد. Irristat در یک گزارش کشاورزی استفاده شد، EasyReg، EpiInfo، R و WinIdams در چندین مقاله استفاده شده است.
بررسی نرمافزارهای آماری رایگان
چند بررسی از نرم افزارهای آماری رایگان وجود دارد. دو بررسی در مجلات وجود داشت (اما نه توسط همتایان)، یکی توسط ژو و کولجاکا و مقاله دیگری توسط گرانت که عمدتاً شامل بررسی مختصری از R بود. ژو و کولجاکا برخی از ویژگیهای مفید نرمافزار مانند سهولت استفاده، داشتن تعدادی رویههای آماری و توانایی توسعه رویههای جدید را تشریح کردند. آنها چندین برنامه را بررسی کردند و مشخص کردند که کدام یک در آن زمان بیشترین عملکرد را داشتند. در آن زمان، چندین برنامه ممکن است تمام توانایی مورد نظر برای آمارهای پیشرفته را نداشته باشند. گرانت برخی از ویژگی های برنامه نویسی R را بررسی کرد و به طور خلاصه به در دسترس بودن برنامه های دیگر اشاره کرد. یک مقاله دیگر بسته های آماری، عمدتا تجاری، اما شامل R را بررسی کرد. یک مقاله EasyReg را بررسی کرد و در مورد دقت آن بحث کرد.
تنها دو بررسی خروجی بستههای مختلف را مقایسه کردهاند. در بررسی سال ۲۰۰۶، همه بستهها فایلهای CSV یا فرمت مایکروسافت اکسل را میخوانند. همه بستهها دقیقاً نتایج یکسانی برای همبستگی و رگرسیون دادند. بستههای نرمافزار رایگان نیز همان نتایج رگرسیونی را ارائه میدهند که اکسل انجام داد. یکی از تفاوتهای اصلی بین بستهها نحوه مدیریت دادههای از دست رفته بود. با مجموعه دادههای نمونه استفاده شده در بررسی، و برای نسخههای بسته موجود در نوامبر ۲۰۰۶، زمانی که این بررسی انجام شد، دو بسته، MicrOsiris و Epi Info، میتوانند فایلهایی را با موارد خالی بخوانند. دو برنامه دیگر، Stat4U و WinIdams به چیزی برای موارد گمشده نیاز دارند، مانند -۹ یا -۹٫۹۹٫ بستههای دیگر فقط میتوانند مجموعههای دادهای را بدون مقادیر گمشده مدیریت کنند. بررسی اخیر، از سال ۲۰۲۲، خروجی تعدادی از بستههای آماری رایگان را مقایسه کرد و متوجه شد که همه آنها تقریباً نتایج یکسانی دارند.
در مقابل، بررسیهای مختلفی از نرم افزارهای آماری تجاری وجود دارد، مانند مقایسه بین چندین بسته اصلی و بررسی مختصر چندین بسته.
استفاده از نرمافزارهای آماری رایگان
قبل از استفاده از هر بسته آماری، به طور کلی خوب است که یک پیشینه قوی در آمار داشته باشید. سپس میتوانید از بسته ها به بهترین نحو استفاده کنید، به عنوان مثال، برای انتخاب مناسبترین آزمون، باید اطمینان حاصل کرد که تمام فرضیات لازم برآورده شده است، تا بتوان نتیجهگیری مناسب را گرفت.
هنگامی که مسائل آماری درک شدند، گام بعدی این است که تصمیم بگیرید از کدام بسته استفاده کنید. اکثر این بستهها منو محور هستند و حداکثر ظرف چند ساعت قابل یادگیری هستند، به جز R، که معمولاً کد محور (یا فرمان محور) است و به زمان بسیار بیشتری برای یادگیری نیاز دارد و تا حدی CDC Epi Info، که همچنین برای یادگیری کمی زمان میبرد.
تعدادی از پکیج ها آموزش هم دارند. این آموزش ها به معرفی اولیه و یادگیری اصول اولیه برنامه ها کمک می کند. برای مثال، CDC آموزش هایی در مورد Epi Info دارد. صفحه CDC همچنین یک آموزش نمایش اسلاید ویدیویی از دانشگاه نبراسکا را فهرست میکند و سایت دیگری کلاسهای آموزشی آنلاین دارد. R دارای تعداد زیادی آموزش و راهنما، به زبان انگلیسی و سایر زبانها است مانند سایت R FAQ که از جمله آنهاست. SPSS دارای یک آموزش بسیار آسان برای پیگیری، و مجموعه ای غنی از تجزیه و تحلیل های آماری، از جمله T-test، Oneway و Factorial Anova، رگرسیون خطی و لجستیک و تجزیه و تحلیل اجزای اصلی است. همچنین پیشبینی شده است که وارد کردن دادهها از بسیاری از فرمتهای فایل مختلف بسیار آسان باشد. تعدادی از بستهها دارای فهرستهای بحث ایمیل هستند، از جمله R و PSPP.
اکثر بسته ها دارای راهنما هستند. این موارد زمانی مفید هستند که سوالاتی در مورد روشهای خاص یا آزمون های آماری داشته باشید. بر روی راهنما SPSS و راهنما R، کلیک کنید و وارد صفحه راهنما شوید. سایت CDC EpiInfo خود راهنما ندارد، اما Emory، یکی از اعضای هیئت علمی دانشکده بهداشت عمومی یک کتابچه راهنمای مقدماتی EpiInfo را منتشر کرده است.
اکثر بسته های تجاری و رایگان عمده رویههای آماری مشترک دارند. دلیل اصلی استفاده از بسته های رایگان احتمالاً هزینه است.
بستههای منو محور
بسیاری از بسته ها دارای نوعی منوی باز هستند که برای دریافت یا وارد کردن دادهها، دستکاری داده ها و انتخاب تجزیه و تحلیل آماری استفاده می شود. پس از شروع برنامه، به طور کلی داده ها را می توان از مجموعه داده های ذخیره شده قبلی یا وارد کردن از فرمت دیگری به دست آورد. از این منو میتوان فایلهای داده در فرمتهای مختلف را وارد کرد. به عنوان مثال، اگر داده ها به صورت CSV (متن با کاما بین مقادیر) باشند، برنامه فرمت را تشخیص داده و یک مجموعه داده از فایل CSV ایجاد می کند. در نهایت می توان از برنامه برای انجام برخی تحلیلها استفاده کرد. در این منوی تجزیه و تحلیل می توان متغیرهای مورد علاقه را به همراه سایر گزینه ها انتخاب کرد. سپس آنالیز اجرا می شود و نتایج بدست می آید.
بستههای فرمان محور
بستههای فرمان محور نیاز به کد نویسی دارند لذا برای استفاده از این بستهها باید زبان برنامه نویسی مورد نیاز را یادبگیرید. یادگیری نرمافزارهای فرمان محور سختتر است و به زمان بیشتری نیاز دارد. R را میتوان هم به صورت منو محور و هم به عنوان یک زبان برنامه نویسی و هم به عنوان مفسر استفاده کرد.
گرفتن داده
اکثر بستهها میتوانند دادهها را از اکسل یا CSV وارد کنند.
نکتهی مهم این است که آیا دادههای گم شده وجود دارد یا خیر. برخی از بسته ها مانند PSPP و MicrOsiris میتوانند به طور خودکار با دادههای از دست رفته مقابله کنند. به عنوان مثال، تصور کنید یک مجموعه از داده ها به این شکل است:
در این مجموعه داده، مقدار سن سام و محل تولد سالی گم شده است. وقتی برخی از بستهها، مانند PSPP یا MicrOsiris، مجموعه داده اصلی را میخوانند یا وارد میکنند، بستهها تشخیص میدهند که آن مقادیر گم شدهاند و محاسبات خود را بر این اساس انجام میدهند. MicrOsiris به طور خودکار ۱٫۵ یا ۱٫۶ میلیارد را به جای خالی اختصاص می دهد و این مقادیر از تجزیه و تحلیل حذف می شوند.
بستههای دیگر نیاز به یک نگهدارنده دارند، مانند «-۹» که در آن دادههای گمشده وجود دارد. قبل از استفاده از بسته برای خواندن دادهها، مجموعه دادهها باید ویرایش شوند تا در جایی که دادههای گمشده وجود دارد، قرار گیرد. بنابراین برای مثال:
اگر مجموعه داده در واقع شامل ‘-۹’ باشد، در این صورت زمانی که داده ها در برنامه خوانده میشوند باید به آن ها گفته شود که ۹- به معنای دادههای از دست رفته است.
محدودیت های بستهها
اکثر بسته ها به نوعی محدودیتهایی دارند.
برخی از برنامه ها، از جمله Easyreg، Epidata و Instat، به نظر میرسد که داده های از دست رفته را مدیریت یا به خوبی از آن استفاده نمیکنند. در حالی که EpiInfo روش های آماری زیادی دارد، همبستگی یکی از آنها نیست. بلکه با رگرسیون همبستگی پیدا می شود. این بدان معناست که EpiInfo یک جدول منفرد که همبستگی بین متغیرهای متعدد را نشان دهد تولید نخواهد کرد. طبق کتابچه راهنمای نصب Zelig، استفاده از Zelig مستلزم آن است که R و چندین کتابخانه آن قبلاً نصب شده باشند، و نصب همچنین به درجاتی از پیشینه در R نیاز دارد. یک محدودیت MicrOsiris در مدیریت خروجی است. هنگامی که محاسبات کامل شد، صفحات خروجی از طریق نتایج عبور میکنند، اما کادرهای مختلف منو نیز بر روی نتایج ظاهر می شوند و بنابراین نمی توان به نتایج دسترسی داشت. خروجی را می توان به عنوان یک فایل متنی ذخیره کرد و سپس استفاده کرد.
R توسط تعداد زیادی از مردم در سراسر جهان نوشته می شود و هم مورد استفاده قرار می گیرد و از بسیاری از انجمن ها و سایر امکانات اینترنتی می توان برای دریافت پشتیبانی از سایر کاربران استفاده کرد. در حالی که R قدرتمند است، منحنی یادگیری می تواند برای کسانی که قبلاً با انواع دیگر برنامه نویسی علمی آشنا نیستند، نسبتاً شیب دار باشد.
منبع: https://en.wikipedia.org/wiki/Free_statistical_software