معرفی پایگاه های داده های پژوهشی Research Data Repositories
پایگاه داده های پژوهشی چیست؟
اساس علم را دادههای پژوهشی تولید شده توسط پژوهشگران تشکیل میدهد که با اشتراکگذاری آنها میتوان به پیشبرد بیشتر علم و پژوهش کمک کرد، اشتراکگذاری و به دنبال آن دسترسپذیری دادههای پژوهشی قابلیتهای زیادی برای پیشرفتهای علمی فراهم کرده و باعث تسهیل در بازتولید نتایج پژوهشها می شود. دسترسی به داده های علمی معتبر یک دغدغه برای محققان و پژوهشگران است. در این پایگاه های داده انواع سیاست ها، ملاحظات و راهنماها برای اشتراک گذاری داده ها در حمایت از محققان وجود دارد. این امر منجر به ایمن بودن اشتراک گذاری داده ها و عدم سوء استفاده دیگر محققان از پژوهش ها می شود.
پایگاه های داده های پژوهشی پلتفرم های قابل اعتمادی هستند که پژوهشگران می توانند داده های علمی خود را در این مکانها به اشتراک گذاشته و دیگر محققان از آنها بهره ببرند. این پایگاه ها تمامی داده ها، یادداشت ها، اسناد تحقیقاتی، راهنماهای مصاحبه ها، تجزیه و تحلیل ها، گزارش ها و سایر منابع را ذخیره کرده و امکان جستجو و دسترس پذیری آنها را برای سایر محققان فراهم می آورند. یکی از مهمترین معیارهای اشتراک گذاری داده ها در این پایگاه ارائه داده های پژوهشی به صورت خام است. منظور از داده خام دادههایی هستند که هنوز پردازش و پاکسازی نشدهاند و دادههای پرت از آنها جدا نشده است یا تحلیلهایی مانند تعیین شاخصهای مرکزی مانند میانگین حسابی یا میانه بر روی آنها صورت نگرفته است. همچنین دادههای خام بخشی از اطلاعاتی هستند که هنوز از سوی برنامه های نرمافزاری یا محقق، تحلیلگر یا تکنسین انسانی دستکاری نشده اند و هر گونه تحلیل بر روی آنها امکان پذیر است.
مزایای اشتراک گذاری داده های پژوهشی:
مدیریت صحیح دادههای پژوهشی موجب میشود که پژوهشگران هم خود بتوانند بعدها به دادهها مراجعه کنند و در پژوهشهای دیگر خود از آنها استفاده نمایند، و هم با اشتراکگذاری دادهها این امکان را برای سایر پژوهشگران فراهم نمایند که بتوانند آن دادهها را برای اهداف دیگر مورد استفاده قرار دهند. در حال حاضر بیشتر پژوهشگران علاوه بر مقاله، دادههای پژوهشی خام را که شامل دادههایی برای تحلیل و ارائه نتایج یک پژوهش بهصورت رقومی جمعآوری، مشاهده و یا تولید شده است و در نرمافزارهای مختلف مانند SPSS , Excel و … ذخیره شدهاند و یا داده های تحلیلی مانند مصاحبه ها، گزارش ها، بررسی ها و سایر اَشکال داده های پژوهشی را نیز ارسال میکنند تا برای عموم مردم دسترسپذیر باشد. اشتراک گذاری داده های پژوهشی برای جامعه علمی مزایای بیشماری دارد که برخی از آنها عبارتند از:
- ترویج پژوهشهای جدید
- تقویت انسجام پژوهشهای پیشین
- تسهیل فرصتهای یادگیری دانشجویان
- جلوگیری از جمعآوری دوباره دادههای تکراری
- افزایش اثر پژوهشها
- افزایش شانس همکاری
- کاهش انجام پژوهش های تکراری
- افزایش شهرت دانشگاهی
- پذیرش سیاستهای حامیان مالی پژوهشها و الزامات نشریات
- اعتبار یابی پژوهشها
- آزمون فرضیههای جدید با استفاده از دادههای موجود
- کمک به پیشبرد علم
اصول اشتراک گذاری داده های پژوهش:
هر محقق برای جمع آوری داده های علمی مربوط به پژوهش خود متحمل زحمت و هزینه زیادی می شود. به همین دلیل اشتراک گذاری این داده ها باید به گونه ای باشد که مورد سوء استفاده قرار نگیرد و به آنها استناد داده شود. از سوی دیگر سایر محققان باید از صحت داده های علمی موجود در پایگاه ها اطمینان حاصل کرده تا پژوهش آنها نیز دچار انحراف نشود. بر همین اساس اشتراک گذاری داده های پژوهشی دارای اصولی است که برخی از آنها عبارتند از:
- نویسندگان باید داده های خود را به شکل خام ارائه دهند تا سایر محققان بتوانند به آسانی تجزیه و تحلیل مدنظر خود را بر روی آنها انجان دهند.
- داده های ارائه شده به پایگاه های داده باید همراه با یک نسخه از پژوهش انجام شده باشند تا پیوند بین داده ها و پژوهش بررسی شده و صحت داده ها تائید گردد.
- ارسال داده های پژوهشی به پایگاه ها بخشی از روند انتشار یک پژوهش است و نمی تواند به صورت مجزا انجام گیرد.
- داده ها باید به پایگاه های موضوعی مرتبط با خود ارسال شوند و پیوند متنی خود را دریافت کنند. در صورتی که پایگاه مرتبط وجود نداشت آنگاه داده ها به یک پایگاه عمومی ارسال خواهند شد.
- برای اطمینان از استناد تمامی داده ها با یک پیوند به متن اصلی پژوهش منتشر می شوند.
- دسترسی به تمامی داده ها برای سایر محققان باید به صورت رایگان و باز باشد.
- در صورتی که داده ها محرمانه باشند و دسترسی عمومی به آنها با محدودیت مواجه بود، نویسندگان باید یک رمز عبور ایمن برای کاربران در نظر گرفته و پس از آن اجازه دسترسی به داده ها صادر شود.
- داده های ارائه شده به پایگاه ها توسط ویراستاران و اعضای هیئت تحریریه ای که پژوهش در آن مجله منتشر می شود مورد بررسی قرار می گیرند.
- داده هایی که نیاز به حفاظت از حریم خصوصی دارند، مانند داده های مربوط به انسان ها فقط تحت شرایط خاص به دیگر کاربران داده می شوند.
- پایگاه های داده باید متعهد شوند که داده ها را برای حفظ طولانی مدت در آزمایشگاه ها و سرورهای خود نگهداری می کنند. حداقل زمان نگهداری داده ها در یک پایگاه ۵ سال است.
- داده های موجود در پایگاه ها می توانند توسط نویسندگان بروزرسانی شوند.
- دیگر محققان موظف هستند به تمامی مجموعه داده های استفاده شده در پایگاه ها استناد دهند.
معیارهای یک پایگاه داده مناسب:
- اطمینان از حفظ و تداوم طولانی مدت مجموعه داده های ارسال شده
- ارائه شناسه های پایدار به نویسنده ها برای مجموعه داده های ارسالی
- اجازه دسترسی به داده ها بدون ایجاد موانع و یا دریافت حق اشتراک از سوی سایر محققان
- پشتیبانی از سیستم های مجوز باز مانند CC0 و CC-BY
- امکان بررسی محرمانه داده ها بدون نیاز به دریافت اطلاعات شناسایی از سوی سایر محققان
- استفاده از استانداردهای گزارش دهی مناسب برای هر رشته تخصصی و داده های آن
- دارای زیرساخت فنی پایدار باشد
- دارای برنامه های اضطراری برای اطمینان از در دسترس بودن و نگهداری داده ها
- به کشف، استفاده مجدد و استناد آسان مجموعه داده ها کمک می کند
- دسترسی گسترده، عادلانه و حداکثر باز به مجموعه داده ها و ابرداده ها
- مجموعه داده ها و ابرداده ها را برای استفاده مجدد در دسترس قرار می دهد
- توانایی اندازه گیری اسناد، استناد و استفاده مجدد از داده ها را فراهم می کند
- از دسترسی، تغییر و انتشار غیرمجاز داده ها جلوگیری می کند
- دارای امکان ثبت مبدا، زنجیره نگهداری و اصلاح داده ها یا ابرداده ها
- دارای رویه هایی برای رسیدگی به تخلفات و سوء مدیریت داده ها است.
انواع پایگاه های داده:
- پایگاه داده های بزرگ: این پایگاه های برای ذخیره سازی مجموعه داده های بزرگ استفاده می شود و به سازمان کمک می کند تا بتوانند به اطلاعات مشتریان دسترسی داشته و برنامه ریزی های متناسب با آنها را انجان دهند.
- پایگاه داده های پروژه: در این پایگاه ها اطلاعات و داده های مربوط به یک پروژه خاص و معمولا بزرگ ذخیره می شود. محققان برای انجام پژوهش های مربوط به این نوع از پروژه ها به این پایگاه ها مراجعه می کنند.
- پایگاه های داده های دولتی: در این پایگاه ها داده ها و اطلاعاتی که توسط دولت ها و مراکز عمومی جمع آوری شده اند برای شفافیت عمومی در دسترس کاربران قرار می گیرند.
- پایگاه داده های پژوهشی: این نوع پایگاه ها علمی هستند و داده های مربوط به پژوهش ها و پایان نامه ها را ذخیره می کنند. دسترسی به این داده ها رایگان و برای عموم آزاد است.
- پایگاه داده های نهادی: برخی از سازمان ها و موسسات مانند دانشگاه ها، بیمارستان ها، شرکت های بزرگ و سایر مراکز مهم دارای پایگاه هایی برای ذخیره داده های کلیدی و مهم خود هستند. دسترسی به این داده ها برای عموم امکان پذیر نیست.
تعدادی از مهمترین پایگاه های داده های پژوهشی:
- Datadryad: پایگاه داده های پژوهشی دریاد یک پلتفرم دیجیتال عمومی است که مجموعه داده های پژوهشی را به اشتراک می گذارد. دسترسی به داده های این پایگاه رایگان است و محققان می توانند از داده های موجود در جهت استفاده مجدد بهره ببرند. یکی از ویژگی های این پایگاه اختصاص شناسه دیجیتال به تمامی داده های موجود در مجموعه به منظور بازیابی سریع تر آنها در هنگام جستجو است. همچنین دریاد با استفاده از استانداردهای موجود اقدام به بارگذاری، فهرست بندی، بازیابی و قابلیت مشاهده داده ها می نماید تا به این ترتیب سطح بازیابی آنها را توسط کاربران ارتقاء بخشد. داده های موجود در این وب سایت به صورت طولانی مدت توسط پایگاه حفظ می شوند تا دستیابی به آنها در طی مدت زمان طولانی همچنان امکان پذیر باشد و به این روش استنادپذیری پژوهش ها افزایش یابد.
- Figshare: فیگشیر پایگاهی است که در آن کاربران می توانند تمام داده های تحقیقاتی خود را به روشی قابل استناد، قابل اشتراک و قابل کشف در دسترس قرار دهند. دادهها میتوانند به صورت خصوصی با همکاران به اشتراک گذاشته شوند یا به نام تحقیق آزاد یا مطابق با مجوزهای تأمین مالی و ناشر، به اطلاع عموم برسند. تمام نتایج تحقیقاتی که به صورت عمومی منتشر می شوند یک شناسه اختصاصی به منظور استناددهی دریافت میکنند. فیگشیر یک پایگاه داده عمومی است که طیف وسیعی از موضوعات را شامل می شود.
- Mendeley: مندلی یک پایگاه داده بر پایه فضای ابری است که به منظور ذخیره سازی امن، به اشتراک گذاری و بهره گیری از داده های پژوهش توسط محققان مورد استفاده قرار میگیرد. در مندلی داده های پژوهش که مهمترین اصل در روند انجام هر پژوهش هستند توسط محققان ذخیره سازی شده و این داده ها در یک فضای ابری با میزبانی امن نگهداری شده و از حذف و از دسترس خارج شدن آنها جلوگیری می شود. داده های ذخیره شده در این ابزار می تواند به آسانی توسط دیگر محققان مورد استفاده قرار گرفته و به آنها استناد شود، به همین دلیل رویت پذیری و استناد مقالات نیز به این روش افزایش می یابد. در واقع مندلی یک پلتفرم مبتنی بر ابر است که وظیفه آن مدیریت داده های پژوهش به شکل امن است.
- Harvard Dataverse: مجموعه هاروارد دیتاورس یک پایگاه عمومی داده های پژوهشی است که به صورت رایگان در اختیار تمامی محققان و پژوهشگران قرار دارد. محققان با استفاده از این پایگاه می توانند به داده های تمامی پژوهش های موجود در هر رشته ای که انجام شده است دسترسی داشته باشند، در آنها جستجو انجام دهند، آنها را بایگانی کنند، به آنها استناد کنند و نتایج تحقیقات خود را به اشتراک بگذارند. در این پایگاه مجموعه های مجزایی از رشته های علمی متفاوت وجود دارد. پژوهشگران با قرار دادن فراداده تحقیقات خود در این پایگاه یک شناسه داده استاندارد دریافت خواهند کرد که با نمایه شدن در پایگاه اطلاعاتی توسط موتورهای جستجو قابل کاوش و دستیابی است. همچنین پژوهشگران می توانند میزان دستیابی کاربران به داده های خود را تعیین نمایند و دسترسی آن را باز قرار داده و یا محدود سازند. این پایگاه در واقع یک راه حل ویژه به منظور مدیریت داده های پژوهشی فردی یا سازمانی است که استفاده از آن مزایای بسیاری برای پژوهشگران به همراه دارد.
- Zenodo: زنودو یک پایگاه داده های پژوهشی دسترسی آزاد است که اقدام به ارائه داده های پژوهشی به شکل رایگان می نماید. در واقع این پایگاه یک Open Data است که ابزاری برای مدیریت داده های بزرگ در کتابخانه های دیجیتال محسوب می شود. زنودو با کشورهای مختلف و رشته های علمی گوناگون فعالیت و همکاری دارد. یک ویژگی مهم زنودو انتشار داده های پژوهش های در حال انجام است. گاهی ممکن است انتشار نتایج یک پژوهش ماه ها و یا سال ها به طول انجامد و سایر پژوهشگران از پژوهش های در حال انجام اطلاعی نداشته باشند، اما زنودو با انتشار داده ها و مشخصات این گونه از پژوهش ها اقدام به معرفی آنها به سایر محققان می نماید.
- CIT NINDS: یک پایگاه داده تخصصی پزشکی به منظور به اشتراک گذاری داده های تحقیقات تروماتیک مغزی است که برای تسهیل همکاری بین آزمایشگاه ها و همچنین ارتباط متقابل با سایر پلت فرم های مشابه راه اندازی شده است. این پایگاه داده های پژوهشی، روش شناسی ها، ابزارهای مرتبط و سایر ابزارها و روش ها را به منظور تجزیه و تحلیل مجدد، تجمیع مجدد داده ها، ادغام و مقایسه آنها در جهت پیشرفت تحقیقات علمی منتشر می کند.
- Illuminating Druggable Genome: این پایگاه داده امکان دسترسی به داده های پیرامون تولید و تحقیق و بررسی در زمینه دارویی را فراهم می آورد. این پلتفرم داده ها را از منابع مختلف گردآوری می کند تا دیگر محققان بتوانند به سرعت داده های مورد نیاز خود را جستجو، مرور و بهره برداری کنند.
- IEEE DataPort: این پایگاه داده ایمن توسط پایگاه IEEE پشتیبانی می شود و دارای مجموعه ای قوی از داده های علمی است که کاربران را قادر می سازد به هزاران مجموعه داده معتبر دسترسی داشته باشند و برای ادامه روند تحقیقات خود از آنها بهره بگیرند. دسترسی به داده های موجود رایگان است و همین امر به محققان کمک می کند تا روند تحقیقات خود را تسریع بخشیده، نوآوری را تقویت کنند و از تکرار تحقیقات جلوگیری نمایند.
- ICPSR: این پلتفرم نتیجه یک کنسرسیوم بین المللی متشکل از بیش از ۸۱۰ موسسه دانشگاهی و سازمان تحقیقاتی به منظور دسترسی به داده ها، مدیریت داده ها و روش های تجزیه و تحلیل داده ها برای جامعه تحقیقاتی است. آرشیو این پلتفرم دارای بیش از ۳۵۰ هزار رکورد در زمینه تحقیقات علوم اجتماعی و رفتاری است. پایگاه داده ICPSR میزبان ۳۵ مجموعه تخصصی داده در زمینه آموزش، عدالت کیفری، اعتیاد، تروریسم و سایر موضوعات اجتماعی است.
- DataSearch: دیتا سرچ الزویر یک موتور جستجوی دادهای است که به دانشمندان و محققان اجازه میدهد تا انواع مختلفی از داده ها را با فرمتهای مختلف از میان حوزههای موضوعی مختلف، مؤسسات مختلف و سایر منابع دادهای جستجو کنند. در این موتور جستجو نتایج بهصورت یکپارچه نمایش داده میشود تا کاربران اطلاعات مفیدی مربوط به کلیدواژه مورد جستجو به دست آوردند. در دیتا سرچ پیشنمایشی برای کاربران قبل از مشاهده کامل مدرک جهت ارزیابی وجود دارد، این پیشنمایش شامل چکیدهای از مدرک و تصاویر و جداول و… است که به کاربران کمک میکند، از طریق این مجموعهی دادهای که فراهم شده است به راحتی و با سرعت به ارزیابی مدارک بازیابی شده بپردازند. در این دیتاسرچ ها هم داده و ابرداده بهمنظور تسهیل در تطبیق جستجوی کاربر با مدارک نمایه شده وجود دارد.