Nowe podejście do roli nauki o danych, dużych zbiorów danych i otwartych danych w badaniach naukowych
Wpływ technologii cyfrowych, narzędzi komunikacyjnych i rozwoju dużych zbiorów danych na badania naukowe ma zasadnicze znaczenie dla sposobów organizowania badań naukowych i innowacji przez sektor prywatny i publiczny. Takie innowacje technologiczne mają również wpływ na sposób dystrybucji środków przez organy finansujące i prawodawcze.
Zarządzanie danymi i rola tego procesu w badaniach
W ramach finansowanego ze środków UE projektu DATA SCIENCE zbadano, w jaki sposób dane badawcze są pozyskiwane, przetwarzane, rozpowszechniane i ponownie wykorzystywane w różnych sytuacjach badawczych. Analizując praktyki związane z danymi w sześciu obszarach badań, zespół projektu sformułował koncepcyjne i metodologiczne ramy analizy jakościowej tzw. obiegu danych (ang. Data journeys) – warunków, w których dane mogą być pozyskiwane i ponownie wykorzystywane w różnych kontekstach, w celu zwiększenia ich wartości jako dowodów w różnych sytuacjach badawczych. „Metodologia ta wpłynęła na powstającą dziedzinę badań nad danymi i była często przywoływana przez naukowców badających wartość danych i ich wykorzystanie”, zauważa Sabina Leonelli, główna badaczka projektu oraz beneficjentka stypendium Europejskiej Rady ds. Badań Naukowych. Badanie codziennych praktyk, zainteresowań i potrzeb naukowców wykorzystujących dane w swojej pracy dostarczyło ważnych informacji na temat obiegu i udostępniania danych. Jednym z badanych przez partnerów projektu obszarów była rola bezpieczeństwa i kwestii etycznych w strategiach służących do integracji danych. Innym był sposób, w jaki etykiety, modele i narzędzia wizualizacji wykorzystywane przez bazy danych wpływają na interpretację danych i ich wykorzystanie jako dowody. Zespół projektu przyjrzał się również przeszkodom napotkanym podczas gromadzenia danych i przeanalizował znaczenie brakujących, nieistniejących lub niedostępnych danych w badaniach. Kolejnym punktem centralnym projektu był sposób organizacji społeczności i instytucji badawczych w celu wykorzystania dużych zbiorów danych i związanych z nimi technologii. Zespół projektu DATA SCIENCE rozważył wpływ swoich ustaleń na współczesne dyskusje na temat kryzysu odtwarzalności oraz nad trudnościami w ocenie jakości i wiarygodności danych zamieszczanych w Internecie.
Otwarcie nowych dróg w filozofii nauki
Uznaje się, że projekt przyczynił się do lepszego zrozumienia społecznych i naukowych skutków stosowania metod wykorzystujących masowe ilości danych i związanych z nimi przekształceń cyfrowych. Doprowadzi to do poprawy zarządzania badaniami naukowymi oraz powiązanych przepisów i wytycznych. „Opracowaliśmy ogólne wytyczne dotyczące zarządzania danymi badawczymi i ich ponownego wykorzystania, które zawierają informacje zarówno na temat filozofii nauki, jej historii i badań społecznych, jak i dotyczące podejmowania decyzji naukowych i politycznych dotyczących infrastruktur danych”, wyjaśnia Leonelli. Projekt DATA SCIENCE podkreślił znaczenie dobrego zarządzania danymi, które umożliwi ich wiarygodną interpretację oraz kluczową rolę, jaką infrastruktury danych odgrywają w tworzeniu doskonałych baz naukowych. Leonelli przedstawiła te wyniki odbiorcom, m.in. ekspertom z danych dziedzin z różnych środowisk naukowych, przedstawicielom rządów krajowych, Komisji Europejskiej oraz różnym agencjom i organom międzynarodowym zaangażowanym w promocję otwartej nauki. „Ostatecznie w ramach projektu DATA SCIENCE udało się stworzyć ramy nowej filozofii nauki intensywnie wykorzystującej dane, która stawia je w centrum badań naukowych i wyjaśnia pojawienie się nauki o danych i dużych zbiorów danych oraz wpływ tych odkryć na współczesne badania”, podsumowuje Leonelli. „Ważne jest zestawienie danych we właściwych odniesieniach. Wywnioskowaliśmy, że wartość danych jako dowodów nie zależy od kontekstu, lecz od okoliczności ich wykorzystania”, dodaje uczona.
Słowa kluczowe
DATA SCIENCE, dane, badania, badania naukowe, duże zbiory danych, infrastruktura danych, masowe przetwarzanie danych, jakość danych