Zusammenfassung:
Einleitung
Datensätze sind heute zentral für wissenschaftliche Entdeckungen. Neben der primären Datenerfassung gewinnt die Wiederverwendung bestehender Datensätze stark an Bedeutung. Allerdings wird es zunehmend schwierig, geeignete Datensätze für spezifische Forschungsfragen zu finden, da das „Big Data“-Ökosystem heterogen und fragmentiert ist. Trotz wachsender Datenfreigabe bleibt die effiziente Entdeckung von Datensätzen eine Herausforderung, unter anderem mangelt es an standardisierten Vorgehensweisen bei der Auswahl und Bewertung von Daten.
Problemstellung und Motivation
Viele Forschende stützen ihre Datenauswahl auf Bequemlichkeit statt auf systematische Kriterien, was zu Verzerrungen, Ineffizienzen und eingeschränkter Übertragbarkeit der Ergebnisse führt. Im Gegensatz zur bibliografischen Recherche gibt es keine formale Methodik für die Auswahl von Datensätzen. Die Autoren adressieren diese Lücke und schlagen mit „Datagraphy“ einen strukturierten Ansatz vor, der nicht nur die Entdeckung, sondern auch die kritische Bewertung von Datensätzen umfasst.
Konzept Datagraphy
Datagraphy orientiert sich an klassischen bibliografischen Methoden, ist aber speziell für Datensätze konzipiert. Es geht dabei um eine ganzheitliche Such- und Evaluationspraxis, die folgende Dimensionen der Datensätze berücksichtigt:
- Qualität
- Relevanz
- Interoperabilität
- Vollständigkeit
- Nachhaltigkeit
- Ethische Nutzung
Ziel von Datagraphy ist es, Transparenz, Reproduzierbarkeit und interdisziplinäre Zusammenarbeit zu verbessern sowie Forschungseinträge redundanzärmer und umweltbewusster zu gestalten.
Neunstufiger Rahmenplan
Die Autoren legen einen neun Schritte umfassenden Framework vor, der die systematische und reproduzierbare Identifikation und Synthese von wiederverwendbaren Datensätzen operationalisiert. Die Schritte umfassen unter anderem:
- Definition der Forschungsfrage und Suchkriterien
- Identifikation relevanter Repositorien und Datenquellen
- Strukturierte Suche mit klar definierten Suchstrategien
- Bewertung und Dokumentation der Datensatzqualität und Relevanz
- Berücksichtigung von Zugänglichkeit und Nachhaltigkeit
- Aufbereitung der Metadaten zur besseren Auffindbarkeit
- Kritische Reflexion potenzieller Bias und Limitationen
- Dokumentation der Such- und Bewertungsmethodik
- Anwendung und Weiterentwicklung der Datagraphy-Praxis
Herausforderungen
Bei der Umsetzung von Datagraphy zeigen sich Probleme wie:
- Uneinheitliche Metadatenmodelle
- Heterogenität der Datenrepositorien mit unterschiedlicher Zugänglichkeit
- Variabilität in der Qualität und Vollständigkeit der Datensätze
- Fehlende standardisierte Werkzeuge zur Unterstützung der systematischen Suche
Beispielanwendung: Exposom-Datensuche
Zur Demonstration führten die Autoren eine Datagraphy-Suche im Bereich Exposom (Umwelt- und Lebensstilfaktoren, die Gesundheit beeinflussen) durch. Dabei wurden Probleme etwa bei der Verfügbarkeit konsistenter Metadaten und der Datenqualität deutlich, aber auch das Potenzial erhöhten Transparenz- und Reproduzierbarkeitsgrades durch die strukturierte Methode.
Bedeutung und Zukunftsperspektiven
Datagraphy kann als wissenschaftliche Praxis die Forschungsqualität verbessern, indem es Forscher zu bewussterem, methodisch fundiertem Umgang mit Datensätzen anleitet. Die Methode ergänzt notwendige Verbesserungen auf Ebene der Datenrepositorien und Dateninfrastruktur, z.B. durch maschinenlesbare Metadaten, persistente Identifier, KI-Integration und Packaging-Standards wie RO-Crates und FAIR Digital Objects.
Durch die Kombination von Forschermethoden und systemischen Verbesserungen bietet Datagraphy eine skalierbare Lösung für systematische, FAIR-konforme datengetriebene Forschung über Disziplinen hinweg.
Fazit
Der Datagraphy-Ansatz bringt eine dringend benötigte Methodik für die strukturierte Entdeckung und Bewertung von Datensätzen. Er unterstützt Forscher bei der Auswahl geeigneter Datenquellen, erhöht die Nachvollziehbarkeit und Qualität von Forschungsdaten und trägt zur Nachhaltigkeit in der Datenwissenschaft bei. Die vorgeschlagenen Schritte und Konzepte bieten eine Grundlage zur Formalisierung der Datensuche als festen Forschungsschritt.
Quelle:
Petit, P., Vuillerme, N. (2025). Datagraphy: toward a systematic approach to dataset discovery and evaluation. Data Science Journal, 24, Article 13.
https://datascience.codata.org/articles/10.5334/dsj-2025-013