
Daten und Algorithmen in der Münchner Stadtbibliothek
Die Angebote der Münchner Stadtbibliothek sind vielfältig, und an einigen Stellen arbeiten wir mit Kennzahlen und Algorithmen, um unsere Services beständig weiterzuentwickeln. Wir erklären, wie diese Algorithmen funktionieren und welche Daten dabei verwendet werden.
Die für Sie im Info-Hub Daten & Algorithmen zur Verfügung gestellten Informationen tragen im Sinne unserer digitalen Strategie als wertebasierter Wegweiser dazu bei, Komplexität zu reduzieren und digitale Teilhabe zu ermöglichen. Darunter verstehen wir alle Aspekte der Bildung und des Erwerbs von Fähigkeiten in einer zunehmen digitalen und datengetriebenen Welt.
Unser Ziel ist es, klar und sichtbar aufzuzeigen, wie unsere Anwendungen den Entscheidungsträgerinnen und Entscheidungsträgern der Münchner Stadtbibliothek dabei helfen, unseren Auftrag als Kultureinrichtung wahrzunehmen. Es geht dabei nicht ums "Digitaler Werden" als Selbstzweck. Es geht um den eigenen Anspruch an unsere Arbeit als Bibliothek im digitalen Raum und mit digitalen Mitteln.
Diese Transparenz ergibt sich für uns aus der zentralen gesellschaftlichen Funktion der Münchner Stadtbibliothek als demokratische Institution.
???
Glossar
Die Beschreibungen können aufgrund ihrer technischen Terminologie, den detailreichen Erklärungen und ungewöhnlichen Bezeichnungen manchmal schwer zu verstehen sein. Deshalb erklären wir in diesem Glossar wichtige Begriffe und stellen damit eine weitere Informationsquelle zum Nachlesen für Sie bereit.
AI Recommender System
Ein AI Recommender System, auf Deutsch ein KI-gestütztes Empfehlungssystem, ist ein künstlicher Intelligenz- oder KI-Algorithmus, der in der Regel mit maschinellem Lernen verbunden ist und Big Data nutzt, um Verbrauchern zusätzliche Produkte vorzuschlagen oder zu empfehlen.
Man muss sich das KI-gestützte System für Medienempfehlungen im Katalog der Münchner Stadtbibliothek wie einen großen digitalen Vektorraum, also als Koordinatensystem, vorstellen. In diesem Vektorraum gibt es viele kleine Punkte, die die Medien, wie zum Beispiel Bücher, E-Books oder Hörspiele darstellen. Das KI-System verteilt die Punkte im Vektorraum, indem es aus den Daten der Medien Ähnlichkeiten zwischen diesen berechnet und als Nähe im Vektorraum darstellt. Klickt nun ein*e Kund*in auf ein bestimmtes Medium, zeigt das System die Medien an, die dem ausgewählten Medium im Vektorraum am nächsten liegen. Das KI-System sucht anhand des KI-Modells, also den während des Daten-Trainings gelernten Kriterien, Punkte in der Nähe der Repräsentation des gesuchten Werks. In diesem Fall bedeutet das die größte Ähnlichkeit mit diesem, das heißt die geringste Distanz im Hinblick auf jene abstrakten, festgelegten Kriterien des KI-Modells.
Algorithmus
Ein Algorithmus ist eine Schritt-für-Schritt-Anleitung zur Lösung eines Problems oder zur Ausführung einer Aufgabe durch einen Computer oder ein anderes automatisiertes System. Es ist eine formale Beschreibung eines Prozesses, der eine Eingabe in eine Ausgabe umwandelt. Ein Algorithmus kann in einem Programm implementiert werden und wird in der Informatik und anderen technischen Disziplinen häufig verwendet.
Datenanalyse
Datenanalyse ist der Prozess der systematischen Untersuchung von Daten, um Muster, Trends, Zusammenhänge und Erkenntnisse zu identifizieren, die bei Entscheidungsfindungen oder zur Lösung von Problemen helfen können. Ziel der Datenanalyse ist es, aus Rohdaten verwertbare Informationen zu gewinnen, die Unternehmen, Forschern oder anderen Organisationen helfen, fundierte Entscheidungen zu treffen. Die Datenanalyse umfasst mehrere Schritte und Methoden, die je nach Zielsetzung variieren können. Sie ist ein wichtiges Werkzeug, um strategische Entscheidungen zu unterstützen und die Effizienz und Effektivität von Prozessen zu verbessern.
Datenaufbereitung
Datenaufbereitung, auch als Datenvorverarbeitung bekannt, bezieht sich auf den Prozess der Bereinigung, Transformation und Strukturierung von Rohdaten, um sie für die Analyse und Verarbeitung vorzubereiten. Dieser Schritt ist entscheidend, um sicherzustellen, dass die Daten von hoher Qualität sind und für maschinelles Lernen, Datenanalyse oder andere Anwendungen genutzt werden können.
Daten-Inferenz
Daten-Inferenz ist ein Begriff aus dem Bereich der Datenanalyse und bezieht sich auf den Prozess, bei dem durch statistische Methoden neue Informationen, Trends oder Zusammenhänge aus vorhandenen Daten abgeleitet werden. Dabei wird versucht, aus den vorhandenen Daten auf unzugängliche oder nicht erfasste Informationen zu schließen. Data Mining und maschinelles Lernen sind Beispiele für Technologien, die Daten-Inferenz nutzen, um aus großen Datenmengen neue Erkenntnisse zu gewinnen und Vorhersagen zu treffen.
Datensatz
Ein Datensatz für das Training einer KI (künstlichen Intelligenz) ist eine Menge von Daten, die von einem Computermodell verwendet werden, um bestimmte Muster und Zusammenhänge zu erkennen und zu lernen. Während des Trainings passt das Computermodell seine eigenen Regeln und Gewichtungen an. Je größer, vielfältiger und repräsentativer der Datensatz ist, desto besser wird das Modell in der Lage sein, Vorhersagen zu treffen und Probleme zu lösen.
Daten-Training
Daten-Training (oder Machine Learning Training) ist ein Prozess, bei dem einem Computermodell beigebracht wird, bestimmte Muster und Zusammenhänge in Datensätzen zu erkennen und Vorhersagen zu treffen, indem es auf die vorhandenen Daten trainiert wird. Das Training erfolgt durch die Verarbeitung von Datensätzen, die als Input für das Modell dienen, und den Vergleich der Ausgabe des Modells mit der erwarteten Ausgabe auf der Basis von Regeln oder Algorithmen. Dieser Prozess ermöglicht dem Modell, seine Fähigkeit zur Vorhersage neuer Daten zu verbessern, indem es Muster erkennt und seine Gewichtung anpasst, während es trainiert wird. Das Ergebnis des Trainingsprozesses ist ein Modell, das in der Lage ist, Vorhersagen auf einer neuen, unbekannten Datensatzbasis zu treffen, indem es die Muster und Zusammenhänge, die es während des Trainings gelernt hat, auf diese neuen Daten anwendet.
Dublin Core-Datenformat
Dublin Core (DC) ist ein Metadatenschema zur Beschreibung von elektronischen Ressourcen. Genauer handelt es sich um eine Sammlung einfacher und standardisierter Konventionen zur Beschreibung von Dokumenten und anderen Objekten im Internet, um diese mit Hilfe von Metadaten einfacher auffindbar zu machen. Urheber dieses Schemas ist die „Dublin Core Metadata Initiative“ (DCMI). Daten bestehen aus 15 Kernelementen und frei anpassbaren zusätzlichen Feldern , die nach der DCMI vorgegeben werden.
Empfehlungssystem
Das Empfehlungssystem ist ein automatisiertes technisches System, im Fachjargon auch "AI Recommender System" genannt, das dafür sorgt, dass im Katalog der Münchner Stadtbibliothek Empfehlungen ausgegeben werden können. Eine automatisierte Empfehlung umfasst ein Medienexemplar oder mehrere Medienexemplare, die auf Basis des ausgewählten Medienexemplars von einem Algorithmus erzeugt und vorgeschlagen wird.
Indikatoren
Statistische Indikatoren sind quantitative Größen, die verwendet werden, um bestimmte Aspekte von Daten, Prozessen oder Phänomenen zu beschreiben und zu analysieren. Sie bieten entscheidungsrelevante Informationen, die es ermöglichen, Trends, Muster und Zusammenhänge innerhalb von Daten zu erkennen und zu bewerten. Statistische Indikatoren helfen, komplexe Informationen zu vereinfachen und die Leistung in verschiedenen Bereichen zu bewerten. Dabei wird zwischen deskriptiven Indikatoren, wie Durchschnittswerte (Mittelwert), Median, Modus, Standardabweichung und Varianz, die Grundmerkmale von Datensätzen beschreiben, und Vergleichs- und Verhältnisindikatoren, wie Arbeitslosenquote oder das Verhältnis von Bruttoinlandsprodukt (BIP) pro Kopf, unterschieden. Sie sind ein wichtiges Werkzeug in der Datenanalyse und Entscheidungsfindung, da sie helfen, komplexe Sachverhalte verständlich zu machen.
Kennzahlen
Kennzahlen sind quantitative Maße, die verwendet werden, um die Leistung, Effizienz oder den Fortschritt eines Unternehmens, Projekts oder Prozesses zu bewerten. Sie bieten eine verständliche und objektive Grundlage für Analysen und Entscheidungen und helfen, komplexe Informationen auf eine übersichtliche Weise darzustellen. Kennzahlen sind ein wesentliches Element des Managements und der Unternehmenssteuerung, da sie helfen, Fortschritte zu messen und die Effektivität von Maßnahmen zu beurteilen.
KICC
Das KI Competence Center (KICC) ist bei der Stabsstelle "Data & Innovation" im IT Referat der Stadt München angesiedelt. Mehre Informationen dazu, wie diese Stelle die Stadtverwaltung bei der Digitalisierung unterstzt gibt es auf folgender Internetseite: https://stadt.muenchen.de/infos/data-und-innovation.html
MARC21-Datenformat
MARC21 ist ein Metadatenschema für die Repräsentation und den Tausch von Daten in maschinenlesbarer Form. Verantwortlich für die Pflege und Entwicklung von MARC21 ist das "Network Development and MARC Standards Office" (NDMSO), das vom MARC Advisory Committee unterstützt wird. MARC21 steht auch in einer XML-Struktur zur Verfügung. Im Rahmen der Internationalisierung der deutschen Standards hat der Standardisierungsausschuss 2004 die Anwendung von MARC21 als einheitliches Austauschformat für bibliographische Daten beschlossen.
Maschinelles Lernen
Maschinelles Lernen ist eine Teildisziplin der künstlichen Intelligenz, die sich auf die Verwendung von Algorithmen und vorhandenen Datensätzen konzentriert, um Muster zu erkennen und Lösungen für spezifische Probleme zu optimieren. Ein Beispiel für die Anwendung des maschinellen Lernens ist ein Empfehlungssystem, das durch die Analyse von Medienexemplardaten die Themen der Medien erkennt und entsprechende Empfehlungen ausspricht. Dadurch wird aus den Daten ein neues Wissen generiert, das zur Inspiration dient und bei der Entscheidungsfindung helfen kann.
Metriken
Metriken sind Messgrößen, die das Verhalten eines Systems, insbesondere unseres Katalogs und des Empfehlungssystems, beschreiben. Die Metriken werden vorab festgelegt und langfristig überwacht, um den Erfolg des Systems zu bewerten.
OAI-PMH-API Schnittstelle
Die Open Archives Initiative (OAI) ist eine Initiative, die die Definition einer offenen Schnittstelle zum Austausch von Metadaten zur Aufgabe hat. Die Kommunikation einer solchen Schnittstelle erfolgt zwischen einem Datenlieferanten, data provider genannt, und einem Dienstanbieter, dem sogenannten service provider, der die Daten bezieht. Der Bezug erfolgt automatisiert durch einen sogenannten „OAI-Harvester“. Das Protokoll, das für die Kommunikation verwendet wird, hat die Bezeichnung OAI-Protocol for Metadata Harvesting (OAI-PMH).
Open Data
Open Data bezeichnet Daten, die von jedermann frei genutzt, verteilt und weiterverbreitet werden können. Ziel von Open Data ist es, durch den Zugang zu Informationen Transparenz, Innovation und Zusammenarbeit zu fördern. Im Kontext der Münchner Stadtbibliothek als demokratischer Kultureinrichtung der Landeshauptstadt München handelt es sich um offene Verwaltungsdaten, die bereitgestellt werden, um das öffentliche Interesse zu unterstützen.
Die Münchner Stadtbibliothek stellt ihre Datensätze im OpenData Portal der Landeshauptstadt München kostenfrei zur Nutzung bereit: https://opendata.muenchen.de/de/organization/muenchner-stadtbibliothek
Unsere Datensätze erfüllen dabei die folgenden Kriterien:
- Maschinenlesbarkeit: Der Datensatz ist in einem maschinenlesbaren Dateiformat, zum Beispiel CSV, JSON, XML.
- Offene Lizenz: Die Weiterverwendung wird durch eine entsprechende Lizenz gestattet. Im Münchner Open Data Portal wird meist die Deutschland-Lizenz verwendet: https://www.govdata.de/dl-de/by-2-0.
- Metadaten: Für den jeweiligen Datensatz liegt eine Beschreibung vor.
Redaktionelle Empfehlungen
Wir arbeiten daran, unsere algorithmischen Empfehlungen im Katalog der Münchner Stadtbibliothek zu erweitern. Dies bedeutet jedoch nicht, dass es bisher keine Empfehlungen gab und dass wir keine weiteren manuellen Empfehlungen geben werden. Derzeit werden diese Empfehlungen von Redakteur*innen kuratiert und auf der Startseite des Katalogs der Münchner Stadtbibliothek angezeigt. Wir arbeiten eng mit unseren Kolleg*innen zusammen, um von ihrem Erfahrungsschatz zu profitieren und unsere algorithmischen Empfehlungen durch das Empfehlungssystem zu verbessern.