Algorithmen in der ARD

Unser Ziel ist es, den Nutzenden der ARD Mediathek und ARD Audiothek ein persönliches und angenehmes Nutzungserlebnis zu bieten. Neben den redaktionellen Empfehlungen setzen wir auch auf algorithmische Unterstützung, um Inhalte zu präsentieren, die den Interessen der Nutzenden entsprechen. Diese Algorithmen basieren auf fortschrittlichen Verfahren der Künstlichen Intelligenz, wie maschinellem Lernen, und nutzen statistische Analysen, um passende Inhalte zu identifizieren. Wir von ARD Online entwickeln unsere Empfehlungssysteme in einer Umgebung, die vom ZDF betrieben wird. Durch diese Kooperation heben ARD und ZDF Synergien bei der Entwicklung sowie dem Betrieb von Empfehlungssystemen (siehe auch algorithmen.zdf.de/).

Auf dieser Website möchten wir einen detaillierten Einblick dazu geben, wie diese Technologien in der ARD genutzt und wie Metadaten (z.B. Titel, Genre) sowie Nutzungsdaten (z.B. Wiedergaben) verantwortungsvoll eingebunden werden. Viel Spaß beim Lesen!

Algorithmische Empfehlungen in der ARD

Unsere Empfehlungen können entweder personalisiert sein – basierend auf dem individuellen Nutzungsverhalten – oder nicht personalisiert, wie beispielsweise bei der Anzeige inhaltlich ähnlicher Videos zu einem zuvor abgespielten Video.

Personalisierte Empfehlungen werden ausschließlich für angemeldete Nutzende erstellt. Ohne Registrierung wird keine Nutzungshistorie erstellt. Dies gewährleistet den Schutz persönlicher Daten.

Ziele der algorithmischen Empfehlungen

Als öffentlich-rechtlicher Anbieter verfolgen wir das Ziel, möglichst viele Menschen zu erreichen und ihnen Inhalte anzubieten, die ihren Interessen entsprechen. Gemäß dem im Medienstaatsvertrag formulierten Auftrag setzen wir algorithmische Empfehlungen ein, um folgende Ziele zu erreichen:
  • Publizistische Vielfalt: Unsere Empfehlungssysteme sollen einen möglichst großen Anteil der verfügbaren Inhalte empfehlen (Coverage) und nicht nur die populärsten Inhalte (Popularity Bias).
  • Thematische Vielfalt: Unsere Empfehlungen sollen möglichst vielfältige Themen abdecken (Diversity) und gleichzeitig sicherstellen, dass die Bereiche Bildung, Information, Beratung, Kultur und Unterhaltung nicht unterrepräsentierte sind.
  • Persönliche Relevanz: Darüber hinaus möchten wir unseren Nutzerinnen und Nutzern individuell relevante Empfehlungen bereitstellen. Inwiefern wir dieses Ziel erreichen, messen wir über die Klickrate der Empfehlungen und die durch Empfehlungen ausgelöste Wiedergabedauer.

Algorithmische Empfehlungen in der ARD Mediathek

"Weil Sie XY gesehen haben" & "Empfehlungen"

Wo werden die Empfehlungen angezeigt?
In der Web-App der Mediathek (www.ardmediathek.de) befinden sich diese Empfehlungen unterhalb des wiedergebenden Videos (siehe Abbildung 1).

Algorithmen in der ARD, Bild 1: Empfehlungen unter einem Video

Bild 1: Empfehlungen unter einem Video (Bild: ARD)

Die identischen Empfehlungen sind hinter dem Button "Empfehlungen an/aus" in mobilen und TV-Apps im Player (Abbildung 2) zu finden.

Algorithmen in der ARD, Bild 2: "Empfehlungen an/aus" in mobilen und TV-Apps im Player

Bild 2: "Empfehlungen an/aus" in mobilen und TV-Apps im Player (Bild: ARD)

Wer sieht die Empfehlungen?
Alle Nutzenden. Es erfolgt keine personalisierte Anpassung der Empfehlungen auf Nutzende.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Gibt es eine nächste Episode für das zuvor abgespielte Video, dann wird diese auf Position eins empfohlen.
  • Gibt es verwandte Inhalte zum gerade abgespielten Video (z.B. eine Dokumentation zu einer Serie),…
- …dann wird diese auf Position eins empfohlen, wenn es keine nächste Episode zum gerade abgespielten Video gibt,
- …dann wird diese auf Position zwei empfohlen, wenn es eine nächste Episode zum gerade abgespielten Video gibt.
  • Die restlichen Empfehlungen werden durch Videos befüllt, die inhaltlich am ähnlichsten zum abgespielten Video sind.
  • Es werden aus redaktionellen Gründen keine Nachrichten empfohlen.
  • Bei Staffelserien und Film-Mehrteilern wird jeweils die erste Folge empfohlen, bei Serien und Daily Soaps die neuste Folge.
Welche Daten werden verwendet?
Folgende Informationen fließen in die Berechnung der Ähnlichkeit ein:
  • Schlüsselbegriffe (z.B. Meer, Lefkada)
  • Themen (z.B. Griechenland, Freizeit)
  • Subgenre (z.B. Reise-Doku)
  • Genre (z.B. Reportage)
  • Show-Typ (Staffelserie, Mehrteiler, Endlosserie, Einzelstück)
  • Inhaltsbeschreibung (z.B. „Die Ionischen Inseln gehören…“)

Wie werden die Empfehlungen erstellt?
Die semantische Ähnlichkeit zwischen dem gerade angeschauten und allen anderen Videos wird auf Basis der o.g. Informationen und mit Hilfe eines sogenannten Language Models berechnet. Die Videos mit der größten Ähnlichkeit werden – nach Anwendung der o.g. Regeln – empfohlen.

Welche Art von Empfehlungen wird verwendet?
Die hier eingesetzte Technik ist eine Variante des Content-based-Filtering. Dieser Recommender-Typ wird häufig – wie auch in diesem Fall – für sogenannte Content-to-Content-(C2C-)Empfehlungen verwendet.

"Weil du gerne [Genre/Subgenre] schaust"

Wo werden die Empfehlungen angezeigt?
Angemeldete Nutzende sehen zwei Empfehlungsbänder:
  • "Weil du gerne [Genre/Subgenre] schaust" im oberen Teil der Startseite
  • "Weil du gerne [Genre/Subgenre] schaust" in der Mitte der Startseite
Algorithmen in der ARD, Bild 3: Empfehlungsband oben auf der Startseite

Bild 3: Empfehlungsband oben auf der Startseite (Bild: ARD)

Wer sieht die Empfehlungen?
Nutzende, die mit ihrem Konto eingeloggt sind.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Pro Person werden zu den jeweils beliebtesten beiden Genres (z.B. Crime, Thriller, Dokumentation) oder Subgenres (z.B. Geschichts-Doku, Beziehungsdrama, Roadmovie) passende Empfehlungsbänder empfohlen. Diese werden aus einem großen Pool von vorher redaktionell erstellten Empfehlungsbändern ausgewählt.
  • Es werden ausschließlich die letzten 20 wiedergegebenen Videos je Profil verwendet, um die Empfehlungen entsprechend der aktuellen Präferenzen der Nutzenden auszuspielen.
  • Es werden keine einzelnen Folgen von Serien, sondern entweder ganze Serien oder einzelne Filme empfohlen.

Wie werden die Empfehlungen erstellt?
Je Profil wird ermittelt, welche drei Genre und Subgenre am meisten geschaut wurden. Hierzu summieren wir die prozentuale Wiedergabedauer je Genre, Subgenre und Profil. Die Summierung erfolgt gewichtet nach absteigender Reihenfolge der Nutzung, d.h. die als letztes geschauten Videos fließen in diese Berechnung stärker hinein als Videos, die in der individuellen Nutzungshistorie weiter hinten liegen. Die Tabellen 1 und 2 zeigen anhand eines fiktiven Nutzerprofils, wie das beliebteste Genre berechnet wird. In diesem Beispiel ist das beliebteste Genre "Dokumentation", sodass der oder dem Nutzenden Empfehlungen dieses Genres angezeigt werden.

Tabelle 1: Beispielhafte Nutzungshistorie eines fiktiven Nutzerprofils mit Gewichtung der prozentualen Wiedergabedauer nach Reihenfolge der Nutzungstage.

DatumVideoGenreGewichtWiedergabedauerGewichtete Wiedergabedauer
7.1.2025Erlebnis ErdeDokumentation1,0100 %100%
5.1.2025Der PateFilm0,95100 %95 %
5.1.2025ARD Crime TimeDokumentation0,9570 %67 %
2.1.2025Babylon BerlinCrime0,9100 %90 %
1.1.2025TatortCrime0,8580 %68 %

.

Tabelle 2: Summierung der gewichteten prozentualen Wiedergabedauer nach Genre für das fiktive Beispiel aus Tabelle 1.

GenreSumierte, gewichtete Wiedergabedauer
Dokumentation167 %
Crime158 %
Film95 %

.

Welche Daten werden verwendet?
Für die oben beschriebene Berechnung der beliebtesten Genres und Subgenres je Profil werden folgende Daten für alle angeschauten Videos genutzt:
  • Datum der Wiedergabe
  • Genre des Videos
  • Subgenre des Videos
  • Länge der angeschauten Videos (z.B. 90 Minuten)
  • Wiedergabedauer (z.B. 45 Minuten)
  • Prozentuale Wiedergabedauer (z.B. 50% des Videos wurde geschaut)

Welche Art von Empfehlungen gibt es?
Die hier verwendete Methode gehört zur Familie der statistischen Empfehlungen, da diese mittels Summierung der prozentualen Wiedergabedauer je Profil, Genre und Subgenre ermittelt werden. Wir sprechen hier von User-to-Widget-(U2W-)Empfehlungen, da nicht einzelne Beiträge oder Serien, sondern ganze Bänder (engl.: Widgets) auf Basis der je Profil geschauten Videos empfohlen werden.

"Empfehlungen für Dich" & Meins/Empfehlungen

Wo werden die Empfehlungen angezeigt?
Die "Empfehlungen für Dich" befinden sich auf der Startseite der ARD Mediathek (siehe Abbildung 4).

Algorithmen in der ARD, Bild 4: "Empfehlungen für Dich" auf der Startseite der ARD Mediathek

Bild 4: "Empfehlungen für Dich" auf der Startseite der ARD Mediathek (Bild: ARD)

Zudem findet man die identischen Empfehlungen noch einmal im Bereich "Meine ARD" unter dem Reiter "Empfehlungen" (siehe Abbildung 5).

Algorithmen in der ARD, Bild 5: Empfehlungen im Bereich "Meine ARD" unter dem Reiter "Empfehlungen"

Bild 5: Empfehlungen im Bereich "Meine ARD" unter dem Reiter "Empfehlungen" (Bild: ARD)

Wer sieht die Empfehlungen?
Nutzende, die mit ihrem Konto angemeldet sind.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Es werden Videos empfohlen, die am besten zu den mit dem Profil geschauten Videos – und den zeitlichen Nutzungsgewohnheiten nach Uhrzeit und Wochentag passen.
  • Wurde in den letzten 90 Tagen kein Video geschaut (z.B. neues Profil), dann werden redaktionelle ausgewählte Videos empfohlen.
  • Bei Staffelserien und Film-Mehrteilern wird jeweils die erste Folge empfohlen, bei Serien und Daily Soaps die neuste Folge.
  • Die in den letzten 90 Tagen geschauten Videos werden aus den Empfehlungen herausgefiltert.

Wie werden die Empfehlungen erstellt?
Wir trainieren ein Collaborative-Filtering-Modell mit den in den letzten 90 Tagen geschauten Videos angemeldeter Nutzender. Dieses Modell empfiehlt Nutzenden dann Videos, die andere Nutzende mit ähnlichem Verhalten geschaut haben. Diese Empfehlungen gewichten wir anschließend per Contextual-Post-Filtering, um sie abhängig von Uhrzeit und Wochentag an individuelle, zeitliche Nutzungsgewohnheiten anzupassen. Wenn eine Nutzerin z.B. sonntagabends vermehrt Krimis schaut, werden ihr sonntagsabends mit einer höheren Wahrscheinlichkeit Krimis empfohlen.

Welche Daten werden verwendet?
Für das Training des Collaborative-Filtering-Modells und das Herausfiltern bereits geschauter Videos werden folgende Daten je Profil genutzt:
  • Wiedergegebene Videos
  • Datum der Wiedergaben
  • Stunde des Wiedergabestarts
  • Wochentag des Wiedergabestarts
  • Dauer des Videos
  • Wiedergabedauer
  • Anzahl der Wiedergaben
  • Genre der Videos (z.B. Reportage)

Welche Art von Empfehlungen wird verwendet?
Die hier eingesetzte Technik ist eine Variante des Collaborative-Filtering. Wir verwenden diese Methode für sogenannte User-to-Content-(U2C-)Empfehlungen.

Algorithmische Empfehlungen in der ARD Audiothek

"Ähnliche Inhalte"

Wo werden die Empfehlungen angezeigt?
Diese Empfehlungen befinden sich auf der Seite einzelner Podcast-Folgen unterhalb der Informationen und des Links zum Podcast.

Algorithmen in der ARD, Bild 6: Empfehlungen auf der Seite einzelner Podcast-Folgen

Bild 6: Empfehlungen auf der Seite einzelner Podcast-Folgen (Bild: ARD)

Wer sieht die Empfehlungen?
Alle Nutzenden, da bei „Ähnliche Inhalte“ keine Personalisierung erfolgt.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Die Empfehlungen werden durch Podcast-Folgen befüllt, die inhaltlich am ähnlichsten zur abgespielten Podcast-Folge sind.
  • Es werden keine Nachrichten empfohlen.
  • Es werden je Podcast höchstens zwei Folgen empfohlen.
  • Konnten keine ähnlichen Inhalte gefunden werden, dann werden die gerade in der Audiothek populärsten Inhalte (nach prozentualer Wiedergabedauer) empfohlen.

Wie werden die Empfehlungen erstellt?
Die semantische Ähnlichkeit zwischen dem gerade angehörten und allen anderen Folgen wird mit Hilfe eines sogenannten Language Models berechnet. Die Podcast-Folgen mit der größten Ähnlichkeit werden – nach Anwendung der o.g. Regeln – empfohlen.

Welche Daten werden verwendet?
Folgende textuelle Metadaten fließen in die Berechnung ein:
  • Inhaltsbeschreibung (z.B. "1872: Phileas Fogg geht im renommierten…")
  • Titel (z.B. "Jules Verne: Reise um die Erde in achtzig Tagen (01/20) | gelesen von Rufus Beck")
  • Schlüsselbegriffe (z.B. Jules Verne)

Welche Art von Empfehlungen wird verwendet?
Die hier eingesetzte Methode ist eine Variante des Content-based-Filtering. Dieser Recommender-Typ wird häufig - wie auch in unserem Fall - für sogenannte Content-to-Content-(C2C-)Empfehlungen verwendet.

"Andere hörten auch"

Wo werden die Empfehlungen angezeigt?
Auf der Seite einzelner Podcast-Folgen unterhalb der "Ähnliche Inhalte"-Empfehlungen.

Algorithmen in der ARD, Bild 7: Empfehlungen auf der Seite einzelner Podcast-Folgen

Bild 7: Empfehlungen auf der Seite einzelner Podcast-Folgen (Bild: ARD)

Wer sieht die Empfehlungen?
Nutzende, die mit ihrem Konto angemeldet sind.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Die Empfehlungen werden durch Inhalte befüllt, die eine ähnliche Nutzerschaft haben.
  • Aus redaktionellen Gründen werden keine Nachrichten empfohlen.
  • Es werden je Podcast höchstens zwei Folgen empfohlen.
  • Konnten keine ähnlichen Inhalte gefunden werden, dann werden redaktionelle ausgewählte Inhalte empfohlen.

Wie werden die Empfehlungen erstellt?
Für die Ermittlung dieser Empfehlungen wird ein Collaborative-Filtering-Modell trainiert. In diesem Anwendungsfall wird dieses Modell dazu genutzt, diejenigen Podcast-Folgen zu empfehlen, die eine ähnliche Nutzerschaft im Vergleich zur gerade abgespielten Folge haben. Diese Empfehlungslogik folgt dem Prinzip: "Andere, die diesen Beitrag hörten, hören auch…".

Welche Daten werden verwendet? Für das Training des Collaborative-Filtering-Modells und das Herausfiltern der bereits angehörten Podcast-Folgen werden folgende Daten je Profil genutzt:
  • Wiedergegebene Audios
  • Datum der Wiedergaben
  • Dauer des Audios
  • Wiedergabedauer
  • Anzahl der Wiedergaben

Welche Art von Empfehlungen gibt es?
Die hier eingesetzte Technik ist eine Variante des Collaborative-Filtering. Wir verwenden diesen Recommender-Typ an dieser Stelle für sogenannte Content-to-Content-(C2C-)Empfehlungen.

"Spannende Podcast-Folgen für Dich"

Wo werden die Empfehlungen angezeigt?
Diese Empfehlungen befinden sich auf der Startseite der Audiothek und auf den Seiten der Podcast-Rubriken (z.B. Wissen, True Crime) jeweils gefiltert auf Inhalte der jeweiligen Rubrik.

Algorithmen in der ARD, Bild 8: Empfehlungen auf der Startseite der Audiothek

Bild 8: Empfehlungen auf der Startseite der Audiothek (Bild: ARD)

Wer sieht die Empfehlungen?
Nutzende, die mit ihrem Konto angemeldet sind.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Es werden diejenigen Inhalte empfohlen, die auf Basis der Nutzungshistorie des Profils am besten zu den Nutzenden passen.
  • Wurden mit dem Profil in den letzten 90 Tagen keine Inhalte gehört (z.B. neues Profil), dann werden stattdessen redaktionell ausgewählte Inhalte empfohlen.
  • Je Podcast werden höchstens zwei Folgen empfohlen.
  • Die in den letzten 90 Tagen gehörten Inhalte werden aus den Empfehlungen herausgefiltert.

Wie werden die Empfehlungen erstellt?
Wir trainieren ein Collaborative-Filtering-Modell mit den in den letzten 90 Tagen geschauten Videos angemeldeter Nutzender. Dieses Modell empfiehlt Nutzenden dann Podcasts, die andere Nutzende mit ähnlichem Verhalten gehört haben.

Welche Daten werden verwendet?
Für das Training des Collaborative-Filtering-Modells und das Herausfiltern bereits angehörten Audios werden folgende Daten je Profil genutzt:
  • Wiedergegebene Audios
  • Datum der Wiedergaben
  • Dauer der Audios
  • Wiedergabedauer
  • Anzahl der Wiedergaben

Welche Art von Empfehlungen wird verwendet?
Die hier eingesetzte Technik ist eine Variante des Collaborative-Filtering. Wir verwenden diese Methode in diesem Fall für sogenannte User-to-Content-Empfehlungen.

"Podcast-Empfehlungen für Dich"

Wo werden die Empfehlungen angezeigt?
Diese Empfehlungen befinden sich auf der Startseite der Audiothek und auf den Seiten der Podcast-Rubriken (z.B. Wissen, True Crime) jeweils gefiltert für Inhalte der jeweiligen Rubrik.

Algorithmen in der ARD, Bild 9: Empfehlungen auf der Startseite der Audiothek

Bild 9: Empfehlungen auf der Startseite der Audiothek (Bild: ARD)

Wer sieht die Empfehlungen?
Nutzende, die mit ihrem Konto angemeldet sind.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Es werden diejenigen Podcasts empfohlen, die auf Basis der Nutzungshistorie des Profils am besten zu den Nutzenden passen.
  • Wurden mit dem Profil in den letzten 90 Tagen weniger als fünf Inhalte gehört (z.B. neues Profil), dann werden die nach prozentualer Wiedergabedauer populärsten Podcasts empfohlen.
  • Wenn mindestens eine Folge eines Podcasts in den letzten 90 Tagen gehört oder ein Podcast abonniert wurde, wird dieser Podcast aus den Empfehlungen herausgefiltert.

Wie werden die Empfehlungen erstellt?
Wir trainieren ein Collaborative-Filtering-Modell mit den von angemeldeten Nutzenden angehörten Podcasts. Dieses Modell empfiehlt Nutzenden dann Podcasts, die andere Nutzende mit ähnlichem Verhalten gehört haben.

Welche Daten werden verwendet?
Für das Training des Collaborative-Filtering-Modells und das Herausfiltern bereits gehörter oder abonnierter Podcasts werden folgende Daten je Profil genutzt:
  • Wiedergegebene Inhalte
  • Datum der Wiedergaben
  • Dauer der Inhalte
  • Wiedergabedauer
  • Anzahl der Wiedergaben
  • Abonnierte Podcasts

Welche Art von Empfehlungen gibt es?
Die hier verwendete Methode ist eine Variante des Collaborative-Filtering. Wir verwenden diese Methode in diesem Fall für sogenannte User-to-Content-Empfehlungen.

"Podcast-Charts"

Wo werden die Empfehlungen angezeigt?
Dieses Band befinden sich auf der Startseite der Audiothek und auf den Seiten der Podcast-Rubriken (z.B. Wissen, True Crime) jeweils gefiltert für Inhalte der jeweiligen Rubrik.

Algorithmen in der ARD, Bild 10: Empfehlungen auf der Startseite der Audiothek

Bild 10: Empfehlungen auf der Startseite der Audiothek (Bild: ARD)

Wer sieht die Empfehlungen?
Alle Nutzenden. Es erfolgt keine personalisierte Anpassung der Empfehlungen auf Nutzende.

Welche Regeln gelten für die Erstellung der Empfehlungen?
  • Es werden diejenigen Podcast-Folgen empfohlen, die in den letzten drei Tagen am populärsten waren, gemessen an der prozentualen Wiedergabedauer.

Wie werden die Empfehlungen erstellt?
Für jeden in der Audiothek verfügbaren Beitrag wird die prozentuale Wiedergabedauer der letzten drei Tage summiert. Die Top-20-Beiträge werden ausgespielt.

Welche Daten werden verwendet?
Für die Berechnung der Summe der prozentualen Wiedergabe je Beitrag in den letzten drei Tagen werden folgende Daten genutzt:
  • Wiedergegebene Inhalte
  • Datum der Wiedergaben
  • Dauer der Inhalte
  • Wiedergabedauer

Welche Art von Empfehlungen gibt es?
Die hier verwendete Methode fällt in die Familie der statistischen Empfehlungen, da die Empfehlungen mittels Summierung der prozentualen Wiedergabedauer je Beitrag über alle Nutzenden ermittelt werden.

Glossar

Methoden

Content-to-Content-Empfehlungen

Man spricht von Content-to-Content-Empfehlungen (kurz: C2C-Empfehlungen), wenn passende Inhalte zu einem gerade abgespielten Inhalt empfohlen werden.

User-to-Content-Empfehlungen

Man spricht von User-to-Content-Empfehlungen (kurz: U2C-Empfehlungen), wenn Nutzenden zu ihren Interessen und/oder zu ihrem Nutzungsverhalten passende Inhalte empfohlen werden.

Language Models

Language Models sind methodisch verwandt mit Large Languages Models (z.B. OpenAIs GPT oder Mistral AIs Mistral), aber wesentlich kleiner und damit ressourcenschonender. Language Models sind Neuronale Netze, die mit dem Ziel trainiert wurden, verschiedene, auf Sprache bezogene Aufgaben, zu lösen (z.B. Fragen beantworten; Texte zusammenfassen, klassifizieren und deren semantische Ähnlichkeit berechnen). Die von uns genutzten Language Models zählen zur Klasse der sogenannten Sentence Transformer und transformieren textuelle Metadaten (z.B. Titel, Inhaltsbeschreibung, Schlüsselbegriffe etc.) der Inhalte zu numerischen Vektoren (Embeddings). Diese Vektoren repräsentieren die Semantik unserer Videos und Podcasts.

Wir testen fortlaufend mehrere Language Models gegeneinander, um die Empfehlungen zu verbessern. Folgende Modelle haben wir u.a. getestet:

Collaborative Filtering

Collaborative Filtering ist eine Methode des maschinellen Lernens, die Interessen/Vorlieben von Nutzenden lernt, indem sie Gemeinsamkeiten im Nutzungsverhalten zwischen verschiedenen Nutzenden identifiziert.

Wir trainieren unsere Collaborative-Filtering-Modelle mit Daten, die beschreiben welcher Nutzende welches Video oder Audio zu welchem Anteil geschaut hat (prozentuale Wiedergabedauer). Die prozentuale Wiedergabedauer dient uns als implizites Feedback dazu, ob ein Inhalt einer Person gefallen hat oder nicht. Tabelle 1 zeigt ein vereinfachtes Beispiel einer sogenannten User-Item-Matrix, die wir aus unseren Daten erstellen, um unser Collaborative-Filtering-Model zu trainieren.

Tabelle 1: Beispiel einer User-Item-Matrix, die für alle Nutzenden und Videos angibt, welcher Anteil eines Videos von welchem Nutzenden geschaut wurde.

Video-1Video-2Video-3
User-A85 %99 %5 %
User-B0 %95 %99 %
User-C93 %10 %83 %

.

Diese Methode wenden wir sowohl für Content-to-Content- als auch für User-to-Content-Empfehlungen an:
  • U2C: Mithilfe dieser Daten kann das resultierende Modell die prozentuale Wiedergabedauer einer Person für ein Video oder Audio schätzen. Die Inhalte mit der höchsten geschätzten prozentualen Wiedergabedauer empfehlen wir der Person schließlich.
  • C2C: Mithilfe dieser Daten kann das resultierende Modell schätzen, welche Inhalte von einer ähnlichen Nutzerschaft geschaut oder gehört werden. Wir verwenden diese Methode dann, um ausgehend von einem gerade abgespielten Inhalt, diejenigen Audios oder Videos zu empfehlen, deren Nutzerschaft am ähnlichsten ist.

Es gibt verschiedene Methoden, die zur Familie der Collaborative Filtering-Algorithmen gehören. Wir haben derzeit Nearest-Neighbour-Methoden und ALS-Matrix-Factorization-Modelle (Hu, Yehuda Koren, Volinsky 2008 und Takács, Pilászy, Tikk 2011) im Einsatz.

Content-based-Filtering

Charakteristisch für diesen Recommender-Typ ist das Berechnen der semantischen Ähnlichkeit zwischen Inhalten auf Basis von beschreibenden Metadaten. Wir berechnen diese mit Hilfe eines Language Models, aber auch andere statistische Verfahren sind möglich. Die Methode wenden wir derzeit ausschließlich für Content-to-Content-Empfehlungen an. Wir berechnen die paarweise, semantische Ähnlichkeit zwischen allen Inhalten mit Hilfe eines Language Models. Hierzu transformieren wir bestimmte Informationen aller Inhalte (Titel, Beschreibungen, Schlüsselbegriffe etc.) per Sentence Transformer zu numerischen Vektoren und berechnen dann per Distanzmaß (z.B. Cosinus Distanz) die paarweise Ähnlichkeit zwischen Videos bzw. Podcasts. Dies ermöglicht es uns, zu einem abgespielten Inhalt diejenigen Inhalte zu empfehlen, die semantisch am ähnlichsten sind.

Contextual Post-Filtering

Diese Methode wird angewandt, um zunächst algorithmisch ermittelte Empfehlungen basierend auf Kontextinformationen anzupassen. Dies können Informationen über die Zeit, das verwendete Endgerät oder den Ort der Nutzung sein. Wir verwenden Contextual-Post-Filtering, um personalisierte Empfehlungen an den Nutzungszeitpunkt anzupassen. Wir ziehen hierzu die Uhrzeit und den Wochentag der individuellen Nutzungssituation heran. Schaut eine Person gern sonntagsabends Krimis, dann empfehlen wir ihr sonntagsabends mit einer höheren Wahrscheinlichkeit Krimis.

Kennzahlen

Klickrate
Die Klickrate gibt das Verhältnis zwischen der Anzahl der Klicks auf einen Teaser (z. B. ein empfohlenes Video) und der Häufigkeit seiner Anzeige (Teaser-Impressions) wieder. Dieses Verhältnis kann auch für ganze Empfehlungsbänder berechnet werden, indem die Gesamtzahl der Klicks auf alle Teaser des Bandes durch die Anzahl der Aufrufe des gesamten Bandes geteilt wird.

Coverage
Die Coverage misst im Kontext von Empfehlungssystemen, wie viele unterschiedliche Inhalte im Vergleich zur gesamten Menge der verfügbaren Inhalte empfohlen werden. In der ARD Mediathek veranschaulicht sie etwa, welcher Anteil der bereitgestellten Videos auf einem Empfehlungsband mindestens einmal vorgeschlagen wurde. Sie ist somit ein Gradmesser für die Vielfalt innerhalb der Empfehlungen.

Diversity
Diversity misst im Kontext von Empfehlungssystemen, wie stark die thematische Vielfalt der Empfehlungen ausgeprägt ist. Im Kontext der ARD Mediathek und ARD Audiothek berechnen wir diese, indem wir für jedes Profil die durchschnittliche semantische Ähnlichkeit der individuell empfohlenen Videos oder Podcast-Folgen berechnen (Intra-Diversity).

Wiedergabedauer
Die Wiedergabedauer beschreibt im Kontext der ARD Mediathek und Audiothek, wie viele Sekunden eines Videos oder Audios von einer Person geschaut oder gehört wurden.

Prozentuale Wiedergabedauer
Die prozentuale Wiedergabedauer gibt im Kontext der ARD Mediathek und Audiothek an, welcher Anteil eines Videos oder Audios von einer Person gehört oder geschaut wurde. Schaut eine Person 45 Minuten eines insgesamt 90 Minuten dauernden Videos, liegt die prozentuale Wiedergabedauer bei 50 %.

Begriffe

Semantische Ähnlichkeit
Semantik beschreibt die Bedeutung von sprachlichen Zeichen und Zeichenfolgen (https://www.duden.de/rechtschreibung/Semantik). Die semantische Ähnlichkeit gibt in unserem Kontext an, wie ähnlich sich die Informationen (Titel, Beschreibungen, Schlüsselbegriffe etc.) zweier Inhalte bezüglich ihres Bedeutungsgehalts sind. Wir verwenden die semantische Ähnlichkeit synonym zur inhaltlichen Ähnlichkeit.

Popularity Bias
Popularity Bias bezeichnet die Tendenz eines Empfehlungssystems, besonders häufig beliebte Inhalte zu präsentieren. Ein Beispiel: Wenn 80 % der Wiedergaben in der ARD Mediathek auf die 20 meistgesehenen Videos entfallen, wird ein Collaborative Filtering-Modell aufgrund seiner Funktionsweise vornehmlich eben jene besonders beliebten Videos empfehlen, sofern keine Korrekturen erfolgen. Solche Modelle verstärken oft bestehende Verzerrungen in den Nutzungsdaten. Diesem Effekt kann entgegengewirkt werden, indem das Modell nicht nur auf maximale Wiedergabedauer, sondern auch auf eine breite Vielfalt an Empfehlungen (Coverage) optimiert wird.

Quellen

Gábor Takács, István Pilászy, Domonkos Tikk (2011): Applications of the conjugate gradient method for implicit feedback collaborative filtering, RecSys ´11: Proceedings of the fifth ACM conference on Recommender systems, https://doi.org/10.1145/2043932.2043987

Huggingface Sentence-Transformer: https://huggingface.co/sentence-transformers

Yifan Hu, Yehuda Koren, Chris Volinsky (2008): Collaborative Filtering for Implicit Feedback Data, http://yifanhu.net/PUB/cf.pdf

Kontaktinformationen

hilfe@ard.de

28.5.2025