"Auswertung von TV-Programmen mit Hilfe KI-basierter Audio- und Videoanalyse"

Referenten


  • Christian Weigel, FHG IDMT
  • Uwe Kühhirt, FHG IDMT

Über den Vortrag


Die automatische Analyse audiovisueller Inhalte ist Gegenstand vieler Projekte, Produkte und Dienstleistungen. Die hier vorgestellte Lösung kombiniert cross-modal Verfahren der Videoanalyse und der Audioanalyse, um große Mengen von A/V-Inhalten automatisiert mit Metadaten anzureichern. Im Rahmen einer TV-Studie wurden 20 Fernsehprogramme über zwei Monate hinweg analysiert und annotiert. Ein Schwerpunkt war das Auffinden von Personen. Hierfür wurden Verfahren der Gesichtserkennung und der Sprechererkennung kombiniert, um das Auftreten von Personen in Bild und Ton zunächst unabhängig voneinander zu erfassen und anschließend kombiniert auszuwerten. Neben einer zuverlässigen Erkennung können so auch detaillierte Berichte zu Bildschirmpräsenz und Redeanteilen erstellt werden. Weiterhin wurde die Erkennung des wahrgenommenen Geschlechts von Personen auf Basis des Gesichts und der Stimme für die Erstellung von Diversity-Reports umgesetzt. Neben der automatischen Analyse vieler tausend Stunden Fernsehmaterial war auch die Aufbereitung und Darstellung der umfangreichen Analyseergebnisse eine Herausforderung. Hierfür wurde ein interaktives Dashboard entwickelt, welches verschiedene Visualisierungen und ein schnelles Filtern der umfangreichen Daten erlaubt. Die für die TV-Studie entwickelte Lösung "Audiovisual Identity Suite" wurde auf der IBC 2023 vorgestellt.

Ausblick