In einem Satz
Video Breakdown wurde bereits als Garage-Projekt (also VOR Beta-Stadium) im Sept. 2016 veröffentlicht und noch während der Beta-Phase umbenannt in Video Indexer.
Video Indexer gehört zu den Microsoft Cognitive Services und baut auf KI-Technologien für Mediendaten auf, um das Extrahieren von wertvollen Informationen aus Videos zu vereinfachen. Neue Formen der Inhaltsermittlung, z. B. die Suche nach gesprochenen Wörtern, gezeigten Gesichtern, Zeichen und Emotionen.
Ausführliche Beschreibung
Das Sharing von Videos ist eine Funktion von Microsoft Stream (ehemals Office 365 Video, welches wir natürlich auch beschreiben: https://www.skilllocation.com/microsoft-stream/).
Der Video Indexer beschäftigt sich vor allem mit der Indizierung von Videos, also z.B. der Transkription (in Echtzeit Untertexte generieren) und sogar der Echtzeit-Übersetzung dieser Transkription.
Wichtigste Funktionen / Features
Zunächst werden Videos hochgeladen vom „Contributor“. Der Video Indexer beginnt mit der Indizierung. Wenn Video Indexer die Analyse abgeschlossen hat, erhalten Sie eine Benachrichtigung mit einem Link zu Ihrem Video und einer kurzen Beschreibung dazu, was in Ihrem Video gefunden wurde. Beispiel: Personen, Themen, OCR-Daten.
Sind die Video einmal indiziert, kann nach einem Begriff gesucht werden. Dieser wird im Bild des Videos, als Personenname, als Transkriptionstext (Audio-Indizierung), in der Beschreibung, auf einer PPT-Folie u.m. gefunden werden. Eine Zeitangabe lässt einen auch direkt dorthin springen.
Microsoft Video Indexer ist eine Cloudanwendung, die auf Azure Media Analytics, Azure Search, Cognitive Services (beispielsweise Gesichtserkennungs-API, Microsoft Translator, Maschinelles Sehen-API und Custom Speech Service) basiert. Sie ermöglicht Ihnen, mithilfe der folgenden Video Indexer-Modelle Erkenntnisse aus Ihren Videos zu gewinnen:
- Automatische Sprachenerkennung: Die Lösung identifiziert automatisch die vorherrschend gesprochene Sprache. Unterstützt werden Chinesisch (vereinfacht), Deutsch, Englisch, Französisch, Italienisch, Japanisch, Portugiesisch (Brasilien), Spanisch und Russisch. Wenn die Sprache nicht erkannt werden kann, wird Englisch als Fallbacksprache verwendet.
- Audiotranskription: konvertiert Sprache in Text in 12 Sprachen und lässt Erweiterungen zu. Unterstützt werden Arabisch, Chinesisch (vereinfacht), Deutsch, Englisch, Französisch, Italienisch, Japanisch, Portugiesisch (Brasilien), Spanisch, Russisch, Hindi und Koreanisch.
- Untertitelung: erstellt Untertitel in drei Formaten: VTT, TTML und SRT.
- Verarbeitung von zwei Kanälen: erkennt automatisch ein getrenntes Transkript und sorgt für eine Zusammenführung auf einer einzelnen Zeitachse.
- Rauschunterdrückung: bereinigt (basierend auf Skype-Filtern) Telefonaudio oder verrauschte Aufnahmen.
- Transkriptanpassung (Custom Recognition Intelligent Service, CRIS): ermöglicht das Trainieren und Ausführen erweiterter benutzerdefinierter Spracherkennungsmodelle zur Erstellung branchenspezifischer Transkripte.
- Sprecheraufzählung: kann erkennen und zuordnen, welcher Sprecher wann was gesagt hat.
- Sprecherstatistiken: bietet Statistiken zum Verhältnis zwischen Sprechern und ihrem Anteil an der Konversation.
- OCR (Optische Zeichenerkennung): extrahiert im Video angezeigten Text.
- Extraktion von Keyframes: erkennt stabile Keyframes in einem Video.
- Standpunktanalyse: erkennt anhand von Sprache und sichtbarem Text positive, negative und neutrale Stimmungen.
- Moderation visueller Inhalte: erkennt nicht jugendfreie bzw. anzügliche visuelle Inhalte.
- Extraktion von Schlüsselwörtern: extrahiert Stichwörter aus Sprache und sichtbarem Text.
- Identifikation von Beschriftungen: identifiziert angezeigte visuelle Objekte und Aktionen.
- Extrahieren von Marken: extrahiert Marken aus Sprache und sichtbarem Text.
- Gesichtserkennung: erkennt und gruppiert im Video gezeigte Gesichter.
- Extraktion von Gesichtern als Miniaturbild („bestes Gesicht“): Identifiziert automatisch das am besten aufgenommene Gesicht in der jeweiligen Gruppe von Gesichtern (basierend auf Qualität, Größe und frontaler Position) und extrahiert es als Bildobjekt.
- Prominentenerkennung: Video Indexer kann automatisch mehr als eine Million Prominente erkennen, z. B. wichtige Politiker/Politikerinnen, Schauspieler/Schauspielerinnen, Athleten/Athletinnen, Forscher/Forscherinnen und Führungskräfte aus dem Wirtschafts- und Technologiebereich. Die Daten zu diesen Prominenten sind auch auf verschiedenen bekannten Websites zu finden, z.B. IMDB und Wikipedia.
- Kontobasierte Gesichtsidentifikation: Video Indexer trainiert ein Modell für ein bestimmtes Konto. Gesichter im Video werden dann basierend auf dem Modell erkannt, das speziell für Videos dieses Kontos trainiert wurde.
- Moderation von Textinhalten: erkennt im Transkript des Audios anstößigen Text.
- Szenenwechselerkennung: erkennt, wenn sich im Video eine Szene ändert.
- Erkennung schwarzer Frames im Video.
- Audioeffekte: erkennt Audioeffekte wie Händeklatschen, Sprache und Stille.
- Themenerschließung: zieht in den Transkripten einen Rückschluss auf Hauptthemen. Eine IPTC-Taxonomie erster Ebene ist eingeschlossen.
- Emotionserkennung: erkennt Emotionen basierend auf Sprache und Audiosignalen. Bei den Emotionen kann es sich um Freude, Trauer, Wut oder Angst handeln.
- Artefakte: Extrahiert für jedes der Modelle eine umfangreiche Menge von Artefakten mit höherem Detailgrad.
- Übersetzung: erstellt Übersetzungen des Audiotranskripts in 54 Sprachen.
Unter http://dictate.ms findet sich ein weiteres Garage-Produkt, welches die Transkription in Word und PowerPoint als separate Symbolleiste integriert.
Lizenzierung
Der Cognitive Service Video Indexer bietet Websitebenutzern bis zu 10 Stunden und API-Benutzern bis zu 40 Stunden kostenlose Indizierung. Kunden, die mehr Inhalte verarbeiten müssen, können ihre vorhandene Azure Media Services-Ressourcengruppe mit ihrem Video Indexer-Konto verknüpfen oder eine neue Azure Media Service-Ressourcengruppe erstellen.
Weitere Infos hier: https://azure.microsoft.com/de-de/pricing/details/cognitive-services/video-indexer/
Hinweise und Links
https://vi.microsoft.com/de-de/
https://docs.microsoft.com/de-de/azure/cognitive-services/video-indexer/video-indexer-overview