ICCV 2021 | Adobe propose une nouvelle méthode pour générer automatiquement des collections vidéo courtes, avec une précision améliorée de 4% ~ 12%

Le cœur de la machine 2021-10-13 03:37:34
La vidéo centrée sur l'homme se concentre sur l'exécution et l'expression des activités humaines、Vidéos de tâches et d'émotions.Ce type de vidéo a grandement contribué à la croissance rapide des médias personnels et partagés hors ligne et en ligne.Ces vidéos proviennent de plusieurs domaines,Comme le sport amateur et la performance、Conférences、Tutoriels、Blog vidéo(vlog),Et des activités individuelles ou collectives,Comme un pique - nique、Voyage de vacances.Et pourtant,Les vidéos non éditées et centrées sur l'homme contiennent aussi souvent beaucoup de contenu non pertinent et ennuyeux,Ils doivent être édités et marqués,Pour une navigation efficace.

Pour résoudre ce problème,.De nombreuses méthodes ont exploré les techniques de détection automatique de clips surlignés ou d'extraits et de résumés vidéo.Pour les images non éditées,Le but de la détection de surbrillance est d'obtenir des moments d'intérêt prédéfinis,Le but de l'extraction sommaire est de calculer les extraits les plus pertinents et les plus représentatifs.La détection d'un contenu en surbrillance valide peut non seulement accélérer la navigation,Il augmente également les chances que le contenu mis en évidence soit partagé et recommandé.Les méthodes existantes ont été mises au point grâce à Superviser l'apprentissage Pour réaliser cette détection de surbrillance ,Mais ça doit dépendre de:Un fragment surligné marqué manuellement,Ou des exemples de différentes catégories de surbrillance.En plus,Ces méthodes ne simulent pas explicitement les activités humaines ou les interactions interpersonnelles,.Et la plupart des vidéos de la vie réelle sont étroitement liées à cela.

Est - il possible de,Générer une collection en surbrillance de vidéos centrées sur l'homme?Les derniers jours,.Nous proposons une méthode pour générer automatiquement des collections de mise en évidence pour les vidéos centrées sur l'homme,Sans aucune annotation manuelle et aucune information sur les préférences des utilisateurs pour compléter la formation,Cette méthode améliore la précision de l'appariement des annotations manuelles par rapport aux meilleures méthodes disponibles 4%~12%. Le travail a été effectué par ICCV 2021 Réception.

Liens vers les articles:https://arxiv.org/pdf/2110.01774.pdf

Si vous souhaitez communiquer davantage , Bienvenue à contacter l'auteur :

Gang Wu ([email protected]), 

https://wugangwu.github.io

Dans cet article,Nous proposons une méthode indépendante du domaine et des préférences de l'utilisateur pour détecter les clips surlignés dans une vidéo centrée sur l'homme.Nous utilisons une approche basée sur la représentation graphique comme modèle multi - observable centré sur l'homme dans la vidéo,Comme la posture et le visage. Nous utilisons un graphique spatio - temporel Encodeur automatique Réseaux pour détecter les activités humaines et les interactions basées sur ces modèles .Nous formons notre réseau en fonction de la représentation des cadres, Pour représenter les structures potentielles basées sur l'activité et l'interaction de différents modèles Cartographie Points de mise en évidence par image .Nous utilisons ces fractions pour calculer quels cadres sont mis en évidence,Et combiner les cadres adjacents pour produire un extrait.Nous travaillons sur un ensemble de données d'action à grande échelle AVA-Kinetics Pour former notre réseau,Et dans DSH、TVSum、PHD Et SumMe Quatre. Niveau de référence Réseau d'évaluation sur l'ensemble de données de mise en évidence vidéo .Dans ces ensembles de données, Par rapport aux méthodes les plus avancées,Nous avons amélioré la précision moyenne sur les points saillants qui correspondent aux dimensions manuelles sans avoir besoin d'informations sur les préférences de l'utilisateur ou d'ajustements sur le nouvel ensemble de données 4%-12%.

1. Introduction

La vidéo centrée sur l'homme se concentre sur l'exécution et l'expression des activités humaines、Vidéos de tâches et d'émotions [62,50]..Ce type de vidéo favorise grandement les médias personnels et partagés hors ligne et en ligne[8] Croissance rapide.Ces vidéos proviennent de plusieurs domaines,Comme le sport amateur et la performance、Conférences、Tutoriels、Blog vidéo(vlog),Et des activités individuelles ou collectives,Comme un pique - nique、Voyage de vacances.Et pourtant,Les vidéos non éditées et centrées sur l'homme contiennent aussi souvent beaucoup de contenu non pertinent et ennuyeux,Ils doivent être édités et marqués,Pour une navigation efficace[47].

Fig. 1:Détecter les extraits surlignés en utilisant un mode centré sur l'homme..Notre approche utilise une variété de modèles centrés sur l'homme pour détecter les points saillants,Par exemple,La posture corporelle et le visage peuvent être observés dans la vidéo qui suit l'activité humaine.Nous utilisons une représentation bidimensionnelle ou tridimensionnelle des points d'interconnexion de chaque mode pour construire une représentation spatio - temporelle pour calculer la fraction de mise en évidence.

Pour résoudre ce problème,.De nombreuses méthodes ont exploré les techniques de détection automatique de clips surlignés ou d'extraits et de résumés vidéo [11,53,42,63,44,67].Pour les images non éditées,Le but de la détection de surbrillance est d'obtenir des moments d'intérêt prédéfinis,Le but de l'extraction sommaire est de calculer les extraits les plus pertinents et les plus représentatifs.La détection d'un contenu en surbrillance valide peut non seulement accélérer la navigation,Il augmente également les chances que le contenu mis en évidence soit partagé et recommandé[53].Les méthodes existantes ont été mises au point grâce à Superviser l'apprentissage Pour réaliser cette détection de surbrillance ,Mais ça doit dépendre de:Un fragment surligné marqué manuellement[47,11],Ou des exemples de différentes catégories de surbrillance,Par exemple, Détection des points saillants du ski à partir d'images de ski [23,25]. D'autres façons d'apprendre chaque image ou de prendre une photo par rapport à la vidéo originale [36] Représentation , Et utiliser les métadonnées vidéo , Comme la durée [53] Et le tournage [67,64] Pertinence, Ce qui élimine le besoin de surveillance .Toutes ces méthodes supposent ou correspondent à la connaissance d'un domaine particulier d'un fragment non édité,Par exemple, Courir et sauter peut être plus pertinent dans les vidéos de Parkour , Les mouvements de glissement peuvent être plus pertinents dans les vidéos de ski . Les autres approches ne tiennent pas compte des connaissances propres à un domaine particulier. , Ne pas détecter les points saillants personnalisés [42], Au lieu de cela, considérez les préférences préenregistrées de plusieurs utilisateurs .

Qu'ils supposent des connaissances dans un domaine particulier ou des préférences des utilisateurs ,Les méthodes existantes peuvent toutes fonctionner dans un espace d'image bidimensionnel constitué d'un cadre ou d'une lentille vidéo. Les réseaux basés sur l'image les plus avancés peuvent apprendre de riches caractéristiques sémantiques , La relation entre les différents objets détectés dans l'image capturée , Pour réaliser une détection efficace des points saillants .Et pourtant,Ces méthodes ne simulent pas explicitement les activités humaines ou les interactions interpersonnelles, Et ce sont les principaux points d'intérêt de la vidéo centrée sur l'homme .En même temps,, Une approche du développement d'une vidéo centrée sur l'homme est essentielle pour diverses tâches , Y compris l'expression et la reconnaissance émotionnelle [34,2,38]、 Identification des activités[56]、Compréhension du scénario[50,32]、 Analyse de la population [51]、 Reconstruction de la superpartition vidéo [32] Et capture vidéo basée sur le texte [48].Ces méthodes montrent que, La vidéo centrée sur l'homme doit être traitée séparément de la vidéo normale , En utilisant un modèle centré sur l'homme ,Comme la posture et le visage.Donc,,Cela démontre la marge de manoeuvre et la nécessité d'introduire un mécanisme de compréhension vidéo centré sur l'homme dans la tâche de détection de la mise en évidence.

Nous avons développé un système d'apprentissage de bout en bout , Il détecte la mise en évidence dans une vidéo centrée sur l'homme , Sans avoir besoin de connaissances spécifiques 、 Mettre en évidence un commentaire ou un exemple ..Notre approche utilise l'activité humaine et l'interaction qui s'expriment par de nombreux canaux ou modes sensoriels, Y compris les visages 、Les yeux.、Le son、Posture corporelle,Un geste.[1,38]. Nous utilisons des représentations graphiques pour tous les modèles centrés sur l'homme ,Pour représenter adéquatement la structure inhérente à chaque modèle, y compris la façon dont les diverses activités et interactions ont évolué au fil du temps. Notre réseau utilise la convolution des graphiques spatio - temporels pour apprendre de ces représentations basées sur des graphiques ,Et utiliser Encodeur automatiqueArchitecture Cartographie Mode par image à la fraction de mise en évidence . Nos points de mise en évidence sont basés sur la représentation de toutes les images de la vidéo , Assembler des cadres consécutifs , Obtenu en produisant un extrait final . Nos nouvelles contributions comprennent: :
  • Mise en évidence en utilisant un mode centré sur l'homme . Notre méthode reconnaît les patrons observables dans chaque vidéo d'entrée , Comme la posture et le visage , Et les encoder dans des fractions surlignées de leur relation avec différentes personnes dans le temps , Pour la détection des points saillants .

  • Formation non annotée avec points saillants . Nous n'avons pas besoin de mettre en évidence les commentaires 、Exemple、 Préférences des utilisateurs ou connaissances spécifiques au domaine .Au contraire.,Nous avons juste besoin d'utiliser des techniques de détection de motifs prêtes à l'emploi pour détecter un ou plusieurs motifs centrés sur l'homme pour former nos points de mise en évidence.

  • Performances indépendantes du domaine et de l'utilisateur . Les réseaux que nous avons formés dans de nombreuses vidéos centrées sur l'homme Niveau de référence Évaluation sur l'ensemble de données ,Et atteint les performances les plus avancées dans la détection de la mise en évidence dans différents domaines et préférences des utilisateurs.

Notre approche est Niveau de référence Mise en évidence vidéo d'un domaine spécifique (DSH) Ensemble de données [47] Et les ensembles de données de mise en évidence personnelle (PHD2)[11] La précision moyenne des clips surlignés d'annotation artificielle correspondants sur l'ensemble de données est 0.64 Et 0.20, Supérieur à la méthode existante correspondante 7% Et 4%(Valeur absolue).On est toujours là. TVSum[46]Et SuMMe[15]Plus petit Niveau de référence Performance à la fine pointe de la technologie sur les ensembles de données , Précision moyenne et moyenne F Score supérieur à la méthode de référence la plus avancée 12% Et 4%(Valeur absolue). Même dans les domaines qui ne sont pas entièrement centrés sur l'être humain (Par exemple, Exposition de chiens ) Ou la vidéo n'a pas été détectée comme étant suffisamment centrée sur l'homme , Les performances de nos méthodes sont également comparables à celles des méthodes les plus avancées .

2. Travaux connexes

Résumé vidéo Les problèmes de détection et les problèmes étroitement liés Vision par ordinateur、 Le multimédia et les domaines connexes ont fait l'objet de recherches approfondies. . Les premières approches ont utilisé des Regroupement、 Diagramme de conversion de scène 、Cadre [59,6,49] Variance temporelle et caractéristiques manuelles de l'information sémantique , Comme l'activité faciale [20] Des technologies .D'un autre côté, Les méthodes les plus récentes utilisent une série impressionnante Apprentissage profond Outils et techniques pour mettre en évidence la détection et le résumé vidéo .

Mise en évidence de la détection .Le but de la détection de surbrillance est de détecter des moments d'intérêt vidéo ou des extraits de vidéos non éditées [49,47]. Il existe de nombreuses façons de considérer cela comme une question de classement supervisée. , Les extraits surlignés sont donc classés plus haut que tous les autres extraits [47,17,58,18,11,60,19,52]. Ces méthodes supposent la disponibilité d'étiquettes d'annotation humaine pour les extraits à haute lisibilité. ,Et former le Web à l'apprentissage des indicateurs de classement communs ou spécifiques à ces étiquettes.D'un autre côté,Méthodes de détection des points saillants faiblement supervisées et non supervisées en utilisant des exemples ou des métadonnées vidéo, Éliminer les dépendances de l'étiquette . Ces échantillons comprennent des images Web représentant des actions dans un domaine particulier. , Comme la gymnastique et le ski [25]. Les métadonnées vidéo comprennent des informations sur les catégories vidéo [57] Informations sur, Ou des propriétés qui aident à distinguer les vidéos non éditées des vidéos éditées , Par exemple, durée [53]. Certaines méthodes tiennent également compte des préférences des utilisateurs pour générer des points saillants personnalisés [42].Toutes ces méthodes effectuent des calculs dans l'espace d'image bidimensionnel de chaque image vidéo, Et n'utilise pas un modèle centré sur l'être humain .

Résumé vidéo. Résumé vidéo L'objectif principal est de fournir une synthèse vidéo concise dans tous les formats , Inclure un Storyboard [24,54]、 Séquence des images clés [30]、Clip[15,64], Et en fonction des besoins des utilisateurs [14] Mélange de . Résumé vidéo Généralement considéré comme satisfaisant à la cohérence [35]、Diversité, Et représentation [40,67] Tâche d'estimation non supervisée des sous - séquences pour . L'approche sommaire non supervisée repose sur plusieurs concepts , Comme la co - occurrence visuelle [7]、 Corrélation temporelle entre le cadre vidéo et l'objectif [23,36,44,64]、 Catégorie d'études PerceptionClassificateur[41] Et catégories PerceptionApprentissage des caractéristiques [66,46]. Autres méthodes utilisant une méthode faiblement supervisée , Utiliser des exemples d'images et de vidéos réseau [24,22,4,43], Et description de la catégorie [41,40] A priori .Et pourtant, D'autres méthodes utilisent Superviser l'apprentissage Résumé avec annotation humaine , Sélectionner avec un sous - ensemble [13]、 Score d'importance visuelle [30,15]、 Mélange de sous - modules [16,55] Et le temps [63,64,65]. Bien que notre objectif soit de détecter les points saillants , Mais nos méthodes sont soumises à Résumé vidéoL'inspiration de la méthode.En particulier,.Nous nous assurons que nos points saillants sont représentatifs de la vidéo et qu'ils permettent une reconstruction robuste des caractéristiques.

Apprentissage multimodal . Une grande partie du travail se concentre sur la reconnaissance multimodale des mouvements [5,45,33,10] Et reconnaissance émotionnelle [3,26,61,38,39] Allez.. Ces méthodes permettent d'observer et de combiner des indices provenant de diverses expressions humaines. , Y compris le visage 、Posture、Tonalité、Mouvement oculaire、 Gestes et démarche des mains et du corps . Les méthodes existantes utilisent généralement des points et des graphiques [33,3,38] Modélisation des modes d'observation , Les adapter aux caractéristiques de l'apprentissage des mouvements et des émotions .Dans notre travail, Nous avons profité du fait ,C'est - à - dire qu'un extrait élevé d'une vidéo centrée sur l'homme peut être déterminé à partir de ces modèles. Reconnaissance des mouvements et des émotions multimodaux [33,38] Tendances récentes , Nous modélisons également les patrons observés dans les images vidéo en tant que diagrammes spatio - temporels , Et les utiliser pour apprendre nos points saillants .

3. Détection de surbrillance multimode

Pour la vidéo centrée sur l'homme , Notre objectif est de détecter les moments d'intérêt ou les points saillants de la vidéo ..Cette section décrit en détail comment nous pouvons détecter ces points saillants en utilisant les modèles centrés sur l'homme observés dans la vidéo.

3.1. Modèle anthropocentrique

Dans notre travail,Nous utilisons des termes “Mode” Pour suggérer des voies d'expression humaines sensibles à l'activité et aux interactions humaines ,Par exemple,Les visages、Les yeux.、Posture corporelle、Les mains.、Démarche [5,38,39]. L'activité consiste en l'expression et l'interaction individuelles. , Y compris avec les autres 、 Interaction d'autres êtres vivants et d'objets inanimés , Et avec toutes sortes d'actions [56,10] Et les émotions [2,39] Concernant. Nous pensons que les humains préfèrent les vidéos centrées sur l'homme , Pour se concentrer sur ces activités et interactions .Donc,,Notre objectif est d'observer dans notre réseau un modèle d'apprentissage centré sur l'homme. Pour chaque mode détecté ,.Notre réseau utilise les interrelations entre les différentes instances temporelles et entre les différentes personnes pour détecter les extraits les plus représentatifs.

Quand nous avons commencé RGB Lorsque ces modes sont extraits de la représentation de l'espace d'image ,Nous avons remarqué que ces modes capturent plus d'informations sémantiques de cadre vidéo que la représentation générale de l'espace d'image..La représentation de l'espace d'image est basée sur la variation des différences d'intensité entre les différentes parties de l'image, Sans comprendre comment les différentes parties interagissent .D'un autre côté, Les modèles fournissent un aperçu interactif basé sur leur structure ,Par exemple, Utiliser les mouvements relatifs des bras et des jambes pour représenter certains mouvements , Et le mouvement relatif des différents signes faciaux pour exprimer certaines expressions et émotions . Nous construisons notre réseau pour tenir compte explicitement de la structure de chaque mode , Et ces structures comprennent l'évolution des activités et des interactions au fil du temps .

Nous considérons ce qui peut être observé à partir de la vidéo d'entrée M≥1 Un modèle centré sur l'homme . Nous supposons que ces modes utilisent des techniques standard de détection et de suivi des modes [29,12] Extrait de, Et est représenté par un ensemble de points d'interconnexion 2D ou 3D , Par exemple, une pose pour un ensemble de points de repère faciaux 2D ou un ensemble d'articulations corporelles 3D .

Pour représenter chaque mode m=1,…, Nous avons construit une représentation spatio - temporelle Gm={Vm,Em}.Vm Les noeuds représentent les points du mode correspondant ,Em Les bords représentent la structure du mode et son évolution dans le temps . Pour bien saisir cela , Nous considérons trois types de bords :
  • Capture des relations spatiales entre les noeuds individuels à l'intérieur de l'homme ,Par exemple, Connecteur entre les os entre les articulations de pose et les points de repère faciaux . Ces bords représentent la structure de base du mode sur chaque image vidéo .

  • Connectez les mêmes noeuds pour différentes personnes dans chaque image vidéo ,Par exemple, Racine à racine 、 Tête contre tête . Ces bords saisissent l'interaction entre les noeuds de différentes personnes . Ils forment un diagramme bipartite pour chaque paire , Représente l'interaction humaine sur chaque image vidéo .

  • En même temps, Edge est le même noeud qu'une personne connecte sur plusieurs images vidéo ,Par exemple, Racine à racine 、 Tête contre tête . Ces bords capturent comment les noeuds de chacun ont évolué au fil du temps . Ils forment un diagramme bipartite pour chaque paire de cadres vidéo , Représente l'évolution des activités et des interactions au fil du temps .

L'emplacement spatial de ces noeuds et la combinaison de tous ces bords permettent à notre réseau d'apprendre toutes les activités et interactions humaines dans la vidéo, Et apprendre les points saillants en conséquence , Sans aucune référence au domaine vidéo ou aux préférences offertes par l'utilisateur Connaissance préalable.

3.2. Représentation des images vidéo

Comme notre objectif est de détecter les points saillants de la vidéo sans avoir besoin de commentaires ou d'exemples, Par conséquent, notre méthode est compatible avec la détection de cadres représentatifs dans la vidéo ,Similaire à Résumé vidéo Travaux achevés en [36, 14].Bien que la détection de cadres représentatifs dans l'espace d'image puisse ou non être utile pour détecter des moments d'intérêt vidéo[47], Mais nous avons observé , Détecter en fait les cadres représentatifs dans l'espace de mode centré sur l'homme , Est utile pour détecter les moments d'intérêt dans une vidéo centrée sur l'homme .

Nous définissons la représentation des images vidéo comme étant dans un espace métrique , Différence entre la vidéo et la vidéo sans cette image . Plus la différence est grande , Plus le cadre est représentatif .Intuitivement,La représentativité d'un cadre mesure la proportion d'informations qu'il contient par rapport à l'ensemble de la vidéo...Notre objectif en matière de détection de surbrillance est de détecter le plus petit ensemble de cadres de la vidéo la plus représentative.

Fig. 2:Représentation. Nous avons montré différentes images vidéo en posture (Gauche.) Et des points de repère (A droite) Différentes valeurs représentatives calculées . Nous apprenons à mettre en évidence les scores en fonction de la représentativité .

Dans notre travail, Nous mesurons la représentativité dans l'espace métrique du modèle observable .Fig. 2 Exemple de cadre vidéo montrant différentes valeurs représentatives dans l'espace de pose et de repère . Nous pensons que chaque vidéo est composée d'un T Cadres et P Composition humaine( Les vidéos avec moins de cadres et de personnes sont correctement remplies de zéros .Donc,, Pour chaque mode m,Vm Total par N×T×P Composition des noeuds,Parmi eux N Nombre de noeuds par personne . Nous avons organisé ces noeuds en un seul Tenseur ,Parmi eux Se réfère à chaque image t,D Est la dimension spatiale de chaque noeud ,Le plus souvent 2 Ou 3.Et voilà., Nous pouvons mettre en évidence Set As 0 Ou 1 Pour refléter chaque image t Représentation .Donc,, Nous pouvons faire la différence nette D Comme pour écrire la mise en évidence comme ,

(1)

Parmi euxReprésentationHadamardLes résultats de. Nous pouvons maintenant réécrire nos objectifs en formules 1 Réduire au minimum D. Et pour chaque mode m Et minimisé . Nous remarquons une solution ordinaire à l'équation .1 Est de sélectionner un seuil 0≤τ≤T,Et de Xm Haut de la page τ Les points saillants pour 1, Les points de mise en évidence pour tous les autres cadres sont: 0.Et pourtant,Sélectionner τ Ce n'est pas simple., Apprendre des données dans la pratique .Donc,, Nous avons formé un Encodeur automatiqueDeProfondeurRéseau neuronal Pour apprendre à mettre en évidence un large éventail de données . Nous autorisons également les points saillants à [0,1]Est continu, Pour préserver la différentiabilité de notre réseau .En outre,.La continuité des points saillants nous aide également à comprendre la représentation relative de chaque image, C'est un système moderne de détection de surbrillance [53,42] Un composant intégré pour .

3.3.  Architecture du réseau

Fig.3Montre l'architecture globale du réseau que nous utilisons pour prédire les clips vidéo mis en évidence à partir de la vidéo d'entrée. Le but de notre réseau est d'apprendre les points saillants de chaque image , Pour minimiser une formule similaire 1Forme.Pour ce faire, notre réseau utilise une représentation graphique observable de chaque image.Il tente de recréer toute l'activité dans la vidéo en utilisant le moins d'images possible en mode entrée,I.e.PoidsConstruire,Parmi euxPoids Est une fraction surlignée .Pendant la formation,Notre réseau a appris à attribuer des points de mise en évidence plus élevés à des cadres plus représentatifs. Nous détaillerons notre architecture de réseau .

Fig.3: Mise en évidence en utilisant un mode centré sur l'homme : Aperçu de notre réseau d'apprentissage , Mettre en évidence les scores de plusieurs modèles centrés sur l'homme . Nous utilisons la technologie standard [29,12] Pour détecter des modèles centrés sur l'homme . Nous les représentons comme des ensembles de points de connexion en 2D ou 3D . Nous formons tous les modes de réseau en parallèle . Le seul point d'interaction entre les réseaux est leur point de mise en évidence prévu , Nous l'avons combiné à nos points de mise en évidence pondérés pour l'entraînement .

La nôtre.Encodeur automatique L'architecture est composée d'un encodeur 、 Un diviseur et un décodeur . Notre encodeur prend chaque mode observable à partir d'une vidéo d'entrée m Représentation spatio - temporelle de . Il utilise un espace - temps séparé Figure réseau de convolution(STGCN)[56,28,9] Chaque mode mDe Convertir en caractéristiques basées sur l'activité potentielle ,Dl Est la dimension de chaque noeud dans la caractéristique potentielle .Donc,, Nous avons les opérations suivantes: ,

Parmi eux,Indique par Matrice de contiguïté obtenue , Formé par un ensemble d'encodeurs STGCNParamètresComposition. Nous observons ici les données Pour former un rang complet Tenseur,Donc,STGCN J'ai évité 0 La solution dégénérée de .

Nos caractéristiques potentielles basées sur l'activité Connectez - vous à notre marqueur , Il se compose d'une couche de convolution spatio - temporelle , Et puis chaque mode s Type de fonctionnement . Nos marqueurs seront chacun Convertir en points de mise en évidence normalisés pour chaque noeud ,C'est - à - dire:,

(3)

Parmi euxReprésentationsFonction type, Formé par STGCNParamètresComposition.

Nos décodeurs utilisent des fonctionnalités basées sur l'activité potentielle Et chaque mode m Points saillants pour , Et en formant avec chaque noeud De Hadamard  Produit pour produire des caractéristiques potentielles pondérées Dimension de,C'est - à - dire:

(4)

En d'autres termes,, Notre objectif est de choisir Correspond à Caractéristiques potentielles des cadres les plus représentatifs .Pendant la formation, Notre marqueur a appris avec succès Les valeurs sont attribuées à des cadres plus représentatifs Caractéristiques, Et dans le processus de reconstruction, .

Pondéré à partir des caractéristiques potentielles Moyenne, Notre décodeur utilise un autre STGCN Générer la reconstruction du noeud de graphe d'entrée ,C'est - à - dire:

(5)

Où un ensemble de STGCNParamètresComposition.

3.4.  FormationFonction de perte

Similaire à la formule 1, Nous formons notre architecture de réseau , Pour maximiser Refactoring Noeuds de diagramme d'entrée dans tous les modes , Minimise également les considérations relatives à la Refactoring Nombre de cadres pour . Notre approche repose sur l'hypothèse que , C'est - à - dire un cadre vidéo plus représentatif , Constitue un extrait vidéo plus clair .Donc,,En fait, notre objectif est de supprimer autant de cadres que possible dans la reconstruction de la vidéo d'entrée, Tout en mettant l'accent sur les cadres hautement représentatifs .

Compte tenu des points saillants de chaque mode , Nous effectuons le plus grand pool de fractions pour toutes les dimensions ,Mais obtenir, La fraction maximale de surbrillance par image de la vidéo modale ,C'est - à - dire:

(6)

Nous considérons également chaque mode mDe Contribution pondérée ,Voilà.Poids Directement proportionnel au nombre d'images visibles en mode dans la vidéo d'entrée . Si plus de la moitié des points de composition du mode sont visibles dans le cadre , Donc nous définissons un mode qui est observable dans le cadre .Selon cette définition,, Pour chaque mode m Construire un poids Pour

(7)

Attention!, Parce que chaque cadre peut contenir entre aucun et tous les modes .

Immédiatement après, Nous construisons des points de mise en évidence pondérés pour toutes les images de la vidéo En tant que

(8)

Enfin, Reconstruction d'un décodeur donné Et chaque mode Poids, Nous construisons notre Fonction de perte L Pour former notre réseau

(9)

Où tous les entraînements sont combinés ParamètresEt,PourRégularisationFacteurs.

4. Mise en œuvre et essais

Nous sommes à grande échelle AVA-KineticsEnsemble de données[31]Pour former notre réseau. L'ensemble de données est défini par 235 Vidéos d'entraînement et 64 Composants vidéo de validation ,Chaque15Minutes,Et dans1 Étiquettes d'action dans les clips en secondes . Nous avons ignoré les étiquettes d'action , Et utiliser la vidéo originale pour former et valider notre réseau de détection de surbrillance . L'ensemble de données comprend une grande variété d'activités humaines. , Mais il n'a pas supervisé quelques bons extraits .Donc,, Il est adapté à nos tâches d'apprentissage , Pour détecter les extraits surlignés spécifiques aux humains . En raison de contraintes de mémoire ,Nous avons30 Les extraits qui ne se chevauchent pas en secondes traitent chaque vidéo ,En tout.7050 Extraits de formation et 1920 Extraits de validation .

4.1.  Mise en œuvre

Nous utilisonsM = 2Mode、 Posture et visage , C'est ce que nous Testons le plus dans tous les ensembles de données. Yi Guan Les deux modes observés . Autres modes , Comme les gestes et les mouvements oculaires , Ou rarement visible , Ou il y a une détection du bruit .Nous avons fondéCMU Modèle panoramique [21,37] Créer une carte d'attitude ,Et selonGeitgey[12] Modèle de repère Facial pour construire un repère facial .

Nous utilisons le traceur Multi - personnes le plus avancé [29] Pour suivre les gens dans toutes les images vidéo , Et avec le détecteur d'attitude le plus avancé [37] Et les détecteurs de points de repère faciaux [12], Pour tester leur posture et leurs points de repère faciaux .

Pour construire un diagramme pour chaque mode , Nous avons considéré le plus grand nombre P = 20De, Et envisager de combiner le passé et l'avenir 30f Cadre adjacent au temps pour ,f Est le taux d'image de la vidéo de traitement . Quand disponible , Nous avons utilisé le même nombre de cadres dans le passé et dans le futur pour la contiguïté temporelle . Nous avons observé 2À5 Précision du taux de trame et efficacité des exigences de mémoire , Utilisation du taux de trame dans nos expériences f=5.

Nous utilisonsAdamOptimizer[27]Formation200Rotation, La taille du lot est 2,InitialTaux d'apprentissagePour10-3,MomentumPour0.9,Poids Atténuation à 10^-4. Après chaque cycle d'entraînement ,La nôtre.Taux d'apprentissage Sont plus faibles 0.999X.A inveidaGeForce GTX 1080Ti GPUIl faut environ40Minutes, Le temps total de formation est d'environ 4.6- Oui.GPUNombre de jours.

4.2.  Tests

Lors des essais, Nous utilisons la formule 8 Obtient le score de mise en évidence pondéré pour toutes les images de la vidéo d'entrée . Nous combinons tous les cadres consécutifs au - dessus d'un certain seuil de fraction , Pour générer des clips vidéo . Nous pouvons également utiliser des [44] Pour créer une base de référence Résumé vidéo. D'après nos résultats expérimentaux, , Nous avons observé que lorsque ≥0.5 Capable de détecter Niveau de référence Segments spéculaires représentatifs de l'ensemble de données .

Dans la pratique, Nous allons trier les extraits en fournissant un mécanisme , Laisser la sélection finale d'une vidéo donnée à l'utilisateur . Nous attribuons un score à chaque segment surligné , C'est - à - dire la moyenne de la fraction de mise en évidence pondérée de chacun de ses cadres constitutifs . Nous avons trié les extraits en fonction de ces scores ,De cette façon, l'utilisateur peut choisir ses propres seuils pour obtenir des extraits au - delà de ces seuils. Plus le seuil qu'ils choisissent est élevé , Moins d'extraits survivent au seuil , Cela réduit la charge de travail manuelle qu'ils doivent effectuer pour filtrer les extraits moins représentatifs. .

5. L'expérience

Nous sommes dans deux grands espaces publics Niveau de référenceLa performance de notre méthode et de la méthode de détection de la mise en évidence vidéo la plus avancée a été évaluée sur l'ensemble de données: Priorités propres au domaine (DSH)Ensemble de données[47] Et des ensembles de données d'inspection personnelle (PHD2)[11]. Nous sommes toujours dans un petit ensemble de données publiques TVSum[46]EtSumMe[15] A été évalué . Mais contrairement à toute approche actuelle, , Aucun de nous n'a formé ou peaufiné nos méthodes sur ces ensembles de données .Nous testons également la performance de notre version de réseau Ablate en supprimant les modèles individuels de la formation et de l'évaluation.

5.1.  Ensemble de données

DSHEnsemble de données[47]ParYouTube Composition de la vidéo couvrant six catégories de domaines spécifiques : Le spectacle du chien 、Gymnastique、Parkour.、Patinage、 Ski et surf . Environ un par domaine 100Vidéos, Durée totale approximative 1,430 Minutes,Environ 600Vidéos.PHD2Ensemble de données[11] L'ensemble d'essais pour 10Dix milleYouTubeComposition vidéo,Total approximatif55800Minutes,Par850 Les segments surlignés marqués par les utilisateurs en fonction de leurs préférences . Plus petit TVSumEnsemble de données[46]Oui.50- Oui.YouTubeVidéo,Total approximatif210Minutes,Enjambant10Domaines: Apiculture (BK)、 Compétences en vélo (BT)、 Exposition de chiens (DS)、Brille.(FM)、 Animaux peignés (GA)、 Faire des sandwiches (MS)、Marche(PR)、Parkour.(PK)、 Pneumatiques pour véhicules (VT) Et le véhicule (VU).SumMeEnsemble de données[15]Seulement25 Vidéos personnelles ,Total approximatif66Minutes.

5.2.  Indicateurs d'évaluation

Nous utilisons la précision moyenne de détection des points saillants correspondant aux points saillants annotés dans la vidéo correspondante(mAP) Pour évaluer toutes les méthodes . La précision moyenne est d'évaluer la détection des points saillants [47,17,11,53,42] Mesures couramment utilisées .Nous avons remarqué, Lors de l'évaluation de la mise en évidence , La précision de chaque vidéo doit être considérée séparément , Plutôt que de penser à travers la vidéo .C'est parce que les clips surlignés détectés à partir d'une vidéo ne sont pas nécessairement plus brillants qu'une autre[47] Les clips non surlignés ont une fraction de surbrillance plus élevée . Nous avons également fait état de notre approche dans tous les ensembles de données et méthodes de référence. SumMeEnsemble de données[15] Moyenne sur FPoints( Moyenne harmonique de précision et de rappel , En calculant la moyenne des données sur toutes les vidéos ).

5.3.  Méthode de base

Nous sommesDSHEnsemble de données[47]Oui.4 Niveau de référence 、PHD2Ensemble de données[11]Oui.4 Niveau de référence 、TVSumEnsemble de données[46]EtSumMeEnsemble de données[15]Oui.7 Comparaison des niveaux de référence . Nous avons fait état du rendement de la méthode de référence décrite dans la littérature. .

InDSHSur l'ensemble de données,Nous sommesSun La base potentielle d'Al. SVM Mettre en évidence la méthode de tri pour (LSVM) [47]、 Utiliser un C3D Caractéristiques surlignées Video2GIFMéthodes[17]、Yang Et al. basé sur un cycle robuste non supervisé Encodeur automatiqueMéthode(RRAE) [57]EtXiong Méthode de l'homme et de la femme ( Moins c'est, plus c'est. )[53]Comparaison.XiongL'approche d'Al apprend à trier les points saillants en utilisant la durée de la vidéo comme étiquette faiblement supervisée, Et pense que les vidéos plus courtes sont plus susceptibles d'être éditées , Pour une exposition plus facile .

Dans l'ensemble de donnéesPHD2Allez., Une fois de plus, nous avons travaillé avec les méthodes Video2GIF [17]Comparer,UtiliserGoogLeNet Réseau de séquences de convolution complète basé sur (FCSN) Pour apprendre à mettre en évidence la détection basée sur l'image [44], Et adaptative FCSNMéthodes(ADFCSN)[42],Il comprend également un encodeur d'historique qui s'adapte aux préférences historiques de l'utilisateur pour détecter les points saillants personnalisés.. Nous avons également fondé [42] Utiliser un détecteur de surbrillance entièrement aléatoire comme méthode de base minimale .

InTVSumSur l'ensemble de données, Encore une fois, nous travaillons avec des méthodes de détection de points saillants basées sur la durée (LessisMore)[53]、Chu Et d'autres ont utilisé la plus grande découverte bimodale basée sur la corrélation visuelle (MBF) Pour obtenir des images simultanées associées à la vidéo originale [7]、Potapov Et d'autres s'entraînent sur des fragments sémantiquement cohérents basés sur le noyau SVM Méthode de synthèse vidéo pour (KVS)[41]、Panda Consensus sur l'utilisation par d'autres Régularisation Pour détecter la clairance 、 Une approche collaborative de synthèse vidéo pour mettre en évidence la diversité et la représentativité des segments (CVS) [40] Et l'utilisation de mahaseni et al. LSTM(Adv-LSTM) Méthode de synthèse vidéo non supervisée [36]Comparer.

InSumMeSur l'ensemble de données, Encore une fois. GygliEt al.[15] Résumé fondé sur l'intérêt (Int.)AdaptationFCSN(Ad-FCSN)[42]、GygliEt al.[16] Méthode de synthèse basée sur la Sous - modularisation (Sub.)、ZhangEt al.[63] Utiliser le processus de détermination des points (DPP-LSTM)DeLSTMRéseau、Basé sur GAN Et supervision supplémentaire (GAN-S)Méthode[35],Zhou Et al. Apprentissage intensif en profondeur Méthode avec surveillance supplémentaire (DRL-S) [67] Et l'utilisation d'encodeurs -Architecture du décodeur méthode de détection pour détecter les fragments fortement corrélés à partir des données de séquence(S2N)[52].

5.4. Résultats

DSH[47]EtTVSum[46]. On est sur la table. 1Et tableaux3DansDSHEtTVSum Tous les domaines de l'ensemble de données mAP. Sauf dans quelques domaines , Notre approche est supérieure à la méthode de référence . Ces domaines non optimaux ne sont pas entièrement centrés sur l'homme ( Apiculture 、 Exposition de chiens 、 Toiletter les animaux et faire des sandwiches ),.Soit nos méthodes sont bloquées parce qu'il n'y a pas assez de postures et de visages détectés dans la vidéo(DSH Vidéos de surf en ). Mais dans ces domaines de performance non optimaux, , Notre approche vient après la meilleure approche de base .En moyenne, Dans tous les domaines , Notre approche est supérieure à l'approche de base la plus performante 4%-12%Valeur absolue de.

PHD2[11].On est sur la montre.2 Rapport sur l'ensemble de données mAP. Considérant qu'un grand nombre d'êtres humains ont été détectés dans la vidéo de cet ensemble de données, , Notre approche est supérieure à l'approche de base la plus performante 4%.

SumMe[15].On est sur la montre.4 Moyenne de l'ensemble des données rapportées dans FPoints. Suivre la méthode précédente [52,42], Nous choisissons au hasard 20% Pour calculer la moyenne FPoints, Répétez cette expérience. 5Une fois, Et rendre compte du rendement moyen . Sur la base de ces expériences , Nous sommes au - dessus de l'approche de base la plus performante 4%Valeur absolue de.Ces résultats montrent que, Nous utilisons un modèle centré sur l'homme pour détecter les points saillants dans tous les Niveau de référence Performance à la fine pointe de la technologie sur les ensembles de données .

Tableau1:InDSHEnsemble de données[47] Précision moyenne sur .En gras:Mieux vaut,Soulignement: Deuxième meilleur. . Notre méthode est la deuxième meilleure dans le domaine du surf , Parce qu'il n'y a pas assez de postures et de visages détectés , Et le meilleur dans tous les autres domaines .

Tableau2:PHD2[11]Précision moyenne.En gras:Mieux vaut,Soulignement: Deuxième meilleur. .

Tableau3:TVSumEnsemble de données[46] Précision moyenne sur . Pour le format complet du nom de domaine, voir la page 5.1Section.En gras:Mieux vaut,Soulignement: Deuxième meilleur. . Notre approche dans des domaines qui ne sont pas entièrement centrés sur l'homme (BK、DS、GA、MS) Deuxième Performance , Meilleure performance dans tous les autres domaines .

Tableau4:SumMeEnsemble de données[15]Oui.FPoints.En gras:Mieux vaut,Soulignement: Deuxième meilleur. .

5.5. Étude d'ablation

Dans notre travail, Nous avons envisagé deux modèles , Postures et visages . Nous éliminons successivement les deux modes , Et nous testons la performance de notre méthode en formant le réseau sur les modes restants .On est sur la montre.5 La version ablée de notre méthode est rapportée dans les quatre Niveau de référence Moyenne dans la vidéo de l'ensemble de données mAP Et moyenne FPoints.

Tableau5:InNiveau de référenceSur l'ensemble de données, Moyenne des différentes versions ablées de notre méthode mAP Et moyenne f Comparaison des scores .En gras:Mieux vaut,Soulignement: Deuxième meilleur. .

Nous avons observé que, comparativement à l'utilisation des deux modèles, , Moyenne dans l'ensemble de données en utilisant uniquement des poses et non des visages mAP La valeur absolue de 5%-7%,Moyenne F Le score a baissé. 3%-8%.Et pourtant, Nous avons observé des façons d'utiliser uniquement des visages plutôt que des poses , Provoque une baisse plus importante ,MoyennemAP Diminution absolue de 4%-13%,MoyenneFBaisse des scores2%-13%. C'est parce que les poses sont plus riches dans la vidéo centrée sur l'homme , Et plus facile à détecter qu'un repère facial .Par exemple, Même si les humains sont partiellement protégés , Dans l'obscurité ou lorsqu'il n'y a pas de focalisation claire , La posture peut également être détectée , La détection des signes faciaux exige une bonne lumière et une bonne focalisation du visage. .Donc,, Perte importante d'extrait due à la non - détection de la posture . Cette tendance n'a été observée que PHD2 Inversion moyenne , Parce que c'est là que les trous sont plus faciles à détecter que la posture. .

On est toujours sur la photo.5 Nous montrons notre méthode et toutes ses versions ablées dans DSH、PHD2、TVSumEtSuMMe Résultats qualitatifs du rendement d'un échantillon de vidéos dans quatre ensembles de données .Nous pouvons voir, Quand on ne regarde que la posture, pas le visage, ,.Notre méthode ne permet pas de détecter des extraits représentatifs, principalement des expressions faciales et des émotions.Au contraire., Quand on ne regarde que le visage, pas la posture, , Notre méthode ne détecte que des extraits de visages saillants , Les visages sont trop petits. 、 Extrait trop obscurci ou dans l'obscurité . Utiliser les deux modes , Notre méthode peut détecter tous les extraits représentatifs .

Fig.5: Exemple de cadre mis en évidence détecté par notre méthode .Nous montrons des images vidéo d'échantillons dans la gamme des points saillants détectés à l'aide des différentes versions d'ablation de notre méthode. Nous avons montré que SumMe[15](En haut à gauche)、PHD2[11](En haut à droite)、DSH[47](En bas à gauche.)EtTVSum[46](En bas à droite.) Un exemple de vidéo pour . Lorsque vous n'utilisez que des visages ou des poses , Notre approche est basée uniquement sur la représentation du visage ou de la posture pour apprendre les points de mise en évidence . Combiner les deux modèles , Nos méthodes d'apprentissage sont basées sur des scores représentatifs et proéminents .

5.6.   Mettre en évidence l'effet du seuil de score

Dans notre approche , Nous utilisons le seuil de la fraction de surbrillance pour détecter les extraits de surbrillance au - dessus de ce seuil. .On est sur la photo.4 Nos paires de seuils sont affichées dans DSHEnsemble de données[47] Précision moyenne pour chaque champ (mAP)Impact de.Nous avons observé, Au fur et à mesure que nous augmentons le seuil ,mAP Tendance générale à la baisse , Parce que notre méthode renvoie moins de points saillants .Mais, Pour certains domaines ( Comme le surf )En termes,Ce n'est pas le cas., Parce que les points saillants des extraits représentatifs sont assez élevés .Dans la pratique, Le choix des seuils à prendre en considération dépend des préférences des utilisateurs. , Nous vous recommandons donc de le configurer comme Paramètres.


Fig.4: Moyenne à différents seuils de mise en évidence APScore.InDSHEnsemble de données[47] Dans le domaine .

6. Conclusions、 Limites et travaux futurs

Nous proposons une nouvelle base Réseau neuronal Pour détecter les points saillants dans une vidéo centrée sur l'homme .Notre approche peut tirer parti du modèle centré sur l'homme observé dans la vidéo, Comme le visage et la posture , Et utilise automatiquement ces modes pour détecter les points saillants les plus représentatifs de la vidéo . Points saillants dans des domaines spécifiques (DSH)Ensemble de données[47]、 Ensemble de données de détection des points saillants personnels (PHD2)[11]、TVSumEnsemble de données[46]EtSumMeEnsemble de données[15] Les résultats expérimentaux détaillés montrent que , Comparaison avec plusieurs méthodes de référence à la fine pointe de la technologie , L'approche que nous proposons a une meilleure performance .

Mais notre approche est limitée. . Bien que notre réseau soit conçu pour accueillir n'importe quel nombre de modèles , Mais nous ne sommes ici que Niveau de référence Deux modes de visage et d'attitude avec la meilleure performance moyenne ont été utilisés dans les essais. .Et pourtant, Beaucoup de vidéos (Par exemple, Vidéos sur le toilettage des animaux , Vidéo de fabrication de sandwiches TVSum) Montre d'autres modes , Comme les mains et les doigts .Donc,,Nous prévoyons intégrer davantage de modèles centrés sur l'homme dans nos expériences à l'avenir..Notre approche n'offre peut - être pas beaucoup d'améliorations de performance pour les vidéos non humaines,.Comme les vidéos qui se concentrent habituellement sur d'autres catégories d'objets vivants ou inanimés ou de scènes naturelles. Nous prévoyons utiliser les modèles appropriés pour explorer ces domaines à l'avenir. . Notre approche peut également être combinée avec des caractéristiques spécifiques au domaine , Ou adapté aux préférences des utilisateurs , Affiner pour détecter plus de points saillants .

Références

[1] Hillel Aviezer, Yaacov Trope, and Alexander Todorov. Body cues, not facial expressions, discriminate between intense positive and negative emotions. Science, 338(6111):1225–1229, 2012. 2

[2] Uttaran Bhattacharya, Trisha Mittal, Rohan Chandra, Tanmay Randhavane, Aniket Bera, and Dinesh Manocha. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20), page 1342–1350. AAAI Press, 2020. 2, 3

[3] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335, 2008. 3

[4] Sijia Cai, Wangmeng Zuo, Larry S. Davis, and Lei Zhang. Weakly-supervised video summarization using variational encoder-decoder and web prior. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2

[5] C. Chen, R. Jafari, and N. Kehtarnavaz. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In 2015 IEEE International Conference on Image Processing (ICIP), pages 168–172, 2015. 3

[6] Chong-Wah Ngo, Yu-Fei Ma, and Hong-Jiang Zhang. Automatic video summarization by graph modeling. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 104–109 vol.1, 2003. 2

[7] Wen-Sheng Chu, Yale Song, and Alejandro Jaimes. Video co-summarization: Video summarization by visual cooccurrence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[8] Cisco. Annual internet report (2018–2023): https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html# toc484813989. CISCO White paper, 2020. 1

[9] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 3844–3852. Curran Associates, Inc., 2016. 4

[10] Annalisa Franco, Antonio Magnani, and Dario Maio. A multimodal approach for human activity recognition based on skeleton and rgb data. Pattern Recognition Letters, 131:293–299, 2020. 3

[11] Ana Garcia del Molino and Michael Gygli. Phd-gifs: Personalized highlight detection for automatic gif creation. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, page 600–608, New York, NY, USA, 2018. Association for Computing Machinery. 1, 2, 6, 7, 8

[12] Adam Geitgey. Face Recognition, 2020. 3, 4, 5

[13] Boqing Gong, Wei-Lun Chao, Kristen Grauman, and Fei Sha. Diverse sequential subset selection for supervised video summarization. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27, pages 2069–2077. Curran Associates, Inc., 2014. 2

[14] Hongxiang Gu and Viswanathan Swaminathan. From thumbnails to summaries-a single deep neural network to rule them all. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018. 2, 4

[15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. Creating summaries from user videos. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 505–520, Cham, 2014. Springer International Publishing. 2, 6, 7, 8

[16] Michael Gygli, Helmut Grabner, and Luc Van Gool. Video summarization by learning submodular mixtures of objectives. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[17] Michael Gygli, Yale Song, and Liangliang Cao. Video2gif: Automatic generation of animated gifs from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 2, 6, 7

[18] Yifan Jiao, Zhetao Li, Shucheng Huang, Xiaoshan Yang, Bin Liu, and Tianzhu Zhang. Three-dimensional attention-based deep ranking model for video highlight detection. IEEE Transactions on Multimedia, 20(10):2693–2705, 2018. 2

[19] Yifan Jiao, Tianzhu Zhang, Shucheng Huang, Bin Liu, and Changsheng Xu. Video highlight detection via region-based deep ranking model. International Journal of Pattern Recognition and Artificial Intelligence, 33(07):1940001, 2019. 2

[20] Hideo Joho, Jacopo Staiano, Nicu Sebe, and Joemon M Jose. Looking at the viewer: analysing facial activity to detect personal highlights of multimedia contents. Multimedia Tools and Applications, 51(2):505–523, 2011. 2

[21] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. 5

[22] Aditya Khosla, Raffay Hamid, Chih-Jen Lin, and Neel Sundaresan. Large-scale video summarization using web-image priors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2

[23] Gunhee Kim, Leonid Sigal, and Eric P. Xing. Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 1, 2

[24] Gunhee Kim and Eric P. Xing. Reconstructing storyline graphs for image recommendation from web community photos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

[25] Hoseong Kim, Tao Mei, Hyeran Byun, and Ting Yao. Exploiting web images for video highlight detection with triplet deep ranking. IEEE Transactions on Multimedia,

20(9):2415–2426, 2018. 1, 2

[26] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. ICASSP, pages 3687–3691, 2013. 3

[27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5

[28] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 4

[29] Muhammed Kocabas. Simple Multi Person Tracker, 2019. 3, 4, 5

[30] Y. J. Lee, J. Ghosh, and K. Grauman. Discovering important people and objects for egocentric video summarization. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1346–1353, 2012. 2

[31] Ang Li, Meghana Thotakuri, David A Ross, Jo˜ao Carreira, Alexander Vostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset. arXiv preprint arXiv:2005.00214, 2020. 5

[32] G. Li, Y. Zhao, M. Ji, X. Yuan, and L. Fang. Zoom in to the details of human-centric videos. In 2020 IEEE International Conference on Image Processing (ICIP), pages 3089–3093, 2020. 2

[33] Jianan Li, Xuemei Xie, Qingzhe Pan, Yuhan Cao, Zhifu Zhao, and Guangming Shi. Sgm-net: Skeleton-guided multimodal network for action recognition. Pattern Recognition, 104:107356, 2020. 3

[34] S. Li and W. Deng. Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, pages 1–1, 2020. 2

[35] Zheng Lu and Kristen Grauman. Story-driven summarization for egocentric video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2, 7

[36] Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 202–211, 2017. 1, 2, 4, 6, 7

[37] D. Mehta, O. Sotnychenko, F. Mueller, W. Xu, S. Sridhar, G. Pons-Moll, and C. Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 2018 International Conference on 3D Vision (3DV), pages 120–130, 2018. 5

[38] Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI’20, pages 1359–1367. AAAI Press, 2020. 2, 3

[39] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. Emoticon: Context-aware multimodal emotion recognition using frege’s principle. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 3

[40] Rameswar Panda and Amit K. Roy-Chowdhury. Collaborative summarization of topic-related videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2, 6, 7

[41] Danila Potapov, Matthijs Douze, Zaid Harchaoui, and Cordelia Schmid. Category-specific video summarization. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 540–555, Cham, 2014. Springer International Publishing. 2, 6, 7

[42] Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, and Yang Wang. Adaptive video highlight detection by learning from user history. In Proceedings of the European Conference on Computer Vision (ECCV), August 2020. 1, 2, 4, 6, 7

[43] Mrigank Rochan and Yang Wang. Video summarization by learning from unpaired data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition (CVPR), June 2019. 2

[44] Mrigank Rochan, Linwei Ye, and Yang Wang. Video summarization using fully convolutional sequence networks. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2, 6, 7

[45] A. Shahroudy, T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+d videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1045–1058, 2018. 3

[46] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7, 8

[47] Min Sun, Ali Farhadi, and Steve Seitz. Ranking domain specific highlights by analyzing edited videos. In European conference on computer vision, pages 787–802. Springer, 2014. 1, 2, 4, 6, 7, 8

[48] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. arXiv preprint arXiv:2011.05049, 2020. 2

[49] Ba Tu Truong and Svetha Venkatesh. Video abstraction: A systematic review and classification. ACM Trans. Multimedia Comput. Commun. Appl., 3(1):3–es, Feb. 2007. 2

[50] Paul Vicol, Makarand Tapaswi, Llu´ıs Castrej´on, and Sanja Fidler. Moviegraphs: Towards understanding human-centric situations from videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2

[51] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, and Lu Fang. Panda: A gigapixel-level human-centric video dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2

[52] Zijun Wei, Boyu Wang, Minh Hoai Nguyen, Jianming Zhang, Zhe Lin, Xiaohui Shen, Radomir Mech, and Dimitris Samaras. Sequence-to-segment networks for segment detection. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31, pages 3507–3516. Curran Associates, Inc., 2018. 2, 6, 7

[53] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1258–1267, 2019. 1, 2, 4, 6, 7

[54] Bo Xiong, Gunhee Kim, and Leonid Sigal. Storyline representation of egocentric videos with an applications to story-based search. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2

[55] Jia Xu, Lopamudra Mukherjee, Yin Li, Jamieson Warner, James M. Rehg, and Vikas Singh. Gaze-enabled egocentric video summarization via constrained submodular maximization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2

[56] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Sheila A. McIlraith and Kilian Q. Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 7444–7452. AAAI Press, 2018. 2, 3, 4

[57] Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised extraction of video highlights via robust recurrent auto-encoders. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2, 6, 7

[58] Ting Yao, Tao Mei, and Yong Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 982–990, 2016. 2

[59] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 – 109, 1998. 2

[60] Youngjae Yu, Sangho Lee, Joonil Na, Jaeyun Kang, and Gunhee Kim. A deep ranking model for spatio-temporal highlight detection from a 360 video. pages 7525–7533, 2018. 2

[61] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL (Volume 1: Long Papers), pages 2236–2246, 2018. 3

[62] Wenjun Zeng. Toward human-centric deep video understanding. APSIPA Transactions on Signal and Information Processing, 9:e1, 2020. 1

[63] Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 766–782, Cham, 2016. Springer International Publishing. 1, 2, 6, 7

[64] Ke Zhang, Kristen Grauman, and Fei Sha. Retrospective encoders for video summarization. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2

[65] Bin Zhao, Xuelong Li, and Xiaoqiang Lu. Hierarchical recurrent neural network for video summarization. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 863–871, New York, NY, USA, 2017. Association for Computing Machinery. 2

[66] Bin Zhao and Eric P. Xing. Quasi real-time summarization for consumer videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

[67] Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. pages 7582–7589, 2018. 1, 2, 6, 7

版权声明
本文为[Le cœur de la machine]所创,转载请带上原文链接,感谢
https://fheadline.com/2021/10/20211013024959933g.html
相似文章