papers AI Learner

The Github is limit! Click to go to the new site.

Caption

Caption

2019-05-30 Thu. Lattice-based lightly-supervised acoustic model training arXiv_CL arXiv_CL Speech_Recognition Caption Language_Model Recognition
2019-05-29 Wed. Vision-to-Language Tasks Based on Attributes and Attention Mechanism arXiv_CV arXiv_CV Image_Caption Attention Caption Relation VQA
2019-05-28 Tue. On Measuring Gender Bias in Translation of Gender-neutral Pronouns arXiv_CL arXiv_CL Image_Caption Caption Detection Recommendation
2019-05-25 Sat. Bivariate Beta LSTM arXiv_CV arXiv_CV Image_Caption Knowledge Caption Image_Classification RNN Classification Relation
2019-05-25 Sat. SuperCaptioning: Image Captioning Using Two-dimensional Word Embedding arXiv_CL arXiv_CL Image_Caption Text_Classification Caption Embedding Image_Classification Classification
2019-05-23 Thu. Application of Machine Learning in Fiber Nonlinearity Modeling and Monitoring for Elastic Optical Networks arXiv_CV arXiv_CV Caption
2019-05-20 Mon. Image Captioning based on Deep Learning Methods: A Survey arXiv_CV arXiv_CV Image_Caption Image_Retrieval Attention Caption Survey Deep_Learning
2019-05-20 Mon. Implications of Computer Vision Driven Assistive Technologies Towards Individuals with Visual Impairment arXiv_CV arXiv_CV Face Caption
2019-05-20 Mon. Multimodal Transformer with Multi-View Visual Representation for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN Quantitative
2019-05-16 Thu. Harvesting Information from Captions for Weakly Supervised Semantic Segmentation arXiv_CV arXiv_CV Image_Caption Segmentation Weakly_Supervised Caption Embedding CNN Semantic_Segmentation
2019-05-15 Wed. VICSOM: VIsual Clues from SOcial Media for psychological assessment arXiv_CV arXiv_CV Caption CNN Classification Language_Model Recognition
2019-05-15 Wed. Aligning Visual Regions and Textual Concepts: Learning Fine-Grained Image Representations for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Text_Generation Caption Relation
2019-05-14 Tue. End to End Recognition System for Recognizing Offline Unconstrained Vietnamese Handwriting arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Language_Model Recognition
2019-05-13 Mon. CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features arXiv_CV arXiv_CV Image_Caption Regularization Caption CNN Classification Detection
2019-05-12 Sun. On Flow Profile Image for Video Representation arXiv_CV arXiv_CV Video_Caption Caption Optimization Video_Classification Classification Recognition
2019-05-10 Fri. Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables arXiv_AI arXiv_AI Image_Caption Adversarial Caption RNN
2019-05-10 Fri. Memory-Attended Recurrent Network for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption
2019-05-09 Thu. Learning Representations for Predicting Future Activities arXiv_AI arXiv_AI Caption Embedding Prediction
2019-05-08 Wed. Multimodal Semantic Attention Network for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption RNN Classification
2019-05-08 Wed. Deep Blind Video Decaptioning by Temporal Aggregation and Recurrence arXiv_CV arXiv_CV Caption Deep_Learning Quantitative
2019-05-06 Mon. Image Captioning with Clause-Focused Metrics in a Multi-Modal Setting for Marketing arXiv_CV arXiv_CV Image_Caption Caption
2019-05-03 Fri. Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption CNN Optimization RNN Relation
2019-04-30 Tue. PR Product: A Substitute for Inner Product in Neural Networks arXiv_CV arXiv_CV Image_Caption Caption CNN Image_Classification RNN Classification Deep_Learning
2019-04-28 Sun. Hierarchical Recurrent Neural Network for Video Summarization arXiv_CV arXiv_CV Video_Caption Summarization Caption RNN Classification
2019-04-28 Sun. UniVSE: Robust Visual Semantic Embeddings via Structured Semantic Representations arXiv_CV arXiv_CV Image_Caption Adversarial Caption Embedding Relation
2019-04-26 Fri. Knowing When to Stop: Evaluation and Verification of Conformity to Output-size Specifications arXiv_AI arXiv_AI Image_Caption Caption
2019-04-25 Thu. Scene Graph Prediction with Limited Labels arXiv_CV arXiv_CV Sparse Knowledge Caption Transfer_Learning Prediction Relation VQA
2019-04-25 Thu. Pointing Novel Objects in Image Captioning arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption RNN Recognition
2019-04-24 Wed. On the Contributions of Visual and Textual Supervision in Low-resource Semantic Speech Retrieval arXiv_CL arXiv_CL Caption
2019-04-22 Mon. nocaps: Novel Object Captioning at Scale arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Detection
2019-04-22 Mon. Tripping through time: Efficient Localization of Activities in Videos arXiv_CV arXiv_CV Attention Reinforcement_Learning Caption Classification
2019-04-21 Sun. BERTScore: Evaluating Text Generation with BERT arXiv_CL arXiv_CL Image_Caption Text_Generation Caption Embedding
2019-04-21 Sun. Deep Metric Learning Beyond Binary Supervision arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption Relation
2019-04-21 Sun. 3G structure for image caption generation arXiv_CV arXiv_CV Image_Caption Attention Caption Embedding RNN Relation
2019-04-19 Fri. Integrating Text and Image: Determining Multimodal Document Intent in Instagram Posts arXiv_CV arXiv_CV Image_Caption Caption Detection Relation
2019-04-18 Thu. Knowledge-rich Image Gist Understanding Beyond Literal Meaning arXiv_CV arXiv_CV Image_Caption Knowledge Caption Detection
2019-04-18 Thu. Learning to Collocate Neural Modules for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2019-04-17 Wed. Robust Change Captioning arXiv_CV arXiv_CV Attention Caption
2019-04-16 Tue. Unsupervised Discovery of Multimodal Links in Multi-Image, Multi-Sentence Documents arXiv_CV arXiv_CV Caption Relation
2019-04-15 Mon. Natural Language Statistical Features of LSTM-generated Texts arXiv_CV arXiv_CV Image_Caption Caption RNN Quantitative Relation
2019-04-15 Mon. Self-critical n-step Training for Image Captioning arXiv_CV arXiv_CV Image_Caption Sparse Reinforcement_Learning Caption
2019-04-12 Fri. Big but Imperceptible Adversarial Perturbations via Semantic Manipulation arXiv_CV arXiv_CV Image_Caption Adversarial Caption Image_Classification Classification Deep_Learning
2019-04-11 Thu. Intention Oriented Image Captions with Guiding Objects arXiv_CV arXiv_CV Image_Caption Caption RNN
2019-04-11 Thu. Unified Visual-Semantic Embeddings: Bridging Vision and Language with Structured Meaning Representations arXiv_CV arXiv_CV Image_Caption Adversarial Caption Embedding Relation
2019-04-11 Thu. Membership Inference Attacks on Sequence-to-Sequence Models arXiv_CL arXiv_CL Video_Caption Caption Inference
2019-04-11 Thu. Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2019-04-09 Tue. Exploring Uncertainty Measures for Image-Caption Embedding-and-Retrieval Task arXiv_CV arXiv_CV Image_Caption Caption Embedding Classification Deep_Learning
2019-04-08 Mon. Streamlined Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2019-04-06 Sat. VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research arXiv_CV arXiv_CV Video_Caption Caption
2019-04-06 Sat. Unsupervised Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Knowledge Caption Detection
2019-04-05 Fri. Measuring scheduling efficiency of RNNs for NLP applications arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption Optimization Inference RNN Recognition
2019-04-05 Fri. Evaluating Text-to-Image Matching using Binary Image Selection arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption
2019-04-05 Fri. Actively Seeking and Learning from Live Data arXiv_CV arXiv_CV QA Face Caption VQA
2019-04-04 Thu. Accelerated Reinforcement Learning for Sentence Generation by Vocabulary Prediction arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Prediction
2019-04-04 Thu. An End-to-End Baseline for Video Captioning arXiv_AI arXiv_AI Video_Caption Attention Caption Action_Recognition CNN RNN Recognition
2019-04-03 Wed. VideoBERT: A Joint Model for Video and Language Representation Learning arXiv_CV arXiv_CV Video_Caption Speech_Recognition Caption Represenation_Learning Classification Language_Model Quantitative Recognition
2019-04-02 Tue. Good News, Everyone! Context driven entity-aware captioning for news images arXiv_CV arXiv_CV Image_Caption Knowledge Caption Relation
2019-04-02 Tue. Context and Attribute Grounded Dense Captioning arXiv_CV arXiv_CV Caption
2019-04-01 Mon. Multi-source weak supervision for saliency detection arXiv_CV arXiv_CV Salient Attention Weakly_Supervised Caption Classification Prediction Detection
2019-03-29 Fri. Object Hallucination in Image Captioning arXiv_CV arXiv_CV Image_Caption Caption Classification
2019-03-28 Thu. Modeling Acoustic-Prosodic Cues for Word Importance Prediction in Spoken Dialogues arXiv_CL arXiv_CL Speech_Recognition Caption Prediction Recognition
2019-03-28 Thu. Describing like humans: on diversity in image captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption
2019-03-27 Wed. Align2Ground: Weakly Supervised Phrase Grounding Guided by Image-Caption Alignment arXiv_CV arXiv_CV Image_Caption Image_Retrieval Weakly_Supervised Caption
2019-03-27 Wed. Learning semantic sentence representations from visually grounded language without lexical knowledge arXiv_CL arXiv_CL Image_Caption Knowledge Caption Embedding
2019-03-26 Tue. AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search arXiv_CV arXiv_CV Image_Caption Object_Detection Style_Transfer Caption Detection
2019-03-26 Tue. Unpaired Image Captioning via Scene Graph Alignments arXiv_CV arXiv_CV Image_Caption Adversarial Caption
2019-03-25 Mon. End-to-End Learning Using Cycle Consistency for Image-to-Caption Transformations arXiv_CV arXiv_CV Caption
2019-03-23 Sat. Scene Understanding for Autonomous Manipulation with Deep Learning arXiv_CV arXiv_CV Object_Detection Segmentation Caption Deep_Learning Detection
2019-03-21 Thu. Learning to Caption Images through a Lifetime by Asking Questions arXiv_CV arXiv_CV Knowledge Caption
2019-03-20 Wed. Engaging Image Captioning Via Personality arXiv_CV arXiv_CV Image_Caption Caption
2019-03-18 Mon. Boosted Attention: Leveraging Human Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-03-18 Mon. Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption CNN Language_Model Recognition
2019-03-17 Sun. A Weighted Multi-Criteria Decision Making Approach for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-03-14 Thu. Show, Translate and Tell arXiv_CV arXiv_CV Image_Caption Caption Embedding
2019-03-14 Thu. Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning arXiv_CV arXiv_CV Image_Caption Caption Prediction Relation
2019-03-12 Tue. 'Hang in There': Lexical and Visual Analysis to Identify Posts Warranting Empathetic Responses arXiv_CL arXiv_CL Sentiment Caption
2019-03-10 Sun. Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning arXiv_CV arXiv_CV Image_Caption Adversarial Caption
2019-03-06 Wed. Image captioning with weakly-supervised attention penalty arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-03-06 Wed. A Synchronized Multi-Modal Attention-Caption Dataset and Analysis arXiv_CV arXiv_CV Image_Caption Attention Caption CNN Relation
2019-03-06 Wed. Dixit: Interactive Visual Storytelling via Term Manipulation arXiv_CL arXiv_CL Image_Caption Caption RNN
2019-03-04 Mon. M-VAD Names: a Dataset for Video Captioning with Naming arXiv_CV arXiv_CV Video_Caption Caption
2019-03-04 Mon. COMIC: Towards A Compact Image Captioning Model with Attention arXiv_CV arXiv_CV Image_Caption Attention Caption Embedding
2019-03-01 Fri. Learning from Multiview Correlations in Open-Domain Videos arXiv_CV arXiv_CV Caption Represenation_Learning Relation
2019-02-28 Thu. Insertion-based Decoding with automatically Inferred Generation Order arXiv_CL arXiv_CL Image_Caption Caption
2019-02-27 Wed. Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning arXiv_CV arXiv_CV Video_Caption Object_Detection Caption CNN RNN Language_Model Detection
2019-02-26 Tue. SPEECH-COCO: 600k Visually Grounded Spoken Captions Aligned to MSCOCO Data Set arXiv_CV arXiv_CV Caption
2019-02-25 Mon. Using Deep Object Features for Image Descriptions arXiv_CV arXiv_CV Image_Caption Caption Embedding Language_Model
2019-02-25 Mon. Audio Caption: Listen and Tell arXiv_CL arXiv_CL Image_Caption Caption Classification Detection Relation
2019-02-21 Thu. Deep CNN-based Speech Balloon Detection and Segmentation for Comic Books arXiv_CV arXiv_CV Segmentation Caption CNN Detection
2019-02-15 Fri. Generating Natural Language Explanations for Visual Question Answering using Scene Graphs and Visual Attention arXiv_AI arXiv_AI QA Attention Caption Language_Model Relation VQA
2019-02-14 Thu. Contextual Memory Trees arXiv_CV arXiv_CV Image_Caption Caption Inference Classification
2019-02-14 Thu. Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions arXiv_CV arXiv_CV Image_Caption Caption
2019-02-14 Thu. Actions Generation from Captions arXiv_CV arXiv_CV Adversarial Attention GAN Caption
2019-02-13 Wed. Wasserstein Barycenter Model Ensembling arXiv_CV arXiv_CV Image_Caption Caption Embedding Classification
2019-02-13 Wed. Improving Image Captioning with Conditional Generative Adversarial Nets arXiv_CV arXiv_CV Image_Caption Adversarial Caption RNN
2019-02-11 Mon. Attend More Times for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption RNN
2019-02-11 Mon. Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded arXiv_CV arXiv_CV Image_Caption QA Attention Caption Language_Model Prediction VQA
2019-02-08 Fri. A sequential guiding network with attention for image captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN Deep_Learning
2019-02-05 Tue. Area Attention arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-02-01 Fri. Rethinking Visual Relationships for High-level Image Understanding arXiv_CV arXiv_CV Image_Caption Caption Relation VQA
2019-01-31 Thu. Self-Supervised Visual Representations for Cross-Modal Retrieval arXiv_CV arXiv_CV Object_Detection Caption Image_Classification Classification Detection Relation
2019-01-25 Fri. Improving Image Captioning by Leveraging Knowledge Graphs arXiv_CV arXiv_CV Image_Caption Knowledge_Graph Knowledge Caption
2019-01-25 Fri. Face-Cap: Image Captioning using Facial Expression Analysis arXiv_CV arXiv_CV Image_Caption Face Caption Relation
2019-01-21 Mon. Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos arXiv_CV arXiv_CV Reinforcement_Learning Caption
2019-01-19 Sat. Binary Image Selection : Interpretable Evaluation of Visual Grounding arXiv_AI arXiv_AI Image_Caption Caption
2019-01-19 Sat. How to Become Instagram Famous: Post Popularity Prediction with Dual-Attention arXiv_CV arXiv_CV Image_Caption Attention Face Caption Classification Prediction
2019-01-18 Fri. Improving Sequence-to-Sequence Learning via Optimal Transport arXiv_CL arXiv_CL Image_Caption Summarization Caption
2019-01-15 Tue. COCO-CN for Cross-Lingual Image Tagging, Captioning and Retrieval arXiv_CV arXiv_CV Caption Recommendation
2019-01-14 Mon. Image Based Review Text Generation with Emotional Guidance arXiv_AI arXiv_AI Image_Caption Review Text_Generation Caption
2019-01-14 Mon. Predicting the Mumble of Wireless Channel with Sequence-to-Sequence Models arXiv_AI arXiv_AI Image_Caption Summarization Caption Language_Model Prediction
2019-01-11 Fri. Image Captioning Based on a Hierarchical Attention Mechanism and Policy Gradient Optimization arXiv_CV arXiv_CV Image_Caption Adversarial Attention GAN Reinforcement_Learning Caption Optimization Inference RNN Deep_Learning
2019-01-08 Tue. Viewpoint Invariant Change Captioning arXiv_AI arXiv_AI Caption
2019-01-07 Mon. DeepBase: Deep Inspection of Neural Networks arXiv_CV arXiv_CV Image_Caption Face Caption Optimization Deep_Learning Recognition
2019-01-04 Fri. MultiDEC: Multi-Modal Clustering of Image-Caption Pairs arXiv_CV arXiv_CV Image_Caption Caption
2019-01-04 Fri. Amortized Context Vector Inference for Sequence-to-Sequence Networks arXiv_CV arXiv_CV Video_Caption Attention Summarization Caption Inference
2019-01-03 Thu. Generating Multiple Objects at Spatially Distinct Locations arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2019-01-01 Tue. Transfer learning from language models to image caption generators: Better models may not transfer better arXiv_CL arXiv_CL Image_Caption Caption Embedding CNN Transfer_Learning Language_Model
2019-01-01 Tue. End-to-End Video Captioning with Multitask Reinforcement Learning arXiv_CV arXiv_CV Video_Caption Knowledge Reinforcement_Learning Caption CNN RNN
2019-01-01 Tue. Not All Words are Equal: Video-specific Information Loss for Video Captioning arXiv_CV arXiv_CV Salient Video_Caption Attention Caption Relation Recognition
2018-12-26 Wed. Hierarchical LSTMs with Adaptive Attention for Visual Captioning arXiv_CV arXiv_CV Image_Caption Video_Caption Attention Caption RNN Language_Model
2018-12-25 Tue. Multilevel Language and Vision Integration for Text-to-Clip Retrieval arXiv_CV arXiv_CV Caption
2018-12-25 Tue. Joint Event Detection and Description in Continuous Video Streams arXiv_CV arXiv_CV Video_Caption Caption CNN Detection Relation
2018-12-21 Fri. Symbolic inductive bias for visually grounded learning of spoken language arXiv_CV arXiv_CV Caption Embedding
2018-12-20 Thu. nocaps: novel object captioning at scale arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Detection
2018-12-19 Wed. Generating Diverse and Meaningful Captions arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption
2018-12-17 Mon. Multi Instance Learning For Unbalanced Data arXiv_CV arXiv_CV Caption Classification
2018-12-17 Mon. Feature Fusion Effects of Tensor Product Representation on Compositional Network for Caption Generation for Images arXiv_CV arXiv_CV Image_Caption Caption Language_Model Relation
2018-12-17 Mon. Grounded Video Description arXiv_CV arXiv_CV Image_Caption Caption Recognition
2018-12-13 Thu. Adversarial Inference for Multi-Sentence Video Description arXiv_CV arXiv_CV Image_Caption Adversarial Video_Caption GAN Caption Inference
2018-12-12 Wed. CNN Fixations: An unraveling approach to visualize the discriminative image regions arXiv_CV arXiv_CV Caption CNN Classification Prediction Detection Recognition
2018-12-11 Tue. Auto-Encoding Scene Graphs for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption Inference Relation
2018-12-10 Mon. Weakly Supervised Dense Event Captioning in Videos arXiv_CV arXiv_CV Weakly_Supervised Caption
2018-12-07 Fri. An Attempt towards Interpretable Audio-Visual Video Captioning arXiv_CV arXiv_CV Video_Caption Caption CNN
2018-12-05 Wed. Conditional Video Generation Using Action-Appearance Captions arXiv_CV arXiv_CV Adversarial GAN Caption Quantitative
2018-12-03 Mon. Multi-task Learning of Hierarchical Vision-Language Representation arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption Prediction Relation VQA
2018-11-29 Thu. Turbo Learning for Captionbot and Drawingbot arXiv_CV arXiv_CV Image_Caption Text_Generation Caption
2018-11-29 Thu. On the effectiveness of task granularity for transfer learning arXiv_CV arXiv_CV Caption Transfer_Learning Video_Classification Classification
2018-11-28 Wed. Towards Task Understanding in Visual Settings arXiv_CV arXiv_CV Image_Caption Ontology Text_Generation Caption CNN
2018-11-28 Wed. Partially-Supervised Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Caption RNN Detection
2018-11-25 Sun. Learning to discover and localize visual objects with open vocabulary arXiv_CV arXiv_CV Object_Detection Weakly_Supervised Caption Detection Relation
2018-11-24 Sat. Senti-Attend: Image Captioning using Sentiment and Attention arXiv_CV arXiv_CV Image_Caption Sentiment Attention Caption
2018-11-23 Fri. Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning arXiv_CV arXiv_CV Video_Caption Knowledge Caption Embedding
2018-11-22 Thu. Data Augmentation using Random Image Cropping and Patching for Deep CNNs arXiv_CV arXiv_CV Image_Caption Regularization Caption CNN Classification
2018-11-21 Wed. An Interpretable Model for Scene Graph Generation arXiv_CV arXiv_CV Image_Caption QA Caption Detection Relation
2018-11-20 Tue. Scene Graph Generation via Conditional Random Fields arXiv_CV arXiv_CV Image_Caption Image_Retrieval Object_Detection QA Segmentation Caption Detection Relation
2018-11-14 Wed. A task in a suit and a tie: paraphrase generation with semantic augmentation arXiv_CV arXiv_CV Caption RNN
2018-11-09 Fri. Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks arXiv_CV arXiv_CV Image_Caption Knowledge Caption Action_Recognition CNN Classification Deep_Learning Prediction Recognition
2018-11-09 Fri. AttS2S-VC: Sequence-to-Sequence Voice Conversion with Attention and Context Preservation Mechanisms arXiv_CV arXiv_CV Image_Caption Attention Caption Recognition
2018-11-07 Wed. Entity-aware Image Caption Generation arXiv_CV arXiv_CV Image_Caption Knowledge_Graph Knowledge Caption CNN Inference RNN Memory_Networks
2018-11-07 Wed. Y^2Seq2Seq: Cross-Modal Representation Learning for 3D Shape and Text by Joint Reconstruction and Prediction of View and Word Sequences arXiv_CV arXiv_CV Caption Represenation_Learning Prediction
2018-11-03 Sat. To Find Where You Talk: Temporal Sentence Localization in Video with Attention Based Location Regression arXiv_CV arXiv_CV Attention Caption RNN
2018-11-01 Thu. A Corpus for Reasoning About Natural Language Grounded in Photographs arXiv_CV arXiv_CV Caption Relation
2018-11-01 Thu. Attentive Tensor Product Learning arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Deep_Learning
2018-10-31 Wed. Semantic speech retrieval with a visually grounded model of untranscribed speech arXiv_CV arXiv_CV Caption
2018-10-31 Wed. Gated Hierarchical Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Reinforcement_Learning Caption CNN Prediction VQA Recognition
2018-10-28 Sun. Middle-Out Decoding arXiv_CV arXiv_CV Video_Caption Attention Caption
2018-10-23 Tue. A Neural Compositional Paradigm for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2018-10-22 Mon. Image-to-Video Person Re-Identification by Reusing Cross-modal Embeddings arXiv_CV arXiv_CV Image_Caption Re-identification Video_Caption Person_Re-identification Caption Embedding RNN
2018-10-16 Tue. Cross-Modal and Hierarchical Modeling of Video and Text arXiv_CV arXiv_CV Video_Caption Caption Action_Recognition Embedding Recognition
2018-10-15 Mon. Image Captioning as Neural Machine Translation Task in SOCKEYE arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN
2018-10-15 Mon. Bringing back simplicity and lightliness into neural image captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2018-10-15 Mon. UMONS Submission for WMT18 Multimodal Translation Task arXiv_CV arXiv_CV Image_Caption Caption
2018-10-14 Sun. A Comprehensive Survey of Deep Learning for Image Captioning arXiv_CV arXiv_CV Image_Caption Review Caption Survey Deep_Learning Relation
2018-10-12 Fri. Quantifying the amount of visual information used by neural caption generators arXiv_CV arXiv_CV Image_Caption Caption
2018-10-12 Fri. Pre-gen metrics: Predicting caption quality metrics without generating captions arXiv_CV arXiv_CV Image_Caption Caption
2018-10-05 Fri. CanvasGAN: A simple baseline for text to image generation by incrementally patching a canvas arXiv_CV arXiv_CV Attention GAN Image_Generation Caption Embedding
2018-10-01 Mon. Unseen Action Recognition with Multimodal Learning arXiv_CV arXiv_CV Adversarial Caption Action_Recognition Embedding Classification Recognition
2018-09-27 Thu. Vector Learning for Cross Domain Representations arXiv_CV arXiv_CV Image_Caption Adversarial Video_Caption GAN Caption
2018-09-27 Thu. Semantically Invariant Text-to-Image Generation arXiv_CV arXiv_CV Image_Caption Caption Quantitative
2018-09-26 Wed. Batch-normalized Recurrent Highway Networks arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-09-25 Tue. A Neural-Symbolic Approach to Design of CAPTCHA arXiv_CV arXiv_CV Image_Caption Caption RNN Deep_Learning
2018-09-25 Tue. Fast and Simple Mixture of Softmaxes with BPE and Hybrid-LightRNN for Language Generation arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-09-23 Sun. Textually Enriched Neural Module Networks for Visual Question Answering arXiv_CV arXiv_CV Image_Caption Knowledge QA Attention Caption VQA Recognition
2018-09-21 Fri. Multimodal Dual Attention Memory for Video Story Question Answering arXiv_CV arXiv_CV QA Attention Caption Inference
2018-09-20 Thu. Lessons learned in multilingual grounded language learning arXiv_CV arXiv_CV Image_Caption Caption Embedding
2018-09-20 Thu. C4Synth: Cross-Caption Cycle-Consistent Text-to-Image Synthesis arXiv_CV arXiv_CV Caption Quantitative
2018-09-19 Wed. Towards Accountable AI: Hybrid Human-Machine Analyses for Characterizing System Failure arXiv_CV arXiv_CV Image_Caption Caption Relation
2018-09-19 Wed. MTLE: A Multitask Learning Encoder of Visual Feature Representations for Video and Movie Description arXiv_CV arXiv_CV Video_Caption Knowledge Caption RNN
2018-09-19 Wed. Exploring Visual Relationship for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN Relation
2018-09-13 Thu. Improving Reinforcement Learning Based Image Captioning with Natural Language Prior arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Quantitative
2018-09-13 Thu. Image Captioning based on Deep Reinforcement Learning arXiv_CV arXiv_CV Image_Caption Knowledge Reinforcement_Learning Caption RNN
2018-09-11 Tue. End-to-end Image Captioning Exploits Multimodal Distributional Similarity arXiv_CV arXiv_CV Image_Caption Text_Generation Caption RNN
2018-09-11 Tue. Evaluating Multimodal Representations on Sentence Similarity: vSTS, Visual Semantic Textual Similarity Dataset arXiv_CV arXiv_CV Caption Quantitative
2018-09-10 Mon. SPASS: Scientific Prominence Active Search System with Deep Image Captioning Network arXiv_CV arXiv_CV Image_Caption Caption
2018-09-07 Fri. BFGAN: Backward and Forward Generative Adversarial Networks for Lexically Constrained Sentence Generation arXiv_CV arXiv_CV Image_Caption Adversarial Knowledge GAN Caption RNN
2018-09-06 Thu. Neural Network Interpretation via Fine Grained Textual Summarization arXiv_CV arXiv_CV Image_Caption Image_Retrieval Summarization Caption Inference Classification Prediction
2018-09-04 Tue. Hierarchical Video Understanding arXiv_CV arXiv_CV Video_Caption Caption
2018-09-03 Mon. Diverse and Coherent Paragraph Generation from Images arXiv_CV arXiv_CV Image_Caption Summarization Caption
2018-09-02 Sun. Chittron: An Automatic Bangla Image Captioning System arXiv_CV arXiv_CV Image_Caption Caption Embedding RNN Language_Model
2018-09-02 Sun. Approximate Distribution Matching for Sequence-to-Sequence Learning arXiv_CV arXiv_CV Image_Caption Summarization Caption Optimization RNN Prediction
2018-08-31 Fri. When to Finish? Optimal Beam Search for Neural Text Generation arXiv_CV arXiv_CV Image_Caption Summarization Text_Generation Caption
2018-08-30 Thu. LUCSS: Language-based User-customized Colourization of Scene Sketches arXiv_CV arXiv_CV Segmentation Caption Relation
2018-08-29 Wed. Hard Non-Monotonic Attention for Character-Level Transduction arXiv_CV arXiv_CV Image_Caption Attention Caption
2018-08-28 Tue. Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation arXiv_CV arXiv_CV Image_Caption Summarization Text_Generation Caption
2018-08-27 Mon. Deterministic Non-Autoregressive Neural Sequence Modeling by Iterative Refinement arXiv_CV arXiv_CV Image_Caption Caption
2018-08-27 Mon. A neural attention model for speech command recognition arXiv_CV arXiv_CV Image_Caption Attention Caption CNN Recognition
2018-08-27 Mon. simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions arXiv_CV arXiv_CV Image_Caption Attention Caption
2018-08-25 Sat. VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions arXiv_CV arXiv_CV QA Caption Prediction Quantitative VQA
2018-08-23 Thu. The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary arXiv_CV arXiv_CV GAN Caption Recognition
2018-08-22 Wed. Context-Aware Visual Policy Network for Sequence-Level Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Reinforcement_Learning Caption Prediction Relation
2018-08-21 Tue. Fully-Convolutional Point Networks for Large-Scale Point Clouds arXiv_CV arXiv_CV Segmentation GAN Caption CNN Prediction Relation
2018-08-20 Mon. Deep Multimodal Image-Repurposing Detection arXiv_CV arXiv_CV Knowledge GAN Caption Detection
2018-08-20 Mon. Learning from #Barcelona Instagram data what Locals and Tourists post about its Neighbourhoods arXiv_CV arXiv_CV Caption Relation
2018-08-16 Thu. NMT-Keras: a Very Flexible Toolkit with a Focus on Interactive NMT and Online Learning arXiv_CV arXiv_CV Video_Caption Caption NMT Classification Deep_Learning VQA
2018-08-14 Tue. Text-to-Image-to-Text Translation using Cycle Consistent Adversarial Networks arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2018-08-13 Mon. DenseRAN for Offline Handwritten Chinese Character Recognition arXiv_CV arXiv_CV Attention Caption RNN Deep_Learning Recognition
2018-08-12 Sun. Multimodal Differential Network for Visual Question Generation arXiv_CV arXiv_CV Caption Quantitative VQA
2018-08-11 Sat. Decoupled Novel Object Captioner arXiv_CV arXiv_CV Image_Caption Caption Detection
2018-08-11 Sat. Dropout during inference as a model for neurological degeneration in an image captioning network arXiv_CV arXiv_CV Image_Caption Caption Inference
2018-08-08 Wed. Choose Your Neuron: Incorporating Domain Knowledge through Neuron-Importance arXiv_CV arXiv_CV Knowledge Caption CNN Classification Prediction
2018-08-07 Tue. SketchyScene: Richly-Annotated Scene Sketches arXiv_CV arXiv_CV Image_Retrieval Segmentation Caption Semantic_Segmentation
2018-07-31 Tue. Recurrent Fusion Network for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2018-07-30 Mon. Doubly Attentive Transformer Machine Translation arXiv_CV arXiv_CV Image_Caption Attention Caption CNN NMT
2018-07-29 Sun. ADVISE: Symbolism and External Knowledge for Decoding Advertisements arXiv_CV arXiv_CV Image_Caption Knowledge GAN Caption Recognition
2018-07-29 Sun. 'Factual' or 'Emotional': Stylized Image Captioning with Adaptive Learning and Attention arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption RNN
2018-07-29 Sun. VSE++: Improving Visual-Semantic Embeddings with Hard Negatives arXiv_CV arXiv_CV Image_Retrieval Caption Embedding Prediction
2018-07-26 Thu. Move Forward and Tell: A Progressive Generator of Video Descriptions arXiv_CV arXiv_CV Video_Caption Caption Embedding
2018-07-26 Thu. Rethinking the Form of Latent States in Image Captioning arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-07-25 Wed. Distinctive-attribute Extraction for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2018-07-23 Mon. Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data arXiv_CV arXiv_CV Image_Caption Caption
2018-07-21 Sat. Equal But Not The Same: Understanding the Implicit Relationship Between Persuasive Images and Text arXiv_CV arXiv_CV Image_Caption GAN Caption Relation
2018-07-21 Sat. Inductive Visual Localisation: Factorised Training for Superior Generalisation arXiv_CV arXiv_CV Image_Caption Caption RNN Recognition
2018-07-21 Sat. What is not where: the challenge of integrating spatial representations into deep learning architectures arXiv_CV arXiv_CV Image_Caption Object_Detection Knowledge Caption Deep_Learning Language_Model Detection Relation
2018-07-20 Fri. Deep Reinforcement Learning For Sequence to Sequence Models arXiv_CV arXiv_CV Image_Caption Attention Summarization Reinforcement_Learning Caption Survey
2018-07-18 Wed. Unpaired Image Captioning by Language Pivoting arXiv_CV arXiv_CV Image_Caption Caption Quantitative
2018-07-14 Sat. Predicting Visual Features from Text for Image and Video Caption Retrieval arXiv_CV arXiv_CV Video_Caption Caption Embedding CNN
2018-07-10 Tue. Topic-Guided Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Quantitative
2018-07-09 Mon. No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling arXiv_CV arXiv_CV Adversarial Face Reinforcement_Learning Caption
2018-07-08 Sun. Learning The Sequential Temporal Information with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Review Speech_Recognition Tracking Caption Object_Tracking RNN Language_Model Prediction Recognition
2018-07-08 Sun. Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction arXiv_CV arXiv_CV Video_Caption Attention Caption RNN Language_Model Prediction
2018-07-02 Mon. Women also Snowboard: Overcoming Bias in Captioning Models arXiv_CV arXiv_CV Image_Caption Caption Prediction
2018-06-30 Sat. End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features arXiv_CV arXiv_CV QA Attention Caption VQA
2018-06-29 Fri. YH Technologies at ActivityNet Challenge 2018 arXiv_CV arXiv_CV Caption Action_Recognition Recognition
2018-06-29 Fri. Multimedia Semantic Integrity Assessment Using Joint Embedding Of Images And Text arXiv_CV arXiv_CV Image_Caption Caption Embedding Represenation_Learning Deep_Learning Quantitative
2018-06-27 Wed. Learning Visually-Grounded Semantics from Contrastive Adversarial Samples arXiv_CV arXiv_CV Image_Caption Adversarial Knowledge Caption Embedding Quantitative
2018-06-25 Mon. Best Vision Technologies Submission to ActivityNet Challenge 2018-Task: Dense-Captioning Events in Videos arXiv_CV arXiv_CV Video_Caption Attention Caption Inference RNN
2018-06-22 Fri. RUC+CMU: System Report for Dense Captioning Events in Videos arXiv_CV arXiv_CV Video_Caption Caption
2018-06-17 Sun. Learning to Evaluate Image Captioning arXiv_CV arXiv_CV Image_Caption Face Caption Relation
2018-06-12 Tue. iParaphrasing: Extracting Visually Grounded Paraphrases via an Image arXiv_CV arXiv_CV Image_Caption Attention Caption VQA
2018-06-08 Fri. Discriminability objective for training descriptive captions arXiv_CV arXiv_CV Image_Caption Caption
2018-06-08 Fri. Dank Learning: Generating Memes Using Deep Neural Networks arXiv_CV arXiv_CV Attention Caption Embedding RNN
2018-06-08 Fri. Learn from Your Neighbor: Learning Multi-modal Mappings from Sparse Annotations arXiv_CV arXiv_CV Sparse Caption Classification Prediction
2018-06-04 Mon. Learning Visually Grounded Sentence Representations arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption Embedding
2018-06-01 Fri. Improved Image Captioning with Adversarial Semantic Alignment arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption RNN Relation
2018-05-31 Thu. Grow and Prune Compact, Fast, and Accurate LSTMs arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption RNN Recognition
2018-05-30 Wed. Extracting Scientific Figures with Distantly Supervised Neural Networks arXiv_CV arXiv_CV Caption Detection
2018-05-30 Wed. Neural Joking Machine : Humorous image captioning arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-05-23 Wed. Quantifying the visual concreteness of words and topics in multimodal datasets arXiv_CV arXiv_CV Image_Caption Caption Relation Recommendation
2018-05-23 Wed. CNN+CNN: Convolutional Decoders for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN
2018-05-22 Tue. Joint Image Captioning and Question Answering arXiv_CV arXiv_CV Image_Caption Knowledge QA Caption VQA
2018-05-22 Tue. Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Adversarial Caption CNN RNN
2018-05-21 Mon. Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention arXiv_CV arXiv_CV Image_Caption Salient Attention Caption CNN RNN Prediction Quantitative
2018-05-18 Fri. SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text arXiv_CV arXiv_CV Image_Caption Caption Language_Model
2018-05-16 Wed. Defoiling Foiled Image Captions arXiv_CV arXiv_CV Image_Caption Caption
2018-05-15 Tue. Generating Continuous Representations of Medical Texts arXiv_CV arXiv_CV Adversarial Caption RNN Quantitative
2018-05-14 Mon. Token-level and sequence-level loss smoothing for RNN language models arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model Prediction
2018-05-11 Fri. Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition arXiv_CV arXiv_CV Image_Caption Caption Action_Recognition RNN Prediction Recognition
2018-05-10 Thu. Pragmatically Informative Image Captioning with Character-Level Inference arXiv_CV arXiv_CV Image_Caption Caption Inference
2018-05-07 Mon. ECO: Efficient Convolutional Network for Online Video Understanding arXiv_CV arXiv_CV Video_Caption Caption CNN Classification Relation
2018-04-30 Mon. Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos arXiv_CV arXiv_CV Video_Caption Caption Video_Classification Classification
2018-04-23 Mon. Object Counts! Bringing Explicit Detections Back into Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Embedding Language_Model Detection
2018-04-23 Mon. Jointly Localizing and Describing Events for Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Caption Optimization Detection
2018-04-23 Mon. To Create What You Tell: Generating Videos from Captions arXiv_CV arXiv_CV Adversarial GAN Caption Embedding Deep_Learning Quantitative
2018-04-17 Tue. Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer arXiv_CV arXiv_CV Image_Caption Sentiment Review Adversarial Style_Transfer Caption
2018-04-17 Tue. Learning to Color from Language arXiv_CV arXiv_CV Caption
2018-04-15 Sun. Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption
2018-04-10 Tue. Imagine This! Scripts to Compositions to Videos arXiv_CV arXiv_CV Knowledge Caption
2018-04-10 Tue. Discovery and usage of joint attention in images arXiv_CV arXiv_CV Image_Caption Attention Caption Detection
2018-04-09 Mon. Vision as an Interlingua: Learning Multilingual Semantic Embeddings of Untranscribed Speech arXiv_CV arXiv_CV Speech_Recognition Caption Embedding Recognition
2018-04-07 Sat. Learning a Text-Video Embedding from Incomplete and Heterogeneous Data arXiv_CV arXiv_CV Face Caption Embedding
2018-04-07 Sat. Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present arXiv_CV arXiv_CV Image_Caption Caption Inference RNN
2018-04-06 Fri. Finding beans in burgers: Deep semantic-visual embedding with localization arXiv_CV arXiv_CV Image_Caption Caption Embedding Relation
2018-04-06 Fri. Fooling Vision and Language Models Despite Localization and Attention Mechanism arXiv_CV arXiv_CV Adversarial QA Attention Caption Language_Model VQA
2018-04-04 Wed. Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input arXiv_CV arXiv_CV Object_Detection Segmentation Caption Detection
2018-04-03 Tue. FlipDial: A Generative Model for Two-Way Visual Dialogue arXiv_CV arXiv_CV Caption CNN
2018-04-03 Tue. Learning to Guide Decoding for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2018-04-03 Tue. Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Caption Prediction
2018-04-03 Tue. End-to-End Dense Video Captioning with Masked Transformer arXiv_CV arXiv_CV Video_Caption Attention Caption
2018-03-30 Fri. Guide Me: Interacting with Deep Networks arXiv_CV arXiv_CV Image_Caption Caption CNN Inference
2018-03-30 Fri. Reconstruction Network for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption
2018-03-29 Thu. Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering arXiv_CV arXiv_CV Image_Caption Caption VQA
2018-03-29 Thu. Video Captioning via Hierarchical Reinforcement Learning arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2018-03-29 Thu. Radical analysis network for zero-shot learning in printed Chinese character recognition arXiv_CV arXiv_CV Attention Caption CNN RNN Recognition
2018-03-28 Wed. Fraternal Dropout arXiv_CV arXiv_CV Image_Caption Regularization Caption Inference RNN Language_Model Prediction
2018-03-28 Wed. COCO-Stuff: Thing and Stuff Classes in Context arXiv_CV arXiv_CV Image_Caption Segmentation Attention Face Caption Semantic_Segmentation Classification Detection Relation
2018-03-27 Tue. Neural Baby Talk arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Detection
2018-03-24 Sat. The Effect of Pets on Happiness: A Large-scale Multi-Factor Analysis using Social Multimedia arXiv_CV arXiv_CV Sentiment Face Caption Transfer_Learning Classification Deep_Learning Detection Face_Detection Relation Recognition
2018-03-21 Wed. Bayesian Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2018-03-20 Tue. Attend and Interact: Higher-Order Object Interactions for Video Understanding arXiv_CV arXiv_CV Video_Caption Knowledge Caption Action_Recognition Detection Relation Recognition
2018-03-16 Fri. Object Captioning and Retrieval with Natural Language arXiv_CV arXiv_CV Caption Inference RNN
2018-03-14 Wed. Approximate Query Matching for Image Retrieval arXiv_CV arXiv_CV Image_Retrieval Segmentation Caption Semantic_Segmentation Relation Recognition
2018-03-14 Wed. Stack-Captioning: Coarse-to-Fine Learning for Image Captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Inference Prediction
2018-03-14 Wed. Where to put the Image in an Image Caption Generator arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2018-03-14 Wed. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering arXiv_CV arXiv_CV Image_Caption Salient QA Attention Caption VQA
2018-03-12 Mon. Improved Image Captioning via Policy Gradient optimization of SPIDEr arXiv_CV arXiv_CV Image_Caption Caption Optimization
2018-03-08 Thu. Excitation Backprop for RNNs arXiv_CV arXiv_CV Salient Video_Caption Caption Action_Recognition RNN Classification Prediction Recognition
2018-03-07 Wed. Decoupled Spatial Neural Attention for Weakly Supervised Semantic Segmentation arXiv_CV arXiv_CV Image_Caption Segmentation Attention Weakly_Supervised Caption Semantic_Segmentation
2018-03-05 Mon. Less Is More: Picking Informative Frames for Video Captioning arXiv_CV arXiv_CV Salient Video_Caption Attention Caption
2018-03-02 Fri. Contextually Customized Video Summaries via Natural Language arXiv_CV arXiv_CV Image_Caption Caption Embedding
2018-02-23 Fri. Twin Networks: Matching the Future for Sequence Generation arXiv_CV arXiv_CV Speech_Recognition Caption Inference RNN Recognition
2018-02-22 Thu. ChatPainter: Improving Text to Image Generation using Dialogue arXiv_CV arXiv_CV Caption
2018-02-22 Thu. Multimodal Named Entity Recognition for Short Social Media Posts arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Recognition
2018-02-14 Wed. Disjoint Multi-task Learning between Heterogeneous Human-centric Tasks arXiv_CV arXiv_CV Caption Optimization Classification
2018-02-12 Mon. Human Action Adverb Recognition: ADHA Dataset and A Three-Stream Hybrid Model arXiv_CV arXiv_CV Image_Caption Caption Action_Recognition Recognition
2018-02-09 Fri. A Corpus for Modeling Word Importance in Spoken Dialogue Transcripts arXiv_CV arXiv_CV Speech_Recognition Caption Classification Relation Recognition
2018-02-09 Fri. Zero-Resource Neural Machine Translation with Multi-Agent Communication Game arXiv_CV arXiv_CV Image_Caption Caption NMT
2018-02-07 Wed. Generating Triples with Adversarial Networks for Scene Graph Construction arXiv_CV arXiv_CV Image_Caption Adversarial Object_Detection Attention GAN Caption Image_Classification Classification Deep_Learning Detection Relation VQA
2018-02-06 Tue. Multimodal Image Captioning for Marketing Analysis arXiv_CV arXiv_CV Image_Caption Caption Classification Relation
2018-01-31 Wed. Attention-Based Models for Text-Dependent Speaker Verification arXiv_CV arXiv_CV Image_Caption Attention Summarization Speech_Recognition Caption RNN Recognition
2018-01-31 Wed. Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures arXiv_CV arXiv_CV Image_Caption Caption
2018-01-30 Tue. Image Captioning at Will: A Versatile Scheme for Effectively Injecting Sentiments into Image Descriptions arXiv_CV arXiv_CV Image_Caption Sentiment Attention Caption
2018-01-27 Sat. Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions arXiv_CV arXiv_CV Image_Caption Object_Detection QA Attention Caption Inference Detection VQA
2018-01-22 Mon. Trajectory-based Radical Analysis Network for Online Handwritten Chinese Character Recognition arXiv_CV arXiv_CV Attention Caption RNN Deep_Learning Recognition
2018-01-22 Mon. Erratum: 'Determining neutron star masses and radii using energy-resolved waveforms of X-ray burst oscillations' arXiv_CV arXiv_CV Face Caption
2018-01-19 Fri. Describing Semantic Representations of Brain Activity Evoked by Visual Stimuli arXiv_CV arXiv_CV Image_Caption Caption Deep_Learning Quantitative Relation
2018-01-17 Wed. Image Captioning using Deep Neural Architectures arXiv_CV arXiv_CV Image_Caption Caption Recognition
2018-01-11 Thu. DeepSeek: Content Based Image Search & Retrieval arXiv_CV arXiv_CV Image_Caption Face Caption Deep_Learning Language_Model
2018-01-07 Sun. Approximate FPGA-based LSTMs under Computation Time Constraints arXiv_CV arXiv_CV Image_Caption Caption RNN Quantitative
2018-01-05 Fri. GeoSeq2Seq: Information Geometric Sequence-to-Sequence Networks arXiv_CV arXiv_CV Image_Caption Caption Embedding RNN
2017-12-27 Wed. Consensus-based Sequence Training for Video Captioning arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2017-12-21 Thu. Exploring Models and Data for Remote Sensing Image Caption Generation arXiv_CV arXiv_CV Image_Caption Review Attention Caption Classification Detection
2017-12-20 Wed. Order-Free RNN with Visual Attention for Multi-Label Classification arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption Inference RNN Classification Prediction
2017-12-18 Mon. Synthesizing Novel Pairs of Image and Text arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2017-12-16 Sat. Visually Grounded Word Embeddings and Richer Visual Features for Improving Multimodal Neural Machine Translation arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Embedding CNN NMT Detection
2017-12-16 Sat. Tensor Product Generation Networks for Deep NLP Modeling arXiv_CV arXiv_CV Image_Caption Caption RNN Deep_Learning
2017-12-14 Thu. OSU Multimodal Machine Translation System Report arXiv_CV arXiv_CV Image_Caption Caption
2017-12-11 Mon. Predicting Yelp Star Reviews Based on Network Structure with Deep Learning arXiv_CV arXiv_CV Review Caption Image_Classification Classification Deep_Learning
2017-12-09 Sat. Integrating both Visual and Audio Cues for Enhanced Video Caption arXiv_CV arXiv_CV Video_Caption Caption Inference
2017-12-08 Fri. Long Text Generation via Adversarial Training with Leaked Information arXiv_CV arXiv_CV Image_Caption Adversarial GAN Text_Generation Reinforcement_Learning Caption
2017-12-06 Wed. Evaluating the Usability of Automatically Generated Captions for People who are Deaf or Hard of Hearing arXiv_CV arXiv_CV Speech_Recognition Caption Relation Recognition
2017-11-28 Tue. Actor-Critic Sequence Training for Image Captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption
2017-11-24 Fri. Convolutional Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2017-11-21 Tue. Towards Automatic Learning of Procedures from Web Instructional Videos arXiv_CV arXiv_CV Video_Caption Segmentation Caption
2017-11-19 Sun. Diverse and Accurate Image Description Using a Variational Auto-Encoder with an Additive Gaussian Encoding Space arXiv_CV arXiv_CV Image_Caption Caption RNN
2017-11-18 Sat. A framework for Multi-A/B testing with online FDR control arXiv_CV arXiv_CV Caption
2017-11-17 Fri. AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding arXiv_CV arXiv_CV Image_Caption Caption Classification Detection
2017-11-17 Fri. Adaptive Feature Abstraction for Translating Video to Text arXiv_CV arXiv_CV Video_Caption Attention Caption CNN Quantitative
2017-11-16 Thu. Grounded Objects and Interactions for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption
2017-11-16 Thu. Deep Matching Autoencoders arXiv_CV arXiv_CV Image_Caption GAN Caption Represenation_Learning
2017-11-16 Thu. Self-critical Sequence Training for Image Captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Optimization Inference
2017-11-14 Tue. DataVizard: Recommending Visual Presentations for Structured Data arXiv_CV arXiv_CV Image_Caption Caption Survey
2017-11-11 Sat. Phrase-based Image Captioning with Hierarchical LSTM Model arXiv_CV arXiv_CV Image_Caption Caption Inference RNN
2017-11-06 Mon. Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training arXiv_CV arXiv_CV Image_Caption Adversarial Caption
2017-11-01 Wed. Learning Hard Alignments with Variational Inference arXiv_CV arXiv_CV Attention Speech_Recognition Caption Inference Recognition
2017-10-29 Sun. Evaluation of Automatic Video Captioning Using Direct Assessment arXiv_CV arXiv_CV Video_Caption Caption
2017-10-27 Fri. Softmax Q-Distribution Estimation for Structured Prediction: A Theoretical Interpretation for RAML arXiv_CV arXiv_CV Image_Caption Caption Classification Prediction Relation Recognition
2017-10-24 Tue. Automated Audio Captioning with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption RNN Classification
2017-10-24 Tue. A Mathematical Theory of Deep Convolutional Neural Networks for Feature Extraction arXiv_CV arXiv_CV Image_Caption Caption CNN Classification
2017-10-21 Sat. Attentive Semantic Video Generation using Captions arXiv_CV arXiv_CV Style_Transfer Caption Action_Recognition Recognition
2017-10-21 Sat. Sync-DRAW: Automatic Video Generation using Deep Recurrent Attentive Architectures arXiv_CV arXiv_CV Knowledge Attention Caption
2017-10-20 Fri. From Deterministic to Generative: Multi-Modal Stochastic RNNs for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption RNN
2017-10-17 Tue. Describing Natural Images Containing Novel Objects with Knowledge Guided Assitance arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption Inference Recognition
2017-10-13 Fri. Cold-Start Reinforcement Learning with Softmax Policy Gradient arXiv_CV arXiv_CV Image_Caption Summarization Reinforcement_Learning Caption Prediction
2017-10-11 Wed. Bollywood Movie Corpus for Text, Images and Videos arXiv_CV arXiv_CV Face Caption Relation
2017-10-08 Sun. Protein identification with deep learning: from abc to xyz arXiv_CV arXiv_CV GAN Caption CNN RNN Deep_Learning
2017-10-06 Fri. Contrastive Learning for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2017-09-19 Tue. Using Human Brain Activity to Guide Machine Learning arXiv_CV arXiv_CV Caption CNN Recognition
2017-09-15 Fri. Scene Graph Generation from Objects, Phrases and Region Captions arXiv_CV arXiv_CV Object_Detection Caption Detection Relation
2017-09-15 Fri. Self-Guiding Multimodal LSTM - when we do not have a perfect training dataset for image captioning arXiv_CV arXiv_CV Image_Caption Caption RNN
2017-09-11 Mon. A KL-LUCB Bandit Algorithm for Large-Scale Crowdsourcing arXiv_CV arXiv_CV Caption
2017-09-10 Sun. Neural Extractive Summarization with Side Information arXiv_CV arXiv_CV Image_Caption Attention Summarization Caption
2017-09-07 Thu. Learning the Enigma with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption RNN Recognition
2017-09-05 Tue. SketchParse : Towards Rich Descriptions for Poorly Drawn Sketches using Multi-Task Hierarchical Deep Networks arXiv_CV arXiv_CV Image_Retrieval Caption CNN Inference Prediction
2017-09-04 Mon. Generating Video Descriptions with Topic Guidance arXiv_CV arXiv_CV Image_Caption Video_Caption Caption Prediction
2017-09-02 Sat. Video Captioning with Guidance of Multimodal Latent Topics arXiv_CV arXiv_CV Video_Caption Caption Prediction
2017-08-25 Fri. What is the Role of Recurrent Neural Networks in an Image Caption Generator? arXiv_CV arXiv_CV Image_Caption Caption RNN
2017-08-25 Fri. Areas of Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption CNN RNN Language_Model Detection
2017-08-21 Mon. Cold Fusion: Training Seq2Seq Models Together with Language Models arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Language_Model Recognition
2017-08-17 Thu. Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Recognition
2017-08-16 Wed. ConvNet Architecture Search for Spatiotemporal Feature Learning arXiv_CV arXiv_CV Image_Caption Object_Detection Segmentation NAS Caption Semantic_Segmentation Inference Detection
2017-08-15 Tue. Fluency-Guided Cross-Lingual Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2017-08-14 Mon. Show, Adapt and Tell: Adversarial Training of Cross-domain Image Captioner arXiv_CV arXiv_CV Image_Caption Adversarial Caption Inference
2017-08-11 Fri. Towards Diverse and Natural Image Descriptions via a Conditional GAN arXiv_CV arXiv_CV Image_Caption Adversarial GAN Reinforcement_Learning Caption RNN
2017-08-10 Thu. MAT: A Multimodal Attentive Translator for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN
2017-08-09 Wed. Learning to Disambiguate by Asking Discriminative Questions arXiv_CV arXiv_CV Image_Caption Weakly_Supervised Caption Quantitative VQA
2017-08-09 Wed. Phrase Localization and Visual Relationship Detection with Comprehensive Image-Language Cues arXiv_CV arXiv_CV Attention Caption Inference Detection Relation
2017-08-08 Tue. Multi-Task Video Captioning with Video and Entailment Generation arXiv_CV arXiv_CV Video_Caption Knowledge Caption Prediction
2017-08-08 Tue. Mining fine-grained opinions on closed captions of YouTube videos with an attention-RNN arXiv_CV arXiv_CV Sentiment Review Attention Sentiment_Classification Caption RNN Classification
2017-08-07 Mon. Dense Captioning with Joint Inference and Visual Context arXiv_CV arXiv_CV Caption Inference
2017-08-07 Mon. Reinforced Video Captioning with Entailment Rewards arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2017-08-06 Sun. Learning Visual N-Grams from Web Data arXiv_CV arXiv_CV Image_Retrieval Caption CNN Language_Model Prediction Recognition
2017-08-04 Fri. Recurrent Models for Situation Recognition arXiv_CV arXiv_CV Image_Caption Caption RNN Prediction Recognition
2017-08-04 Fri. Paying Attention to Descriptions Generated by Image Captioning Models arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Language_Model
2017-08-02 Wed. An Empirical Study of Language CNN for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2017-08-01 Tue. Generative Semantic Manipulation with Contrasting GAN arXiv_CV arXiv_CV Adversarial GAN Style_Transfer Caption Quantitative
2017-07-31 Mon. Context-aware Captions from Context-agnostic Supervision arXiv_CV arXiv_CV Image_Caption Caption Inference Language_Model
2017-07-26 Wed. Deep Interactive Region Segmentation and Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Knowledge Segmentation Caption CNN Deep_Learning Detection
2017-07-22 Sat. OBJ2TEXT: Generating Visually Descriptive Language from Object Layouts arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption RNN Language_Model Detection Relation
2017-07-20 Thu. Captioning Images with Diverse Objects arXiv_CV arXiv_CV Image_Caption Knowledge Caption Embedding Recognition
2017-07-19 Wed. Guided Open Vocabulary Image Captioning with Constrained Beam Search arXiv_CV arXiv_CV Image_Caption Caption Embedding Prediction
2017-07-19 Wed. Supervising Neural Attention Models for Video Captioning by Human Gaze Data arXiv_CV arXiv_CV Video_Caption Attention Tracking Caption Prediction
2017-07-14 Fri. CUNI System for the WMT17 Multimodal Translation Task arXiv_CV arXiv_CV Image_Caption Caption
2017-07-13 Thu. End-to-End Instance Segmentation with Recurrent Attention arXiv_CV arXiv_CV Image_Caption Segmentation Attention Caption CNN Semantic_Segmentation RNN Prediction VQA
2017-07-02 Sun. Where to Play: Retrieval of Video Segments using Natural-Language Queries arXiv_CV arXiv_CV Image_Caption Tracking Caption Quantitative Relation
2017-07-01 Sat. Learning from Ambiguously Labeled Face Images arXiv_CV arXiv_CV Knowledge Face Caption
2017-06-27 Tue. archivist: An R Package for Managing, Recording and Restoring Data Analysis Results arXiv_CV arXiv_CV Tracking Caption Relation
2017-06-24 Sat. A Semi-supervised Framework for Image Captioning arXiv_CV arXiv_CV Image_Caption Salient Review Attention Caption Embedding
2017-06-20 Tue. Using Artificial Tokens to Control Languages for Multilingual Image Caption Generation arXiv_CV arXiv_CV Image_Caption Caption
2017-06-16 Fri. VideoMCC: a New Benchmark for Video Comprehension arXiv_CV arXiv_CV Video_Caption GAN Caption Quantitative
2017-06-16 Fri. One Model To Learn Them All arXiv_CV arXiv_CV Image_Caption Sparse Attention Speech_Recognition Caption CNN Image_Classification Classification Deep_Learning Recognition
2017-06-15 Thu. The 'something something' video database for learning and evaluating visual common sense arXiv_CV arXiv_CV Knowledge Caption Classification Prediction
2017-06-08 Thu. Image Captioning with Object Detection and Localization arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption RNN Detection Relation
2017-06-06 Tue. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Language_Model
2017-06-05 Mon. Teaching Machines to Describe Images via Natural Language Feedback arXiv_CV arXiv_CV Image_Caption Caption
2017-06-05 Mon. Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption RNN Language_Model
2017-06-03 Sat. I2T2I: Learning Text to Image Synthesis with Textual Data Augmentation arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption Transfer_Learning RNN
2017-06-03 Sat. Order embeddings and character-level convolutions for multimodal alignment arXiv_CV arXiv_CV Caption Embedding CNN RNN Recognition
2017-05-29 Mon. Automatic Generation of Grounded Visual Questions arXiv_CV arXiv_CV Knowledge Caption VQA
2017-05-25 Thu. Visually grounded learning of keyword prediction from untranscribed speech arXiv_CV arXiv_CV Caption Prediction
2017-05-25 Thu. Deep image representations using caption generators arXiv_CV arXiv_CV Image_Caption Caption Transfer_Learning Deep_Learning Recognition
2017-05-24 Wed. Learning Word-Like Units from Joint Audio-Visual Analysis arXiv_CV arXiv_CV Speech_Recognition Caption Recognition
2017-05-24 Wed. Attention-based Natural Language Person Retrieval arXiv_CV arXiv_CV Segmentation Attention Caption CNN Image_Classification RNN Classification Deep_Learning
2017-05-24 Wed. Bidirectional Beam Search: Forward-Backward Inference in Neural Sequence Models for Fill-in-the-Blank Image Captioning arXiv_CV arXiv_CV Image_Caption Caption Inference VQA
2017-05-19 Fri. CHAM: action recognition using convolutional hierarchical attention model arXiv_CV arXiv_CV Image_Caption Attention Caption Action_Recognition CNN RNN Recognition
2017-05-03 Wed. Weakly-supervised Visual Grounding of Phrases with Linguistic Structures arXiv_CV arXiv_CV Attention Caption
2017-05-03 Wed. FOIL it! Find One mismatch between Image and Language caption arXiv_CV arXiv_CV Caption Classification Detection Relation
2017-05-02 Tue. STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset arXiv_CV arXiv_CV Image_Caption Attention Caption
2017-04-25 Tue. Attend to You: Personalized Image Captioning with Context Sequence Memory Networks arXiv_CV arXiv_CV Image_Caption Knowledge Caption Prediction Quantitative Memory_Networks
2017-04-17 Mon. Discriminative Bimodal Networks for Visual Localization and Detection with Natural Language Queries arXiv_CV arXiv_CV Caption Language_Model Detection
2017-04-14 Fri. Temporal Tessellation: A Unified Approach for Video Analysis arXiv_CV arXiv_CV Video_Caption Summarization Caption Prediction Detection
2017-04-13 Thu. Spatial Memory for Context Reasoning in Object Detection arXiv_CV arXiv_CV Object_Detection Caption Detection Relation
2017-04-12 Wed. Top-down Visual Saliency Guided by Captions arXiv_CV arXiv_CV Salient Video_Caption Attention Caption Classification
2017-04-12 Wed. Deep Reinforcement Learning-based Image Captioning with Embedding Reward arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Embedding Prediction
2017-04-12 Wed. Learning a Deep Embedding Model for Zero-Shot Learning arXiv_CV arXiv_CV Image_Caption Caption Embedding
2017-04-12 Wed. Plug & Play Generative Networks: Conditional Iterative Generation of Images in Latent Space arXiv_CV arXiv_CV Image_Caption Face Caption Classification
2017-04-12 Wed. SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN Prediction
2017-04-10 Mon. A Hierarchical Approach for Generating Descriptive Image Paragraphs arXiv_CV arXiv_CV Image_Caption Caption
2017-04-10 Mon. ViP-CNN: Visual Phrase Guided Convolutional Neural Network arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption CNN Detection Relation Recognition
2017-04-10 Mon. Hierarchical Boundary-Aware Neural Encoder for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption RNN
2017-04-05 Wed. Weakly Supervised Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Weakly_Supervised Caption CNN Language_Model
2017-04-03 Mon. AMC: Attention guided Multi-modal Correlation Learning for Image Search arXiv_CV arXiv_CV Attention Caption Relation
2017-03-30 Thu. Improving Interpretability of Deep Neural Networks with Semantic Information arXiv_CV arXiv_CV Video_Caption Caption Action_Recognition Prediction Recognition
2017-03-28 Tue. Semantic Compositional Networks for Visual Captioning arXiv_CV arXiv_CV Image_Caption Caption RNN Quantitative
2017-03-23 Thu. Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation arXiv_CV arXiv_CV Image_Caption Attention Caption VQA
2017-03-23 Thu. Recurrent Memory Addressing for describing videos arXiv_CV arXiv_CV Video_Caption Attention Caption Embedding Memory_Networks
2017-03-21 Tue. Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization arXiv_CV arXiv_CV Adversarial QA Attention Reinforcement_Learning Caption CNN Image_Classification Classification Prediction VQA
2017-03-07 Tue. Can Active Memory Replace Attention? arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Image_Classification Classification Deep_Learning Recognition
2017-03-06 Mon. Cats and Captions vs. Creators and the Clock: Comparing Multimodal Content to Context in Predicting Relative Popularity arXiv_CV arXiv_CV Attention Caption
2017-03-04 Sat. Evolving Deep Neural Networks arXiv_CV arXiv_CV Image_Caption Caption Deep_Learning Language_Model Recognition
2017-03-03 Fri. An Actor-Critic Algorithm for Sequence Prediction arXiv_CV arXiv_CV Reinforcement_Learning Caption Prediction
2017-02-28 Tue. MIML-FCN+: Multi-instance Multi-label Learning via Fully Convolutional Networks with Privileged Information arXiv_CV arXiv_CV Image_Caption Caption CNN Deep_Learning Relation Recognition
2017-02-21 Tue. DSD: Dense-Sparse-Dense Training for Deep Neural Networks arXiv_CV arXiv_CV Sparse Speech_Recognition Caption Image_Classification Optimization Inference RNN Classification Recognition
2017-02-18 Sat. Soft + Hardwired Attention: An LSTM Framework for Human Trajectory Prediction and Abnormal Event Detection arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Prediction Detection
2017-01-25 Wed. Grad-CAM: Why did you say that? arXiv_CV arXiv_CV Image_Caption QA Caption CNN Prediction Relation VQA
2017-01-24 Tue. Deep Network Guided Proof Search arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption Deep_Learning Detection Recognition
2017-01-15 Sun. Towards Music Captioning: Generating Music Playlist Descriptions arXiv_CV arXiv_CV Caption Recommendation
2017-01-12 Thu. Comprehension-guided referring expressions arXiv_CV arXiv_CV Image_Caption Caption
2016-12-22 Thu. Understanding Image and Text Simultaneously: a Dual Vision-Language Machine Comprehension Task arXiv_CV arXiv_CV Image_Caption Caption
2016-12-22 Thu. Re-evaluating Automatic Metrics for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Relation
2016-12-17 Sat. Web-based Semantic Similarity for Emotion Recognition in Web Objects arXiv_CV arXiv_CV Sentiment Caption Quantitative Relation Recognition
2016-12-16 Fri. Image Captioning and Visual Question Answering Based on Attributes and External Knowledge arXiv_CV arXiv_CV Image_Caption Knowledge Caption CNN RNN VQA
2016-12-15 Thu. Beyond Holistic Object Recognition: Enriching Image Understanding with Part States arXiv_CV arXiv_CV Image_Caption Caption Inference Recognition
2016-12-15 Thu. Recurrent Image Captioner: Describing Images with Spatial-Invariant Transformation and Attention Filtering arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Inference RNN
2016-12-13 Tue. Spatial Pyramid Convolutional Neural Network for Social Event Detection in Static Image arXiv_CV arXiv_CV Image_Caption GAN Caption CNN Detection Recommendation
2016-12-12 Mon. Text-guided Attention Model for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2016-12-07 Wed. Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging arXiv_CV arXiv_CV Image_Caption Caption Relation
2016-12-01 Thu. Video Captioning with Multi-Faceted Attention arXiv_CV arXiv_CV Salient Video_Caption Attention Face Caption RNN
2016-11-28 Mon. Bidirectional Multirate Reconstruction for Temporal Modeling in Videos arXiv_CV arXiv_CV Video_Caption Caption Detection
2016-11-24 Thu. On Human Intellect and Machine Failures: Troubleshooting Integrative Machine Learning Systems arXiv_CV arXiv_CV Image_Caption Caption
2016-11-24 Thu. Watch What You Just Said: Image Captioning with Text-Conditional Attention arXiv_CV arXiv_CV Image_Caption Attention Caption Embedding RNN Language_Model Quantitative
2016-11-23 Wed. Video Captioning with Transferred Semantic Attributes arXiv_CV arXiv_CV Video_Caption Caption CNN RNN
2016-11-23 Wed. Attention Correctness in Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Deep_Learning Quantitative
2016-11-17 Thu. Multimodal Memory Modelling for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption CNN RNN Deep_Learning
2016-11-16 Wed. Semantic Regularisation for Recurrent Image Annotation arXiv_CV arXiv_CV Image_Caption Face Caption Embedding RNN Classification Relation
2016-11-07 Mon. Sort Story: Sorting Jumbled Images and Captions into Stories arXiv_CV arXiv_CV Image_Caption QA Summarization Caption Prediction
2016-11-05 Sat. Boosting Image Captioning with Attributes arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Relation
2016-10-27 Thu. Review Networks for Caption Generation arXiv_CV arXiv_CV Image_Caption Review Attention Caption RNN
2016-10-27 Thu. VQA: Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA Caption VQA
2016-10-18 Tue. Generating captions without looking beyond objects arXiv_CV arXiv_CV Image_Caption Caption Language_Model
2016-10-18 Tue. Spatio-Temporal Attention Models for Grounded Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption Image_Classification Classification Recognition
2016-10-08 Sat. Learning What and Where to Draw arXiv_CV arXiv_CV Adversarial GAN Face Caption
2016-10-07 Fri. Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence Models arXiv_CV arXiv_CV Image_Caption Caption Inference Quantitative VQA
2016-09-28 Wed. Variational Autoencoder for Deep Learning of Images, Labels and Captions arXiv_CV arXiv_CV Caption CNN Deep_Learning
2016-09-26 Mon. Learning Language-Visual Embedding for Movie Understanding with Natural-Language arXiv_CV arXiv_CV Knowledge Caption Embedding Language_Model
2016-09-26 Mon. Question Relevance in VQA: Identifying Non-Visual And False-Premise Questions arXiv_CV arXiv_CV QA Caption RNN VQA
2016-09-26 Mon. Reasoning About Pragmatics with Neural Listeners and Speakers arXiv_CV arXiv_CV Caption Inference
2016-09-26 Mon. Resolving Language and Vision Ambiguities Together: Joint Segmentation & Prepositional Attachment Resolution in Captioned Scenes arXiv_CV arXiv_CV Segmentation Caption Semantic_Segmentation
2016-09-22 Thu. Deep Learning for Video Classification and Captioning arXiv_CV arXiv_CV Review Video_Caption Caption Video_Classification Classification Deep_Learning
2016-09-21 Wed. The Color of the Cat is Gray: 1 Million Full-Sentences Visual Question Answering arXiv_CV arXiv_CV QA Caption VQA
2016-09-19 Mon. Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Embedding Detection
2016-09-14 Wed. Oracle performance for visual captioning arXiv_CV arXiv_CV Video_Caption Attention Caption Language_Model
2016-09-13 Tue. Multimodal Attention for Neural Machine Translation arXiv_CV arXiv_CV Image_Caption Attention Caption NMT
2016-09-08 Thu. Title Generation for User Generated Videos arXiv_CV arXiv_CV Salient Video_Caption Object_Detection Attention Caption Prediction Detection
2016-08-31 Wed. Leveraging Visual Question Answering for Image-Caption Ranking arXiv_CV arXiv_CV Image_Caption Image_Retrieval Knowledge QA Caption VQA
2016-08-31 Wed. Measuring Machine Intelligence Through Visual Question Answering arXiv_CV arXiv_CV Image_Caption Caption VQA
2016-08-30 Tue. Utilizing Large Scale Vision and Text Datasets for Image Segmentation from Referring Expressions arXiv_CV arXiv_CV Image_Caption Segmentation Caption Language_Model
2016-08-27 Sat. Learning to generalize to new compositions in image understanding arXiv_CV arXiv_CV Image_Caption Caption RNN Prediction
2016-08-23 Tue. Scan, Attend and Read: End-to-End Handwritten Paragraph Recognition with MDLSTM Attention arXiv_CV arXiv_CV Image_Caption Knowledge Segmentation Attention Speech_Recognition Caption RNN Recognition
2016-08-18 Thu. Seeing with Humans: Gaze-Assisted Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Relation Recognition
2016-08-17 Wed. Frame- and Segment-Level Features and Candidate Pool Evaluation for Video Caption Generation arXiv_CV arXiv_CV Video_Caption Caption
2016-08-12 Fri. DeepDiary: Automatic Caption Generation for Lifelogging Image Streams arXiv_CV arXiv_CV Image_Caption Image_Retrieval GAN Caption Deep_Learning Quantitative
2016-07-29 Fri. SPICE: Semantic Propositional Image Caption Evaluation arXiv_CV arXiv_CV Image_Caption Caption Relation
2016-07-27 Wed. MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition arXiv_CV arXiv_CV Image_Caption Knowledge Face Caption Classification Recognition Face_Recognition
2016-07-20 Wed. Image Captioning with Deep Bidirectional LSTMs arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption Embedding CNN RNN Detection
2016-07-01 Fri. Domain Adaptation for Neural Networks by Parameter Augmentation arXiv_CV arXiv_CV Caption RNN
2016-07-01 Fri. Bridge Correlational Neural Networks for Multilingual Multimodal Representation Learning arXiv_CV arXiv_CV Caption Transfer_Learning Represenation_Learning Classification Relation
2016-06-23 Thu. Is a Picture Worth Ten Thousand Words in a Review Dataset? arXiv_CV arXiv_CV Review Caption Deep_Learning Quantitative Recommendation
2016-06-15 Wed. A Correlational Encoder Decoder Architecture for Pivot Based Sequence Generation arXiv_CV arXiv_CV GAN Caption Relation
2016-06-15 Wed. Bidirectional Long-Short Term Memory for Video Description arXiv_CV arXiv_CV Video_Caption Sparse Knowledge Attention Caption CNN RNN Language_Model
2016-06-13 Mon. Multimodal Pivots for Image Caption Translation arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption CNN
2016-06-09 Thu. Generating Natural Questions About an Image arXiv_CV arXiv_CV Image_Caption Knowledge Caption Inference VQA
2016-06-04 Sat. Automated Image Captioning for Rapid Prototyping and Resource Constrained Environments arXiv_CV arXiv_CV Image_Caption Caption Embedding Deep_Learning Detection
2016-06-02 Thu. Storytelling of Photo Stream with Bidirectional Multi-thread Recurrent Neural Network arXiv_CV arXiv_CV Video_Caption Caption RNN
2016-05-18 Wed. Beyond Caption To Narrative: Video Captioning With Multiple Sentences arXiv_CV arXiv_CV Image_Caption Video_Caption Caption
2016-05-03 Tue. Improving Image Captioning by Concept-based Sentence Reranking arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model Detection
2016-04-28 Thu. What value do explicit high level concepts have in vision to language problems? arXiv_CV arXiv_CV Image_Caption Caption CNN RNN VQA
2016-04-27 Wed. Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data arXiv_CV arXiv_CV Image_Caption Video_Caption Knowledge Caption Recognition
2016-04-13 Wed. Visual Storytelling arXiv_CV arXiv_CV Caption
2016-04-12 Tue. Seeing through the Human Reporting Bias: Visual Classifiers from Noisy Human-Centric Labels arXiv_CV arXiv_CV Image_Caption Caption Image_Classification Classification
2016-04-12 Tue. TGIF: A New Dataset and Benchmark on Animated GIF Description arXiv_CV arXiv_CV Caption RNN
2016-04-11 Mon. Natural Language Object Retrieval arXiv_CV arXiv_CV Image_Caption Image_Retrieval Knowledge Caption
2016-04-11 Mon. Generation and Comprehension of Unambiguous Object Descriptions arXiv_CV arXiv_CV Image_Caption Caption Deep_Learning
2016-04-09 Sat. Fusing Audio, Textual and Visual Features for Sentiment Analysis of News Videos arXiv_CV arXiv_CV Sentiment Caption Classification Recognition
2016-04-08 Fri. Automatic Annotation of Structured Facts in Images arXiv_CV arXiv_CV Image_Caption Caption
2016-04-06 Wed. Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks arXiv_CV arXiv_CV Video_Caption Attention Caption Embedding RNN
2016-03-31 Thu. Neural Attention Models for Sequence Classification: Analysis and Application to Key Term Extraction and Dialogue Act Detection arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Classification Detection VQA Recognition
2016-03-31 Thu. Rich Image Captioning in the Wild arXiv_CV arXiv_CV Image_Caption Caption Recognition
2016-03-30 Wed. Dense Image Representation with Spatial Pyramid VLAD Coding of CNN for Locally Robust Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Classification
2016-03-28 Mon. Generating Visual Explanations arXiv_CV arXiv_CV Reinforcement_Learning Caption Classification Language_Model Prediction Recognition
2016-03-28 Mon. Learning to Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation arXiv_CV arXiv_CV Image_Caption Regularization GAN Caption CNN RNN Deep_Learning
2016-03-23 Wed. BreakingNews: Article Annotation by Image and Text Processing arXiv_CV arXiv_CV Image_Retrieval Caption Transfer_Learning Deep_Learning Prediction Detection Relation
2016-03-19 Sat. Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA Attention Caption CNN Inference RNN Memory_Networks VQA
2016-03-01 Tue. Delving Deeper into Convolutional Networks for Learning Video Representations arXiv_CV arXiv_CV Video_Caption Sparse Caption Action_Recognition CNN Recognition
2016-03-01 Tue. Multi-task Sequence to Sequence Learning arXiv_CV arXiv_CV Image_Caption Caption
2016-03-01 Tue. Order-Embeddings of Images and Language arXiv_CV arXiv_CV Image_Caption Caption Embedding Prediction
2016-02-29 Mon. Generating Images from Captions with Attention arXiv_CV arXiv_CV Attention Image_Generation Caption
2016-02-10 Wed. Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption Video_Classification RNN Classification Recognition
2016-01-22 Fri. Implicit Distortion and Fertility Models for Attention-based Encoder-Decoder NMT Model arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption NMT Recognition
2016-01-05 Tue. Event Specific Multimodal Pattern Mining with Image-Caption Pairs arXiv_CV arXiv_CV Image_Caption Knowledge Weakly_Supervised Caption
2015-12-16 Wed. A Restricted Visual Turing Test for Deep Scene and Event Understanding arXiv_CV arXiv_CV Video_Caption Knowledge Face Ontology Caption Inference VQA
2015-12-13 Sun. SentiCap: Generating Image Descriptions with Sentiments arXiv_CV arXiv_CV Image_Caption Regularization Sentiment Caption Language_Model Relation Recognition
2015-12-09 Wed. Video captioning with recurrent networks based on frame- and video-level features and visual content classification arXiv_CV arXiv_CV Image_Caption Video_Caption Caption RNN Classification Language_Model
2015-11-26 Thu. TennisVid2Text: Fine-grained Descriptions for Domain Specific Videos arXiv_CV arXiv_CV Caption
2015-11-24 Tue. Spoken Language Translation for Polish arXiv_CV arXiv_CV Speech_Recognition Caption RNN Language_Model Recognition
2015-11-24 Tue. DenseCap: Fully Convolutional Localization Networks for Dense Captioning arXiv_CV arXiv_CV Image_Caption Salient Object_Detection Caption CNN Optimization Language_Model Detection
2015-11-21 Sat. Mapping Images to Sentiment Adjective Noun Pairs with Factorized Neural Nets arXiv_CV arXiv_CV Image_Caption Sentiment Caption Classification
2015-11-16 Mon. How to Train your Generative Model: Scheduled Sampling, Likelihood, Adversary? arXiv_CV arXiv_CV Image_Caption Adversarial Knowledge Caption Deep_Learning
2015-11-11 Wed. Deep Multimodal Semantic Embeddings for Speech and Images arXiv_CV arXiv_CV Caption Embedding CNN
2015-11-11 Wed. Hierarchical Recurrent Neural Encoder for Video Representation with Application to Captioning arXiv_CV arXiv_CV Video_Caption Caption CNN Image_Classification Inference Classification Deep_Learning
2015-11-10 Tue. From Images to Sentences through Scene Description Graphs using Commonsense Reasoning and Knowledge arXiv_CV arXiv_CV Image_Caption Knowledge Caption Detection
2015-11-06 Fri. Learning Visual Features from Large Weakly Supervised Data arXiv_CV arXiv_CV Weakly_Supervised Caption CNN
2015-10-19 Mon. Sequence to Sequence -- Video to Text arXiv_CV arXiv_CV Image_Caption Video_Caption Caption RNN Language_Model
2015-10-17 Sat. A Critical Review of Recurrent Neural Networks for Sequence Learning arXiv_CV arXiv_CV Image_Caption Review Caption Survey Optimization RNN Prediction Recognition
2015-10-14 Wed. Language Models for Image Captioning: The Quirks and What Works arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Language_Model
2015-10-02 Fri. Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images arXiv_CV arXiv_CV Image_Caption Caption RNN
2015-09-23 Wed. Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption Inference RNN Prediction
2015-09-22 Tue. Learning Wake-Sleep Recurrent Attention Models arXiv_CV arXiv_CV Attention Caption CNN Image_Classification Inference Classification
2015-09-16 Wed. Guiding Long-Short Term Memory for Image Caption Generation arXiv_CV arXiv_CV Image_Caption Caption RNN
2015-08-27 Thu. SentenceRacer: A Game with a Purpose for Image Sentence Annotation arXiv_CV arXiv_CV Image_Caption Caption
2015-08-21 Fri. A large annotated corpus for learning natural language inference arXiv_CV arXiv_CV Image_Caption Caption Inference
2015-08-20 Thu. Sequence-to-Sequence Neural Net Models for Grapheme-to-Phoneme Conversion arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2015-08-09 Sun. Image Representations and New Domains in Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN Language_Model
2015-07-13 Mon. Scalable Bayesian Optimization Using Deep Neural Networks arXiv_CV arXiv_CV Image_Caption Caption CNN Optimization Language_Model Recognition
2015-07-04 Sat. Describing Multimedia Content using Attention-based Encoder--Decoder Networks arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption CNN RNN Classification Recognition
2015-06-26 Fri. Humor in Collective Discourse: Unsupervised Funniness Detection in the New Yorker Cartoon Caption Contest arXiv_CV arXiv_CV Sentiment Caption Detection
2015-06-24 Wed. Attention-Based Models for Speech Recognition arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Recognition
2015-06-22 Mon. Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books arXiv_CV arXiv_CV Caption Embedding Quantitative
2015-06-20 Sat. Aligning where to see and what to tell: image caption with region-based attention and scene factorization arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Language_Model
2015-06-12 Fri. Technical Report: Image Captioning with Semantically Similar Images arXiv_CV arXiv_CV Image_Caption Caption Embedding CNN
2015-06-11 Thu. Deep Captioning with Multimodal Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2015-06-04 Thu. The Long-Short Story of Movie Description arXiv_CV arXiv_CV Image_Caption Caption RNN
2015-05-26 Tue. Understanding Image Virality arXiv_CV arXiv_CV Caption Prediction
2015-05-17 Sun. Exploring Nearest Neighbor Approaches for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2015-04-30 Thu. Translating Videos to Natural Language Using Deep Recurrent Neural Networks arXiv_CV arXiv_CV Knowledge Caption CNN RNN Deep_Learning Prediction
2015-04-28 Tue. Joint Learning of Distributed Representations for Images and Texts arXiv_CV arXiv_CV Caption
2015-04-16 Thu. Image Specificity arXiv_CV arXiv_CV Image_Retrieval Caption
2015-04-14 Tue. From Captions to Visual Concepts and Back arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Language_Model Detection
2015-04-11 Sat. Simple Image Description Generator via a Linear Phrase-Based Approach arXiv_CV arXiv_CV Image_Caption Caption CNN Language_Model
2015-04-09 Thu. Phrase-based Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN Language_Model
2015-04-03 Fri. Microsoft COCO Captions: Data Collection and Evaluation Server arXiv_CV arXiv_CV Caption
2015-02-19 Thu. Recurrent Neural Network Regularization arXiv_CV arXiv_CV Image_Caption Regularization Speech_Recognition Caption RNN Language_Model Recognition
2014-11-20 Thu. Learning a Recurrent Visual Representation for Image Caption Generation arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption Embedding
2014-11-10 Mon. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models arXiv_CV arXiv_CV Object_Detection Caption Embedding CNN RNN Language_Model Detection
2014-08-11 Mon. Reconstruction of vertical and L-shaped ancient Egyptian sundials and methods for measuring time arXiv_CV arXiv_CV Caption
2014-04-22 Tue. First result of the experimental search for the 2K-capture of Xe-124 with the copper proportional counter arXiv_CV arXiv_CV Caption
2013-08-29 Thu. Says who? Automatic Text-Based Content Analysis of Television News arXiv_CV arXiv_CV Caption
2012-08-23 Thu. About the mechanism of matter transfer along cosmic string arXiv_CV arXiv_CV Caption
2012-07-04 Wed. Mining Associated Text and Images with Dual-Wing Harmoniums arXiv_CV arXiv_CV Caption Inference Classification
2012-01-31 Tue. Fast and Exact Top-k Search for Random Walk with Restart arXiv_CV arXiv_CV Image_Caption Sparse Caption Prediction Recommendation
2011-09-30 Fri. Video OCR for Video Indexing arXiv_CV arXiv_CV OCR Video_Indexing Caption Recognition
2009-01-26 Mon. Effectively Searching Maps in Web Documents arXiv_CV arXiv_CV Review Caption
2004-08-04 Wed. Reply to the Comment of M. V. Cheremisin arXiv_CV arXiv_CV Caption
2003-01-13 Mon. Bounds on Leptoquark and Supersymmetric, R-parity violating Interactions from Meson Decays arXiv_CV arXiv_CV Caption
2000-11-20 Mon. Retrieval from Captioned Image Databases Using Natural Language Processing arXiv_CV arXiv_CV Caption Relation
1999-07-06 Tue. Explanation-based Learning for Machine Translation arXiv_CV arXiv_CV Caption
1997-06-18 Wed. A Lexicalist Approach to the Translation of Colloquial Text arXiv_CV arXiv_CV Caption
1994-08-15 Mon. Statistical versus symbolic parsing for captioned-information retrieval arXiv_CV arXiv_CV Caption

Image_Caption

2019-05-30 Thu. AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures arXiv_CV arXiv_CV Image_Caption Video_Caption CNN
2019-05-29 Wed. Vision-to-Language Tasks Based on Attributes and Attention Mechanism arXiv_CV arXiv_CV Image_Caption Attention Caption Relation VQA
2019-05-28 Tue. On Measuring Gender Bias in Translation of Gender-neutral Pronouns arXiv_CL arXiv_CL Image_Caption Caption Detection Recommendation
2019-05-28 Tue. Union Visual Translation Embedding for Visual Relationship Detection and Scene Graph Generation arXiv_CV arXiv_CV Image_Caption Embedding Detection Relation
2019-05-25 Sat. Beyond Visual Semantics: Exploring the Role of Scene Text in Image Understanding arXiv_CV arXiv_CV Image_Caption Attention Embedding Detection
2019-05-25 Sat. Bivariate Beta LSTM arXiv_CV arXiv_CV Image_Caption Knowledge Caption Image_Classification RNN Classification Relation
2019-05-25 Sat. SuperCaptioning: Image Captioning Using Two-dimensional Word Embedding arXiv_CL arXiv_CL Image_Caption Text_Classification Caption Embedding Image_Classification Classification
2019-05-20 Mon. Image Captioning based on Deep Learning Methods: A Survey arXiv_CV arXiv_CV Image_Caption Image_Retrieval Attention Caption Survey Deep_Learning
2019-05-20 Mon. Multimodal Transformer with Multi-View Visual Representation for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN Quantitative
2019-05-16 Thu. Latent Variable Model for Multi-modal Translation arXiv_CL arXiv_CL Image_Caption Embedding
2019-05-16 Thu. Harvesting Information from Captions for Weakly Supervised Semantic Segmentation arXiv_CV arXiv_CV Image_Caption Segmentation Weakly_Supervised Caption Embedding CNN Semantic_Segmentation
2019-05-15 Wed. Aligning Visual Regions and Textual Concepts: Learning Fine-Grained Image Representations for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Text_Generation Caption Relation
2019-05-14 Tue. End to End Recognition System for Recognizing Offline Unconstrained Vietnamese Handwriting arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Language_Model Recognition
2019-05-14 Tue. Detect-to-Retrieve: Efficient Regional Aggregation for Image Search arXiv_CV arXiv_CV Image_Caption Image_Retrieval Object_Detection Detection
2019-05-13 Mon. CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features arXiv_CV arXiv_CV Image_Caption Regularization Caption CNN Classification Detection
2019-05-10 Fri. Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables arXiv_AI arXiv_AI Image_Caption Adversarial Caption RNN
2019-05-07 Tue. Automatic 4D Facial Expression Recognition via Collaborative Cross-domain Dynamic Image Network arXiv_CV arXiv_CV Image_Caption Face Classification Deep_Learning Prediction Recognition
2019-05-06 Mon. Image Captioning with Clause-Focused Metrics in a Multi-Modal Setting for Marketing arXiv_CV arXiv_CV Image_Caption Caption
2019-05-05 Sun. Conversational Group Detection With Deep Convolutional Networks arXiv_CV arXiv_CV Image_Caption CNN Detection
2019-05-05 Sun. A Joint Convolutional Neural Networks and Context Transfer for Street Scenes Labeling arXiv_CV arXiv_CV Image_Caption CNN Inference
2019-05-02 Thu. Detecting Visual Relationships Using Box Attention arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Prediction Quantitative Detection Relation
2019-05-01 Wed. Accurate Visual Localization for Automotive Applications arXiv_AI arXiv_AI Image_Caption
2019-04-30 Tue. PR Product: A Substitute for Inner Product in Neural Networks arXiv_CV arXiv_CV Image_Caption Caption CNN Image_Classification RNN Classification Deep_Learning
2019-04-29 Mon. Attribute Guided Unpaired Image-to-Image Translation with Semi-supervised Learning arXiv_CV arXiv_CV Image_Caption
2019-04-28 Sun. UniVSE: Robust Visual Semantic Embeddings via Structured Semantic Representations arXiv_CV arXiv_CV Image_Caption Adversarial Caption Embedding Relation
2019-04-26 Fri. Knowing When to Stop: Evaluation and Verification of Conformity to Output-size Specifications arXiv_AI arXiv_AI Image_Caption Caption
2019-04-25 Thu. Pointing Novel Objects in Image Captioning arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption RNN Recognition
2019-04-24 Wed. Bridging the Domain Gap for Ground-to-Aerial Image Matching arXiv_CV arXiv_CV Image_Caption GAN
2019-04-22 Mon. nocaps: Novel Object Captioning at Scale arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Detection
2019-04-21 Sun. BERTScore: Evaluating Text Generation with BERT arXiv_CL arXiv_CL Image_Caption Text_Generation Caption Embedding
2019-04-21 Sun. Deep Metric Learning Beyond Binary Supervision arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption Relation
2019-04-21 Sun. 3G structure for image caption generation arXiv_CV arXiv_CV Image_Caption Attention Caption Embedding RNN Relation
2019-04-20 Sat. Multi-modal gated recurrent units for image description arXiv_CV arXiv_CV Image_Caption Embedding CNN Relation
2019-04-19 Fri. Challenges and Prospects in Vision and Language Research arXiv_CV arXiv_CV Image_Caption Review VQA
2019-04-19 Fri. Integrating Text and Image: Determining Multimodal Document Intent in Instagram Posts arXiv_CV arXiv_CV Image_Caption Caption Detection Relation
2019-04-18 Thu. Knowledge-rich Image Gist Understanding Beyond Literal Meaning arXiv_CV arXiv_CV Image_Caption Knowledge Caption Detection
2019-04-18 Thu. Learning to Collocate Neural Modules for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2019-04-16 Tue. Visual Relationship Detection with Language prior and Softmax arXiv_CV arXiv_CV Image_Caption Knowledge Detection Relation
2019-04-16 Tue. Single Pixel Reconstruction for One-stage Instance Segmentation arXiv_CV arXiv_CV Image_Caption Object_Detection Segmentation Inference Prediction Detection
2019-04-15 Mon. SIMCO: SIMilarity-based object COunting arXiv_CV arXiv_CV Image_Caption Embedding
2019-04-15 Mon. Natural Language Statistical Features of LSTM-generated Texts arXiv_CV arXiv_CV Image_Caption Caption RNN Quantitative Relation
2019-04-15 Mon. Self-critical n-step Training for Image Captioning arXiv_CV arXiv_CV Image_Caption Sparse Reinforcement_Learning Caption
2019-04-14 Sun. Localizing Discriminative Visual Landmarks for Place Recognition arXiv_CV arXiv_CV Image_Caption CNN Recognition
2019-04-12 Fri. Big but Imperceptible Adversarial Perturbations via Semantic Manipulation arXiv_CV arXiv_CV Image_Caption Adversarial Caption Image_Classification Classification Deep_Learning
2019-04-11 Thu. TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning arXiv_AI arXiv_AI Image_Caption Embedding Prediction
2019-04-11 Thu. Intention Oriented Image Captions with Guiding Objects arXiv_CV arXiv_CV Image_Caption Caption RNN
2019-04-11 Thu. Unified Visual-Semantic Embeddings: Bridging Vision and Language with Structured Meaning Representations arXiv_CV arXiv_CV Image_Caption Adversarial Caption Embedding Relation
2019-04-11 Thu. Mitigating Information Leakage in Image Representations: A Maximum Entropy Approach arXiv_CV arXiv_CV Image_Caption Adversarial Embedding Recognition
2019-04-11 Thu. On the Intrinsic Dimensionality of Image Representations arXiv_CV arXiv_CV Image_Caption Face
2019-04-11 Thu. Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2019-04-10 Wed. Learning Non-Metric Visual Similarity for Image Retrieval arXiv_CV arXiv_CV Image_Caption Image_Retrieval
2019-04-09 Tue. Self-Supervised GANs via Auxiliary Rotation Loss arXiv_CV arXiv_CV Image_Caption Adversarial GAN Represenation_Learning
2019-04-09 Tue. Exploring Uncertainty Measures for Image-Caption Embedding-and-Retrieval Task arXiv_CV arXiv_CV Image_Caption Caption Embedding Classification Deep_Learning
2019-04-09 Tue. UG$^{2+}$ Track 2: A Collective Benchmark Effort for Evaluating and Advancing Image Understanding in Poor Visibility Environments arXiv_CV arXiv_CV Image_Caption Knowledge Face Detection Face_Detection Recognition
2019-04-08 Mon. ContextDesc: Local Descriptor Augmentation with Cross-Modality Context arXiv_CV arXiv_CV Image_Caption Relation
2019-04-06 Sat. Unsupervised Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Knowledge Caption Detection
2019-04-05 Fri. Measuring scheduling efficiency of RNNs for NLP applications arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption Optimization Inference RNN Recognition
2019-04-05 Fri. Hypernetwork functional image representation arXiv_CV arXiv_CV Image_Caption Super_Resolution
2019-04-05 Fri. Evaluating Text-to-Image Matching using Binary Image Selection arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption
2019-04-04 Thu. Accelerated Reinforcement Learning for Sentence Generation by Vocabulary Prediction arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Prediction
2019-04-03 Wed. Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning arXiv_CV arXiv_CV Image_Caption Quantitative
2019-04-02 Tue. Good News, Everyone! Context driven entity-aware captioning for news images arXiv_CV arXiv_CV Image_Caption Knowledge Caption Relation
2019-04-01 Mon. Scene Graph Generation with External Knowledge and Image Reconstruction arXiv_CV arXiv_CV Image_Caption Object_Detection Knowledge Attention Prediction Detection Relation
2019-03-31 Sun. Pedestrian re-identification based on Tree branch network with local and global learning arXiv_CV arXiv_CV Image_Caption Re-identification Person_Re-identification
2019-03-31 Sun. ImageGCN: Multi-Relational Image Graph Convolutional Networks for Disease Identification with Chest X-rays arXiv_AI arXiv_AI Image_Caption Object_Detection Weakly_Supervised CNN Detection Relation
2019-03-29 Fri. Object Hallucination in Image Captioning arXiv_CV arXiv_CV Image_Caption Caption Classification
2019-03-28 Thu. Describing like humans: on diversity in image captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption
2019-03-27 Wed. Align2Ground: Weakly Supervised Phrase Grounding Guided by Image-Caption Alignment arXiv_CV arXiv_CV Image_Caption Image_Retrieval Weakly_Supervised Caption
2019-03-27 Wed. Learning semantic sentence representations from visually grounded language without lexical knowledge arXiv_CL arXiv_CL Image_Caption Knowledge Caption Embedding
2019-03-26 Tue. Differentiable Scene Graphs arXiv_CV arXiv_CV Image_Caption Optimization Relation
2019-03-26 Tue. AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search arXiv_CV arXiv_CV Image_Caption Object_Detection Style_Transfer Caption Detection
2019-03-26 Tue. Unpaired Image Captioning via Scene Graph Alignments arXiv_CV arXiv_CV Image_Caption Adversarial Caption
2019-03-25 Mon. On the use of Deep Autoencoders for Efficient Embedded Reinforcement Learning arXiv_AI arXiv_AI Image_Caption Reinforcement_Learning CNN
2019-03-24 Sun. Vector of Locally-Aggregated Word Embeddings : A Novel Document-level Representation arXiv_CL arXiv_CL Image_Caption Review Text_Classification Embedding Classification
2019-03-24 Sun. Joint Learning of Discriminative Low-dimensional Image Representations Based on Dictionary Learning and Two-layer Orthogonal Projections arXiv_CV arXiv_CV Image_Caption Sparse CNN Image_Classification Optimization Classification Deep_Learning Gradient_Descent
2019-03-21 Thu. Semantic Comparison of State-of-the-Art Deep Learning Methods for Image Multi-Label Classification arXiv_CV arXiv_CV Image_Caption Face Classification Deep_Learning Recognition
2019-03-20 Wed. Engaging Image Captioning Via Personality arXiv_CV arXiv_CV Image_Caption Caption
2019-03-19 Tue. HWNet v2: An Efficient Word Image Representation for Handwritten Documents arXiv_CV arXiv_CV Image_Caption CNN Transfer_Learning Classification
2019-03-18 Mon. Learning to Augment Synthetic Images for Sim2Real Policy Transfer arXiv_CV arXiv_CV Image_Caption
2019-03-18 Mon. Boosted Attention: Leveraging Human Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-03-18 Mon. Evaluating Sequence-to-Sequence Models for Handwritten Text Recognition arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption CNN Language_Model Recognition
2019-03-17 Sun. A Weighted Multi-Criteria Decision Making Approach for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-03-14 Thu. Show, Translate and Tell arXiv_CV arXiv_CV Image_Caption Caption Embedding
2019-03-14 Thu. Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning arXiv_CV arXiv_CV Image_Caption Caption Prediction Relation
2019-03-14 Thu. MirrorGAN: Learning Text-to-image Generation by Redescription arXiv_CV arXiv_CV Image_Caption Adversarial Attention GAN Embedding
2019-03-13 Wed. Neural Scene Decomposition for Multi-Person Motion Capture arXiv_CV arXiv_CV Image_Caption Segmentation Pose_Estimation
2019-03-12 Tue. Unsupervised Discovery of Parts, Structure, and Dynamics arXiv_AI arXiv_AI Image_Caption
2019-03-11 Mon. Generating superpixels using deep image representations arXiv_CV arXiv_CV Image_Caption Segmentation Tracking Object_Tracking Semantic_Segmentation Classification
2019-03-11 Mon. A Unified Formulation for Visual Odometry arXiv_CV arXiv_CV Image_Caption Knowledge Tracking Optimization
2019-03-10 Sun. Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning arXiv_CV arXiv_CV Image_Caption Adversarial Caption
2019-03-07 Thu. Ultrasound Image Representation Learning by Modeling Sonographer Visual Attention arXiv_CV arXiv_CV Image_Caption Salient Attention Tracking CNN Transfer_Learning Represenation_Learning Prediction Detection
2019-03-06 Wed. Hierarchical Autoregressive Image Models with Auxiliary Decoders arXiv_CV arXiv_CV Image_Caption
2019-03-06 Wed. Image captioning with weakly-supervised attention penalty arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-03-06 Wed. A Synchronized Multi-Modal Attention-Caption Dataset and Analysis arXiv_CV arXiv_CV Image_Caption Attention Caption CNN Relation
2019-03-06 Wed. Dixit: Interactive Visual Storytelling via Term Manipulation arXiv_CL arXiv_CL Image_Caption Caption RNN
2019-03-05 Tue. From Selective Deep Convolutional Features to Compact Binary Representations for Image Retrieval arXiv_CV arXiv_CV Image_Caption Image_Retrieval Embedding CNN
2019-03-04 Mon. COMIC: Towards A Compact Image Captioning Model with Attention arXiv_CV arXiv_CV Image_Caption Attention Caption Embedding
2019-03-02 Sat. Let's Transfer Transformations of Shared Semantic Representations arXiv_CV arXiv_CV Image_Caption Image_Retrieval Embedding
2019-03-02 Sat. Extreme Channel Prior Embedded Network for Dynamic Scene Deblurring arXiv_CV arXiv_CV Image_Caption Regularization Sparse CNN Quantitative
2019-03-01 Fri. Answer Them All! Toward Universal Visual Question Answering Models arXiv_CV arXiv_CV Image_Caption QA VQA
2019-03-01 Fri. Towards Automatic Construction of Diverse, High-quality Image Dataset arXiv_CV arXiv_CV Image_Caption Object_Detection Weakly_Supervised Image_Classification Classification Detection
2019-02-28 Thu. Insertion-based Decoding with automatically Inferred Generation Order arXiv_CL arXiv_CL Image_Caption Caption
2019-02-25 Mon. Using Deep Object Features for Image Descriptions arXiv_CV arXiv_CV Image_Caption Caption Embedding Language_Model
2019-02-25 Mon. End-to-end Hand Mesh Recovery from a Monocular RGB Image arXiv_CV arXiv_CV Image_Caption Pose_Estimation
2019-02-25 Mon. Audio Caption: Listen and Tell arXiv_CL arXiv_CL Image_Caption Caption Classification Detection Relation
2019-02-23 Sat. Vector of Locally-Aggregated Word Embeddings : A novel document-level embedding arXiv_CL arXiv_CL Image_Caption Review Text_Classification Embedding Classification
2019-02-22 Fri. Deep Decoder: Concise Image Representations from Untrained Non-convolutional Networks arXiv_CV arXiv_CV Image_Caption CNN
2019-02-22 Fri. Image Aesthetics Assessment Using Composite Features from off-the-Shelf Deep Models arXiv_CV arXiv_CV Image_Caption CNN Image_Classification Classification Deep_Learning Recognition
2019-02-18 Mon. FreeLabel: A Publicly Available Annotation Tool based on Freehand Traces arXiv_CV arXiv_CV Image_Caption Segmentation Face Deep_Learning Quantitative
2019-02-18 Mon. Object Recognition under Multifarious Conditions: A Reliability Analysis and A Feature Similarity-based Performance Estimation arXiv_CV arXiv_CV Image_Caption Deep_Learning Relation Recognition
2019-02-16 Sat. Deep Convolutional Sum-Product Networks for Probabilistic Image Representations arXiv_CV arXiv_CV Image_Caption Regularization CNN Inference Relation
2019-02-16 Sat. BigEarthNet: A Large-Scale Benchmark Archive For Remote Sensing Image Understanding arXiv_CV arXiv_CV Image_Caption CNN Classification Deep_Learning
2019-02-14 Thu. Contextual Memory Trees arXiv_CV arXiv_CV Image_Caption Caption Inference Classification
2019-02-14 Thu. Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions arXiv_CV arXiv_CV Image_Caption Caption
2019-02-14 Thu. Graph-RISE: Graph-Regularized Image Semantic Embedding arXiv_CV arXiv_CV Image_Caption Image_Retrieval Embedding Image_Classification Classification
2019-02-13 Wed. Wasserstein Barycenter Model Ensembling arXiv_CV arXiv_CV Image_Caption Caption Embedding Classification
2019-02-13 Wed. Improving Image Captioning with Conditional Generative Adversarial Nets arXiv_CV arXiv_CV Image_Caption Adversarial Caption RNN
2019-02-11 Mon. Attend More Times for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption RNN
2019-02-11 Mon. Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded arXiv_CV arXiv_CV Image_Caption QA Attention Caption Language_Model Prediction VQA
2019-02-08 Fri. A sequential guiding network with attention for image captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN Deep_Learning
2019-02-08 Fri. Asynchronous Spatial Image Convolutions for Event Cameras arXiv_CV arXiv_CV Image_Caption Tracking Detection
2019-02-05 Tue. Area Attention arXiv_CV arXiv_CV Image_Caption Attention Caption
2019-02-01 Fri. Rethinking Visual Relationships for High-level Image Understanding arXiv_CV arXiv_CV Image_Caption Caption Relation VQA
2019-01-28 Mon. TGAN: Deep Tensor Generative Adversarial Nets for Large Image Generation arXiv_CV arXiv_CV Image_Caption Adversarial Super_Resolution GAN CNN
2019-01-27 Sun. Fast and Efficient Lenslet Image Compression arXiv_CV arXiv_CV Image_Caption GAN Prediction
2019-01-25 Fri. Improving Image Captioning by Leveraging Knowledge Graphs arXiv_CV arXiv_CV Image_Caption Knowledge_Graph Knowledge Caption
2019-01-25 Fri. Face-Cap: Image Captioning using Facial Expression Analysis arXiv_CV arXiv_CV Image_Caption Face Caption Relation
2019-01-24 Thu. Deep Learning on Attributed Graphs: A Journey from Graphs to Their Embeddings and Back arXiv_CV arXiv_CV Image_Caption Embedding Deep_Learning Prediction Relation
2019-01-20 Sun. Visual Entailment: A Novel Task for Fine-Grained Image Understanding arXiv_CV arXiv_CV Image_Caption QA Attention Inference VQA
2019-01-19 Sat. Binary Image Selection : Interpretable Evaluation of Visual Grounding arXiv_AI arXiv_AI Image_Caption Caption
2019-01-19 Sat. How to Become Instagram Famous: Post Popularity Prediction with Dual-Attention arXiv_CV arXiv_CV Image_Caption Attention Face Caption Classification Prediction
2019-01-19 Sat. Deep Representation Learning Characterized by Inter-class Separation for Image Clustering arXiv_CV arXiv_CV Image_Caption Represenation_Learning
2019-01-18 Fri. Improving Sequence-to-Sequence Learning via Optimal Transport arXiv_CL arXiv_CL Image_Caption Summarization Caption
2019-01-14 Mon. Image Based Review Text Generation with Emotional Guidance arXiv_AI arXiv_AI Image_Caption Review Text_Generation Caption
2019-01-14 Mon. Predicting the Mumble of Wireless Channel with Sequence-to-Sequence Models arXiv_AI arXiv_AI Image_Caption Summarization Caption Language_Model Prediction
2019-01-11 Fri. Image Captioning Based on a Hierarchical Attention Mechanism and Policy Gradient Optimization arXiv_CV arXiv_CV Image_Caption Adversarial Attention GAN Reinforcement_Learning Caption Optimization Inference RNN Deep_Learning
2019-01-07 Mon. DeepBase: Deep Inspection of Neural Networks arXiv_CV arXiv_CV Image_Caption Face Caption Optimization Deep_Learning Recognition
2019-01-04 Fri. MultiDEC: Multi-Modal Clustering of Image-Caption Pairs arXiv_CV arXiv_CV Image_Caption Caption
2019-01-03 Thu. A Hierarchical Grocery Store Image Dataset with Visual and Semantic Labels arXiv_CV arXiv_CV Image_Caption CNN Image_Classification Classification Prediction
2019-01-03 Thu. Generating Multiple Objects at Spatially Distinct Locations arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2019-01-01 Tue. Transfer learning from language models to image caption generators: Better models may not transfer better arXiv_CL arXiv_CL Image_Caption Caption Embedding CNN Transfer_Learning Language_Model
2018-12-26 Wed. Hierarchical LSTMs with Adaptive Attention for Visual Captioning arXiv_CV arXiv_CV Image_Caption Video_Caption Attention Caption RNN Language_Model
2018-12-23 Sun. Multi-modal Learning with Prior Visual Relation Reasoning arXiv_CV arXiv_CV Image_Caption Knowledge QA Embedding CNN Relation VQA
2018-12-20 Thu. nocaps: novel object captioning at scale arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Detection
2018-12-19 Wed. Generating Diverse and Meaningful Captions arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption
2018-12-17 Mon. Feature Fusion Effects of Tensor Product Representation on Compositional Network for Caption Generation for Images arXiv_CV arXiv_CV Image_Caption Caption Language_Model Relation
2018-12-17 Mon. Grounded Video Description arXiv_CV arXiv_CV Image_Caption Caption Recognition
2018-12-13 Thu. Adversarial Inference for Multi-Sentence Video Description arXiv_CV arXiv_CV Image_Caption Adversarial Video_Caption GAN Caption Inference
2018-12-11 Tue. Auto-Encoding Scene Graphs for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption Inference Relation
2018-12-03 Mon. Multi-task Learning of Hierarchical Vision-Language Representation arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption Prediction Relation VQA
2018-11-29 Thu. Turbo Learning for Captionbot and Drawingbot arXiv_CV arXiv_CV Image_Caption Text_Generation Caption
2018-11-28 Wed. Towards Task Understanding in Visual Settings arXiv_CV arXiv_CV Image_Caption Ontology Text_Generation Caption CNN
2018-11-28 Wed. Partially-Supervised Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Caption RNN Detection
2018-11-24 Sat. Senti-Attend: Image Captioning using Sentiment and Attention arXiv_CV arXiv_CV Image_Caption Sentiment Attention Caption
2018-11-22 Thu. Data Augmentation using Random Image Cropping and Patching for Deep CNNs arXiv_CV arXiv_CV Image_Caption Regularization Caption CNN Classification
2018-11-21 Wed. An Interpretable Model for Scene Graph Generation arXiv_CV arXiv_CV Image_Caption QA Caption Detection Relation
2018-11-20 Tue. Scene Graph Generation via Conditional Random Fields arXiv_CV arXiv_CV Image_Caption Image_Retrieval Object_Detection QA Segmentation Caption Detection Relation
2018-11-09 Fri. Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks arXiv_CV arXiv_CV Image_Caption Knowledge Caption Action_Recognition CNN Classification Deep_Learning Prediction Recognition
2018-11-09 Fri. AttS2S-VC: Sequence-to-Sequence Voice Conversion with Attention and Context Preservation Mechanisms arXiv_CV arXiv_CV Image_Caption Attention Caption Recognition
2018-11-07 Wed. Entity-aware Image Caption Generation arXiv_CV arXiv_CV Image_Caption Knowledge_Graph Knowledge Caption CNN Inference RNN Memory_Networks
2018-11-01 Thu. Learning Conditioned Graph Structures for Interpretable Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA Relation VQA
2018-11-01 Thu. Attentive Tensor Product Learning arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Deep_Learning
2018-10-31 Wed. Gated Hierarchical Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Reinforcement_Learning Caption CNN Prediction VQA Recognition
2018-10-23 Tue. A Neural Compositional Paradigm for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2018-10-22 Mon. Image-to-Video Person Re-Identification by Reusing Cross-modal Embeddings arXiv_CV arXiv_CV Image_Caption Re-identification Video_Caption Person_Re-identification Caption Embedding RNN
2018-10-15 Mon. Image Captioning as Neural Machine Translation Task in SOCKEYE arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN
2018-10-15 Mon. Bringing back simplicity and lightliness into neural image captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2018-10-15 Mon. UMONS Submission for WMT18 Multimodal Translation Task arXiv_CV arXiv_CV Image_Caption Caption
2018-10-14 Sun. A Comprehensive Survey of Deep Learning for Image Captioning arXiv_CV arXiv_CV Image_Caption Review Caption Survey Deep_Learning Relation
2018-10-12 Fri. Quantifying the amount of visual information used by neural caption generators arXiv_CV arXiv_CV Image_Caption Caption
2018-10-12 Fri. Pre-gen metrics: Predicting caption quality metrics without generating captions arXiv_CV arXiv_CV Image_Caption Caption
2018-09-27 Thu. Vector Learning for Cross Domain Representations arXiv_CV arXiv_CV Image_Caption Adversarial Video_Caption GAN Caption
2018-09-27 Thu. Semantically Invariant Text-to-Image Generation arXiv_CV arXiv_CV Image_Caption Caption Quantitative
2018-09-26 Wed. Batch-normalized Recurrent Highway Networks arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-09-25 Tue. A Neural-Symbolic Approach to Design of CAPTCHA arXiv_CV arXiv_CV Image_Caption Caption RNN Deep_Learning
2018-09-25 Tue. Fast and Simple Mixture of Softmaxes with BPE and Hybrid-LightRNN for Language Generation arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-09-23 Sun. Textually Enriched Neural Module Networks for Visual Question Answering arXiv_CV arXiv_CV Image_Caption Knowledge QA Attention Caption VQA Recognition
2018-09-20 Thu. Lessons learned in multilingual grounded language learning arXiv_CV arXiv_CV Image_Caption Caption Embedding
2018-09-19 Wed. Towards Accountable AI: Hybrid Human-Machine Analyses for Characterizing System Failure arXiv_CV arXiv_CV Image_Caption Caption Relation
2018-09-19 Wed. Exploring Visual Relationship for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN Relation
2018-09-13 Thu. Improving Reinforcement Learning Based Image Captioning with Natural Language Prior arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Quantitative
2018-09-13 Thu. Image Captioning based on Deep Reinforcement Learning arXiv_CV arXiv_CV Image_Caption Knowledge Reinforcement_Learning Caption RNN
2018-09-11 Tue. End-to-end Image Captioning Exploits Multimodal Distributional Similarity arXiv_CV arXiv_CV Image_Caption Text_Generation Caption RNN
2018-09-10 Mon. SPASS: Scientific Prominence Active Search System with Deep Image Captioning Network arXiv_CV arXiv_CV Image_Caption Caption
2018-09-07 Fri. BFGAN: Backward and Forward Generative Adversarial Networks for Lexically Constrained Sentence Generation arXiv_CV arXiv_CV Image_Caption Adversarial Knowledge GAN Caption RNN
2018-09-06 Thu. Neural Network Interpretation via Fine Grained Textual Summarization arXiv_CV arXiv_CV Image_Caption Image_Retrieval Summarization Caption Inference Classification Prediction
2018-09-03 Mon. Diverse and Coherent Paragraph Generation from Images arXiv_CV arXiv_CV Image_Caption Summarization Caption
2018-09-02 Sun. Chittron: An Automatic Bangla Image Captioning System arXiv_CV arXiv_CV Image_Caption Caption Embedding RNN Language_Model
2018-09-02 Sun. Approximate Distribution Matching for Sequence-to-Sequence Learning arXiv_CV arXiv_CV Image_Caption Summarization Caption Optimization RNN Prediction
2018-08-31 Fri. When to Finish? Optimal Beam Search for Neural Text Generation arXiv_CV arXiv_CV Image_Caption Summarization Text_Generation Caption
2018-08-29 Wed. Hard Non-Monotonic Attention for Character-Level Transduction arXiv_CV arXiv_CV Image_Caption Attention Caption
2018-08-28 Tue. Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation arXiv_CV arXiv_CV Image_Caption Summarization Text_Generation Caption
2018-08-27 Mon. Deterministic Non-Autoregressive Neural Sequence Modeling by Iterative Refinement arXiv_CV arXiv_CV Image_Caption Caption
2018-08-27 Mon. A neural attention model for speech command recognition arXiv_CV arXiv_CV Image_Caption Attention Caption CNN Recognition
2018-08-27 Mon. simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions arXiv_CV arXiv_CV Image_Caption Attention Caption
2018-08-22 Wed. Context-Aware Visual Policy Network for Sequence-Level Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Reinforcement_Learning Caption Prediction Relation
2018-08-14 Tue. Text-to-Image-to-Text Translation using Cycle Consistent Adversarial Networks arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2018-08-11 Sat. Decoupled Novel Object Captioner arXiv_CV arXiv_CV Image_Caption Caption Detection
2018-08-11 Sat. Dropout during inference as a model for neurological degeneration in an image captioning network arXiv_CV arXiv_CV Image_Caption Caption Inference
2018-08-03 Fri. Online Illumination Invariant Moving Object Detection by Generative Neural Network arXiv_CV arXiv_CV Image_Caption Object_Detection Optimization Detection Gradient_Descent
2018-07-31 Tue. Recurrent Fusion Network for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2018-07-30 Mon. Doubly Attentive Transformer Machine Translation arXiv_CV arXiv_CV Image_Caption Attention Caption CNN NMT
2018-07-30 Mon. Emulating malware authors for proactive protection using GANs over a distributed image visualization of dynamic file behavior arXiv_CV arXiv_CV Image_Caption Adversarial GAN CNN
2018-07-29 Sun. ADVISE: Symbolism and External Knowledge for Decoding Advertisements arXiv_CV arXiv_CV Image_Caption Knowledge GAN Caption Recognition
2018-07-29 Sun. 'Factual' or 'Emotional': Stylized Image Captioning with Adaptive Learning and Attention arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption RNN
2018-07-26 Thu. Rethinking the Form of Latent States in Image Captioning arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-07-26 Thu. Image Generation from Sketch Constraint Using Contextual GAN arXiv_CV arXiv_CV Image_Caption Adversarial GAN
2018-07-25 Wed. Distinctive-attribute Extraction for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2018-07-23 Mon. Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data arXiv_CV arXiv_CV Image_Caption Caption
2018-07-21 Sat. Equal But Not The Same: Understanding the Implicit Relationship Between Persuasive Images and Text arXiv_CV arXiv_CV Image_Caption GAN Caption Relation
2018-07-21 Sat. Inductive Visual Localisation: Factorised Training for Superior Generalisation arXiv_CV arXiv_CV Image_Caption Caption RNN Recognition
2018-07-21 Sat. What is not where: the challenge of integrating spatial representations into deep learning architectures arXiv_CV arXiv_CV Image_Caption Object_Detection Knowledge Caption Deep_Learning Language_Model Detection Relation
2018-07-20 Fri. Deep Reinforcement Learning For Sequence to Sequence Models arXiv_CV arXiv_CV Image_Caption Attention Summarization Reinforcement_Learning Caption Survey
2018-07-18 Wed. Unpaired Image Captioning by Language Pivoting arXiv_CV arXiv_CV Image_Caption Caption Quantitative
2018-07-16 Mon. Object Relation Detection Based on One-shot Learning arXiv_CV arXiv_CV Image_Caption Attention Deep_Learning Detection Relation Recognition
2018-07-15 Sun. Object Detection with Deep Learning: A Review arXiv_CV arXiv_CV Image_Caption Salient Review Object_Detection Attention Face Survey CNN Optimization Deep_Learning Detection Face_Detection Relation
2018-07-10 Tue. Topic-Guided Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Quantitative
2018-07-08 Sun. Learning The Sequential Temporal Information with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Review Speech_Recognition Tracking Caption Object_Tracking RNN Language_Model Prediction Recognition
2018-07-02 Mon. Women also Snowboard: Overcoming Bias in Captioning Models arXiv_CV arXiv_CV Image_Caption Caption Prediction
2018-06-29 Fri. Multimedia Semantic Integrity Assessment Using Joint Embedding Of Images And Text arXiv_CV arXiv_CV Image_Caption Caption Embedding Represenation_Learning Deep_Learning Quantitative
2018-06-27 Wed. Learning Visually-Grounded Semantics from Contrastive Adversarial Samples arXiv_CV arXiv_CV Image_Caption Adversarial Knowledge Caption Embedding Quantitative
2018-06-17 Sun. Learning to Evaluate Image Captioning arXiv_CV arXiv_CV Image_Caption Face Caption Relation
2018-06-12 Tue. iParaphrasing: Extracting Visually Grounded Paraphrases via an Image arXiv_CV arXiv_CV Image_Caption Attention Caption VQA
2018-06-08 Fri. Discriminability objective for training descriptive captions arXiv_CV arXiv_CV Image_Caption Caption
2018-06-04 Mon. Learning Visually Grounded Sentence Representations arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption Embedding
2018-06-01 Fri. Improved Image Captioning with Adversarial Semantic Alignment arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption RNN Relation
2018-05-31 Thu. Grow and Prune Compact, Fast, and Accurate LSTMs arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption RNN Recognition
2018-05-30 Wed. Neural Joking Machine : Humorous image captioning arXiv_CV arXiv_CV Image_Caption Caption RNN
2018-05-23 Wed. Quantifying the visual concreteness of words and topics in multimodal datasets arXiv_CV arXiv_CV Image_Caption Caption Relation Recommendation
2018-05-23 Wed. CNN+CNN: Convolutional Decoders for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN
2018-05-22 Tue. Joint Image Captioning and Question Answering arXiv_CV arXiv_CV Image_Caption Knowledge QA Caption VQA
2018-05-22 Tue. Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Adversarial Caption CNN RNN
2018-05-21 Mon. Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention arXiv_CV arXiv_CV Image_Caption Salient Attention Caption CNN RNN Prediction Quantitative
2018-05-18 Fri. SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text arXiv_CV arXiv_CV Image_Caption Caption Language_Model
2018-05-16 Wed. Defoiling Foiled Image Captions arXiv_CV arXiv_CV Image_Caption Caption
2018-05-14 Mon. Token-level and sequence-level loss smoothing for RNN language models arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model Prediction
2018-05-11 Fri. Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition arXiv_CV arXiv_CV Image_Caption Caption Action_Recognition RNN Prediction Recognition
2018-05-10 Thu. Pragmatically Informative Image Captioning with Character-Level Inference arXiv_CV arXiv_CV Image_Caption Caption Inference
2018-04-30 Mon. Mobile Multi-View Object Image Search arXiv_CV arXiv_CV Image_Caption
2018-04-23 Mon. Object Counts! Bringing Explicit Detections Back into Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Embedding Language_Model Detection
2018-04-23 Mon. Deep Semantic Hashing with Generative Adversarial Networks arXiv_CV arXiv_CV Image_Caption Image_Retrieval Adversarial GAN CNN Classification
2018-04-17 Tue. Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer arXiv_CV arXiv_CV Image_Caption Sentiment Review Adversarial Style_Transfer Caption
2018-04-10 Tue. Discovery and usage of joint attention in images arXiv_CV arXiv_CV Image_Caption Attention Caption Detection
2018-04-07 Sat. Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present arXiv_CV arXiv_CV Image_Caption Caption Inference RNN
2018-04-06 Fri. Finding beans in burgers: Deep semantic-visual embedding with localization arXiv_CV arXiv_CV Image_Caption Caption Embedding Relation
2018-04-03 Tue. Learning to Guide Decoding for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2018-03-30 Fri. Guide Me: Interacting with Deep Networks arXiv_CV arXiv_CV Image_Caption Caption CNN Inference
2018-03-29 Thu. Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering arXiv_CV arXiv_CV Image_Caption Caption VQA
2018-03-28 Wed. Fraternal Dropout arXiv_CV arXiv_CV Image_Caption Regularization Caption Inference RNN Language_Model Prediction
2018-03-28 Wed. COCO-Stuff: Thing and Stuff Classes in Context arXiv_CV arXiv_CV Image_Caption Segmentation Attention Face Caption Semantic_Segmentation Classification Detection Relation
2018-03-27 Tue. Neural Baby Talk arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Detection
2018-03-26 Mon. Object Detection for Comics using Manga109 Annotations arXiv_CV arXiv_CV Image_Caption Object_Detection CNN Detection
2018-03-21 Wed. Bayesian Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2018-03-14 Wed. Stack-Captioning: Coarse-to-Fine Learning for Image Captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Inference Prediction
2018-03-14 Wed. Where to put the Image in an Image Caption Generator arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2018-03-14 Wed. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering arXiv_CV arXiv_CV Image_Caption Salient QA Attention Caption VQA
2018-03-12 Mon. Improved Image Captioning via Policy Gradient optimization of SPIDEr arXiv_CV arXiv_CV Image_Caption Caption Optimization
2018-03-07 Wed. Decoupled Spatial Neural Attention for Weakly Supervised Semantic Segmentation arXiv_CV arXiv_CV Image_Caption Segmentation Attention Weakly_Supervised Caption Semantic_Segmentation
2018-03-02 Fri. Contextually Customized Video Summaries via Natural Language arXiv_CV arXiv_CV Image_Caption Caption Embedding
2018-02-22 Thu. Multimodal Named Entity Recognition for Short Social Media Posts arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Recognition
2018-02-12 Mon. Human Action Adverb Recognition: ADHA Dataset and A Three-Stream Hybrid Model arXiv_CV arXiv_CV Image_Caption Caption Action_Recognition Recognition
2018-02-09 Fri. Zero-Resource Neural Machine Translation with Multi-Agent Communication Game arXiv_CV arXiv_CV Image_Caption Caption NMT
2018-02-07 Wed. Generating Triples with Adversarial Networks for Scene Graph Construction arXiv_CV arXiv_CV Image_Caption Adversarial Object_Detection Attention GAN Caption Image_Classification Classification Deep_Learning Detection Relation VQA
2018-02-06 Tue. Multimodal Image Captioning for Marketing Analysis arXiv_CV arXiv_CV Image_Caption Caption Classification Relation
2018-01-31 Wed. Attention-Based Models for Text-Dependent Speaker Verification arXiv_CV arXiv_CV Image_Caption Attention Summarization Speech_Recognition Caption RNN Recognition
2018-01-31 Wed. Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures arXiv_CV arXiv_CV Image_Caption Caption
2018-01-30 Tue. Image Captioning at Will: A Versatile Scheme for Effectively Injecting Sentiments into Image Descriptions arXiv_CV arXiv_CV Image_Caption Sentiment Attention Caption
2018-01-27 Sat. Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions arXiv_CV arXiv_CV Image_Caption Object_Detection QA Attention Caption Inference Detection VQA
2018-01-24 Wed. Structured Triplet Learning with POS-tag Guided Attention for Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA Attention CNN VQA
2018-01-19 Fri. Describing Semantic Representations of Brain Activity Evoked by Visual Stimuli arXiv_CV arXiv_CV Image_Caption Caption Deep_Learning Quantitative Relation
2018-01-17 Wed. Image Captioning using Deep Neural Architectures arXiv_CV arXiv_CV Image_Caption Caption Recognition
2018-01-11 Thu. DeepSeek: Content Based Image Search & Retrieval arXiv_CV arXiv_CV Image_Caption Face Caption Deep_Learning Language_Model
2018-01-07 Sun. Approximate FPGA-based LSTMs under Computation Time Constraints arXiv_CV arXiv_CV Image_Caption Caption RNN Quantitative
2018-01-05 Fri. GeoSeq2Seq: Information Geometric Sequence-to-Sequence Networks arXiv_CV arXiv_CV Image_Caption Caption Embedding RNN
2017-12-21 Thu. Exploring Models and Data for Remote Sensing Image Caption Generation arXiv_CV arXiv_CV Image_Caption Review Attention Caption Classification Detection
2017-12-20 Wed. Order-Free RNN with Visual Attention for Multi-Label Classification arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption Inference RNN Classification Prediction
2017-12-18 Mon. Synthesizing Novel Pairs of Image and Text arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption
2017-12-16 Sat. Visually Grounded Word Embeddings and Richer Visual Features for Improving Multimodal Neural Machine Translation arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Embedding CNN NMT Detection
2017-12-16 Sat. Tensor Product Generation Networks for Deep NLP Modeling arXiv_CV arXiv_CV Image_Caption Caption RNN Deep_Learning
2017-12-14 Thu. OSU Multimodal Machine Translation System Report arXiv_CV arXiv_CV Image_Caption Caption
2017-12-08 Fri. Long Text Generation via Adversarial Training with Leaked Information arXiv_CV arXiv_CV Image_Caption Adversarial GAN Text_Generation Reinforcement_Learning Caption
2017-11-28 Tue. Actor-Critic Sequence Training for Image Captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption
2017-11-24 Fri. Convolutional Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2017-11-19 Sun. Diverse and Accurate Image Description Using a Variational Auto-Encoder with an Additive Gaussian Encoding Space arXiv_CV arXiv_CV Image_Caption Caption RNN
2017-11-17 Fri. AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding arXiv_CV arXiv_CV Image_Caption Caption Classification Detection
2017-11-16 Thu. Deep Matching Autoencoders arXiv_CV arXiv_CV Image_Caption GAN Caption Represenation_Learning
2017-11-16 Thu. Self-critical Sequence Training for Image Captioning arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Optimization Inference
2017-11-14 Tue. DataVizard: Recommending Visual Presentations for Structured Data arXiv_CV arXiv_CV Image_Caption Caption Survey
2017-11-11 Sat. Phrase-based Image Captioning with Hierarchical LSTM Model arXiv_CV arXiv_CV Image_Caption Caption Inference RNN
2017-11-06 Mon. Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training arXiv_CV arXiv_CV Image_Caption Adversarial Caption
2017-10-27 Fri. Softmax Q-Distribution Estimation for Structured Prediction: A Theoretical Interpretation for RAML arXiv_CV arXiv_CV Image_Caption Caption Classification Prediction Relation Recognition
2017-10-24 Tue. Automated Audio Captioning with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption RNN Classification
2017-10-24 Tue. A Mathematical Theory of Deep Convolutional Neural Networks for Feature Extraction arXiv_CV arXiv_CV Image_Caption Caption CNN Classification
2017-10-19 Thu. Improved Search in Hamming Space using Deep Multi-Index Hashing arXiv_CV arXiv_CV Image_Caption Image_Retrieval
2017-10-17 Tue. Describing Natural Images Containing Novel Objects with Knowledge Guided Assitance arXiv_CV arXiv_CV Image_Caption Knowledge Attention Caption Inference Recognition
2017-10-13 Fri. Cold-Start Reinforcement Learning with Softmax Policy Gradient arXiv_CV arXiv_CV Image_Caption Summarization Reinforcement_Learning Caption Prediction
2017-10-06 Fri. Contrastive Learning for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2017-09-15 Fri. Self-Guiding Multimodal LSTM - when we do not have a perfect training dataset for image captioning arXiv_CV arXiv_CV Image_Caption Caption RNN
2017-09-10 Sun. Neural Extractive Summarization with Side Information arXiv_CV arXiv_CV Image_Caption Attention Summarization Caption
2017-09-07 Thu. Learning the Enigma with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption RNN Recognition
2017-09-04 Mon. Generating Video Descriptions with Topic Guidance arXiv_CV arXiv_CV Image_Caption Video_Caption Caption Prediction
2017-08-25 Fri. What is the Role of Recurrent Neural Networks in an Image Caption Generator? arXiv_CV arXiv_CV Image_Caption Caption RNN
2017-08-25 Fri. Areas of Attention for Image Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption CNN RNN Language_Model Detection
2017-08-21 Mon. Cold Fusion: Training Seq2Seq Models Together with Language Models arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Language_Model Recognition
2017-08-17 Thu. Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Recognition
2017-08-16 Wed. ConvNet Architecture Search for Spatiotemporal Feature Learning arXiv_CV arXiv_CV Image_Caption Object_Detection Segmentation NAS Caption Semantic_Segmentation Inference Detection
2017-08-15 Tue. Fluency-Guided Cross-Lingual Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2017-08-14 Mon. Show, Adapt and Tell: Adversarial Training of Cross-domain Image Captioner arXiv_CV arXiv_CV Image_Caption Adversarial Caption Inference
2017-08-11 Fri. Towards Diverse and Natural Image Descriptions via a Conditional GAN arXiv_CV arXiv_CV Image_Caption Adversarial GAN Reinforcement_Learning Caption RNN
2017-08-10 Thu. MAT: A Multimodal Attentive Translator for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN RNN
2017-08-09 Wed. Learning to Disambiguate by Asking Discriminative Questions arXiv_CV arXiv_CV Image_Caption Weakly_Supervised Caption Quantitative VQA
2017-08-08 Tue. Deep Binaries: Encoding Semantic-Rich Cues for Efficient Textual-Visual Cross Retrieval arXiv_CV arXiv_CV Image_Caption CNN
2017-08-04 Fri. Recurrent Models for Situation Recognition arXiv_CV arXiv_CV Image_Caption Caption RNN Prediction Recognition
2017-08-04 Fri. Paying Attention to Descriptions Generated by Image Captioning Models arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Language_Model
2017-08-02 Wed. An Empirical Study of Language CNN for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2017-07-31 Mon. Context-aware Captions from Context-agnostic Supervision arXiv_CV arXiv_CV Image_Caption Caption Inference Language_Model
2017-07-26 Wed. Deep Interactive Region Segmentation and Captioning arXiv_CV arXiv_CV Image_Caption Object_Detection Knowledge Segmentation Caption CNN Deep_Learning Detection
2017-07-22 Sat. OBJ2TEXT: Generating Visually Descriptive Language from Object Layouts arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption RNN Language_Model Detection Relation
2017-07-20 Thu. Captioning Images with Diverse Objects arXiv_CV arXiv_CV Image_Caption Knowledge Caption Embedding Recognition
2017-07-19 Wed. Guided Open Vocabulary Image Captioning with Constrained Beam Search arXiv_CV arXiv_CV Image_Caption Caption Embedding Prediction
2017-07-14 Fri. CUNI System for the WMT17 Multimodal Translation Task arXiv_CV arXiv_CV Image_Caption Caption
2017-07-13 Thu. End-to-End Instance Segmentation with Recurrent Attention arXiv_CV arXiv_CV Image_Caption Segmentation Attention Caption CNN Semantic_Segmentation RNN Prediction VQA
2017-07-02 Sun. Where to Play: Retrieval of Video Segments using Natural-Language Queries arXiv_CV arXiv_CV Image_Caption Tracking Caption Quantitative Relation
2017-06-24 Sat. A Semi-supervised Framework for Image Captioning arXiv_CV arXiv_CV Image_Caption Salient Review Attention Caption Embedding
2017-06-20 Tue. Using Artificial Tokens to Control Languages for Multilingual Image Caption Generation arXiv_CV arXiv_CV Image_Caption Caption
2017-06-16 Fri. One Model To Learn Them All arXiv_CV arXiv_CV Image_Caption Sparse Attention Speech_Recognition Caption CNN Image_Classification Classification Deep_Learning Recognition
2017-06-15 Thu. Visual Question Answering: Datasets, Algorithms, and Future Challenges arXiv_CV arXiv_CV Image_Caption Review QA Deep_Learning VQA
2017-06-08 Thu. Image Captioning with Object Detection and Localization arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption RNN Detection Relation
2017-06-06 Tue. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Language_Model
2017-06-05 Mon. Teaching Machines to Describe Images via Natural Language Feedback arXiv_CV arXiv_CV Image_Caption Caption
2017-06-03 Sat. I2T2I: Learning Text to Image Synthesis with Textual Data Augmentation arXiv_CV arXiv_CV Image_Caption Adversarial GAN Caption Transfer_Learning RNN
2017-05-25 Thu. Deep image representations using caption generators arXiv_CV arXiv_CV Image_Caption Caption Transfer_Learning Deep_Learning Recognition
2017-05-24 Wed. Bidirectional Beam Search: Forward-Backward Inference in Neural Sequence Models for Fill-in-the-Blank Image Captioning arXiv_CV arXiv_CV Image_Caption Caption Inference VQA
2017-05-19 Fri. CHAM: action recognition using convolutional hierarchical attention model arXiv_CV arXiv_CV Image_Caption Attention Caption Action_Recognition CNN RNN Recognition
2017-05-15 Mon. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA VQA
2017-05-02 Tue. STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset arXiv_CV arXiv_CV Image_Caption Attention Caption
2017-04-25 Tue. Attend to You: Personalized Image Captioning with Context Sequence Memory Networks arXiv_CV arXiv_CV Image_Caption Knowledge Caption Prediction Quantitative Memory_Networks
2017-04-12 Wed. Deep Reinforcement Learning-based Image Captioning with Embedding Reward arXiv_CV arXiv_CV Image_Caption Reinforcement_Learning Caption Embedding Prediction
2017-04-12 Wed. Learning a Deep Embedding Model for Zero-Shot Learning arXiv_CV arXiv_CV Image_Caption Caption Embedding
2017-04-12 Wed. Plug & Play Generative Networks: Conditional Iterative Generation of Images in Latent Space arXiv_CV arXiv_CV Image_Caption Face Caption Classification
2017-04-12 Wed. SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption CNN Prediction
2017-04-10 Mon. A Hierarchical Approach for Generating Descriptive Image Paragraphs arXiv_CV arXiv_CV Image_Caption Caption
2017-04-10 Mon. ViP-CNN: Visual Phrase Guided Convolutional Neural Network arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption CNN Detection Relation Recognition
2017-03-30 Thu. Efficient Privacy Preserving Viola-Jones Type Object Detection via Random Base Image Representation arXiv_CV arXiv_CV Image_Caption Object_Detection Detection
2017-03-28 Tue. Semantic Compositional Networks for Visual Captioning arXiv_CV arXiv_CV Image_Caption Caption RNN Quantitative
2017-03-23 Thu. Recurrent Topic-Transition GAN for Visual Paragraph Generation arXiv_CV arXiv_CV Image_Caption Adversarial Knowledge Attention GAN Quantitative
2017-03-23 Thu. Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation arXiv_CV arXiv_CV Image_Caption Attention Caption VQA
2017-03-07 Tue. Can Active Memory Replace Attention? arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Image_Classification Classification Deep_Learning Recognition
2017-03-04 Sat. Evolving Deep Neural Networks arXiv_CV arXiv_CV Image_Caption Caption Deep_Learning Language_Model Recognition
2017-02-28 Tue. MIML-FCN+: Multi-instance Multi-label Learning via Fully Convolutional Networks with Privileged Information arXiv_CV arXiv_CV Image_Caption Caption CNN Deep_Learning Relation Recognition
2017-02-20 Mon. Correlation Hashing Network for Efficient Cross-Modal Retrieval arXiv_CV arXiv_CV Image_Caption CNN Relation
2017-02-18 Sat. Soft + Hardwired Attention: An LSTM Framework for Human Trajectory Prediction and Abnormal Event Detection arXiv_CV arXiv_CV Image_Caption Attention Caption RNN Prediction Detection
2017-02-14 Tue. Supervised Learning of Semantics-Preserving Hash via Deep Convolutional Neural Networks arXiv_CV arXiv_CV Image_Caption CNN Classification
2017-01-25 Wed. Grad-CAM: Why did you say that? arXiv_CV arXiv_CV Image_Caption QA Caption CNN Prediction Relation VQA
2017-01-24 Tue. Deep Network Guided Proof Search arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption Deep_Learning Detection Recognition
2017-01-12 Thu. Comprehension-guided referring expressions arXiv_CV arXiv_CV Image_Caption Caption
2016-12-22 Thu. Understanding Image and Text Simultaneously: a Dual Vision-Language Machine Comprehension Task arXiv_CV arXiv_CV Image_Caption Caption
2016-12-22 Thu. Re-evaluating Automatic Metrics for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Relation
2016-12-16 Fri. Image Captioning and Visual Question Answering Based on Attributes and External Knowledge arXiv_CV arXiv_CV Image_Caption Knowledge Caption CNN RNN VQA
2016-12-15 Thu. Beyond Holistic Object Recognition: Enriching Image Understanding with Part States arXiv_CV arXiv_CV Image_Caption Caption Inference Recognition
2016-12-15 Thu. Recurrent Image Captioner: Describing Images with Spatial-Invariant Transformation and Attention Filtering arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Inference RNN
2016-12-13 Tue. Spatial Pyramid Convolutional Neural Network for Social Event Detection in Static Image arXiv_CV arXiv_CV Image_Caption GAN Caption CNN Detection Recommendation
2016-12-12 Mon. Text-guided Attention Model for Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption
2016-12-07 Wed. Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging arXiv_CV arXiv_CV Image_Caption Caption Relation
2016-11-24 Thu. On Human Intellect and Machine Failures: Troubleshooting Integrative Machine Learning Systems arXiv_CV arXiv_CV Image_Caption Caption
2016-11-24 Thu. Ask Your Neurons: A Deep Learning Approach to Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA Deep_Learning VQA
2016-11-24 Thu. Watch What You Just Said: Image Captioning with Text-Conditional Attention arXiv_CV arXiv_CV Image_Caption Attention Caption Embedding RNN Language_Model Quantitative
2016-11-23 Wed. Attention Correctness in Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Attention Caption Deep_Learning Quantitative
2016-11-22 Tue. Revisiting Visual Question Answering Baselines arXiv_CV arXiv_CV Image_Caption QA Attention Classification VQA
2016-11-16 Wed. Semantic Regularisation for Recurrent Image Annotation arXiv_CV arXiv_CV Image_Caption Face Caption Embedding RNN Classification Relation
2016-11-07 Mon. Sort Story: Sorting Jumbled Images and Captions into Stories arXiv_CV arXiv_CV Image_Caption QA Summarization Caption Prediction
2016-11-05 Sat. Boosting Image Captioning with Attributes arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Relation
2016-10-27 Thu. Review Networks for Caption Generation arXiv_CV arXiv_CV Image_Caption Review Attention Caption RNN
2016-10-27 Thu. VQA: Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA Caption VQA
2016-10-18 Tue. Generating captions without looking beyond objects arXiv_CV arXiv_CV Image_Caption Caption Language_Model
2016-10-07 Fri. Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence Models arXiv_CV arXiv_CV Image_Caption Caption Inference Quantitative VQA
2016-09-19 Mon. Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Embedding Detection
2016-09-13 Tue. Multimodal Attention for Neural Machine Translation arXiv_CV arXiv_CV Image_Caption Attention Caption NMT
2016-08-31 Wed. Leveraging Visual Question Answering for Image-Caption Ranking arXiv_CV arXiv_CV Image_Caption Image_Retrieval Knowledge QA Caption VQA
2016-08-31 Wed. Measuring Machine Intelligence Through Visual Question Answering arXiv_CV arXiv_CV Image_Caption Caption VQA
2016-08-30 Tue. Utilizing Large Scale Vision and Text Datasets for Image Segmentation from Referring Expressions arXiv_CV arXiv_CV Image_Caption Segmentation Caption Language_Model
2016-08-27 Sat. Learning to generalize to new compositions in image understanding arXiv_CV arXiv_CV Image_Caption Caption RNN Prediction
2016-08-23 Tue. Scan, Attend and Read: End-to-End Handwritten Paragraph Recognition with MDLSTM Attention arXiv_CV arXiv_CV Image_Caption Knowledge Segmentation Attention Speech_Recognition Caption RNN Recognition
2016-08-18 Thu. Seeing with Humans: Gaze-Assisted Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Relation Recognition
2016-08-12 Fri. DeepDiary: Automatic Caption Generation for Lifelogging Image Streams arXiv_CV arXiv_CV Image_Caption Image_Retrieval GAN Caption Deep_Learning Quantitative
2016-08-06 Sat. Compressive Change Retrieval for Moving Object Detection arXiv_CV arXiv_CV Image_Caption Object_Detection Detection Recognition
2016-07-29 Fri. SPICE: Semantic Propositional Image Caption Evaluation arXiv_CV arXiv_CV Image_Caption Caption Relation
2016-07-27 Wed. MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition arXiv_CV arXiv_CV Image_Caption Knowledge Face Caption Classification Recognition Face_Recognition
2016-07-20 Wed. Image Captioning with Deep Bidirectional LSTMs arXiv_CV arXiv_CV Image_Caption Object_Detection Attention Caption Embedding CNN RNN Detection
2016-06-13 Mon. Multimodal Pivots for Image Caption Translation arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption CNN
2016-06-09 Thu. Generating Natural Questions About an Image arXiv_CV arXiv_CV Image_Caption Knowledge Caption Inference VQA
2016-06-04 Sat. Automated Image Captioning for Rapid Prototyping and Resource Constrained Environments arXiv_CV arXiv_CV Image_Caption Caption Embedding Deep_Learning Detection
2016-05-18 Wed. Beyond Caption To Narrative: Video Captioning With Multiple Sentences arXiv_CV arXiv_CV Image_Caption Video_Caption Caption
2016-05-03 Tue. Improving Image Captioning by Concept-based Sentence Reranking arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model Detection
2016-04-28 Thu. What value do explicit high level concepts have in vision to language problems? arXiv_CV arXiv_CV Image_Caption Caption CNN RNN VQA
2016-04-27 Wed. Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data arXiv_CV arXiv_CV Image_Caption Video_Caption Knowledge Caption Recognition
2016-04-12 Tue. Seeing through the Human Reporting Bias: Visual Classifiers from Noisy Human-Centric Labels arXiv_CV arXiv_CV Image_Caption Caption Image_Classification Classification
2016-04-11 Mon. Natural Language Object Retrieval arXiv_CV arXiv_CV Image_Caption Image_Retrieval Knowledge Caption
2016-04-11 Mon. Generation and Comprehension of Unambiguous Object Descriptions arXiv_CV arXiv_CV Image_Caption Caption Deep_Learning
2016-04-08 Fri. Automatic Annotation of Structured Facts in Images arXiv_CV arXiv_CV Image_Caption Caption
2016-03-31 Thu. Neural Attention Models for Sequence Classification: Analysis and Application to Key Term Extraction and Dialogue Act Detection arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Classification Detection VQA Recognition
2016-03-31 Thu. Rich Image Captioning in the Wild arXiv_CV arXiv_CV Image_Caption Caption Recognition
2016-03-30 Wed. Dense Image Representation with Spatial Pyramid VLAD Coding of CNN for Locally Robust Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Classification
2016-03-28 Mon. Learning to Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation arXiv_CV arXiv_CV Image_Caption Regularization GAN Caption CNN RNN Deep_Learning
2016-03-19 Sat. Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering arXiv_CV arXiv_CV Image_Caption QA Attention Caption CNN Inference RNN Memory_Networks VQA
2016-03-10 Thu. Instance-Aware Hashing for Multi-Label Image Retrieval arXiv_CV arXiv_CV Image_Caption Image_Retrieval GAN
2016-03-01 Tue. Multi-task Sequence to Sequence Learning arXiv_CV arXiv_CV Image_Caption Caption
2016-03-01 Tue. Order-Embeddings of Images and Language arXiv_CV arXiv_CV Image_Caption Caption Embedding Prediction
2016-02-10 Wed. Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video arXiv_CV arXiv_CV Image_Caption Speech_Recognition Caption Video_Classification RNN Classification Recognition
2016-01-22 Fri. Implicit Distortion and Fertility Models for Attention-based Encoder-Decoder NMT Model arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption NMT Recognition
2016-01-05 Tue. Event Specific Multimodal Pattern Mining with Image-Caption Pairs arXiv_CV arXiv_CV Image_Caption Knowledge Weakly_Supervised Caption
2015-12-13 Sun. SentiCap: Generating Image Descriptions with Sentiments arXiv_CV arXiv_CV Image_Caption Regularization Sentiment Caption Language_Model Relation Recognition
2015-12-10 Thu. Neural Self Talk: Image Understanding via Continuous Questioning and Answering arXiv_CV arXiv_CV Image_Caption QA CNN RNN VQA
2015-12-09 Wed. Video captioning with recurrent networks based on frame- and video-level features and visual content classification arXiv_CV arXiv_CV Image_Caption Video_Caption Caption RNN Classification Language_Model
2015-11-24 Tue. DenseCap: Fully Convolutional Localization Networks for Dense Captioning arXiv_CV arXiv_CV Image_Caption Salient Object_Detection Caption CNN Optimization Language_Model Detection
2015-11-21 Sat. Mapping Images to Sentiment Adjective Noun Pairs with Factorized Neural Nets arXiv_CV arXiv_CV Image_Caption Sentiment Caption Classification
2015-11-16 Mon. How to Train your Generative Model: Scheduled Sampling, Likelihood, Adversary? arXiv_CV arXiv_CV Image_Caption Adversarial Knowledge Caption Deep_Learning
2015-11-10 Tue. From Images to Sentences through Scene Description Graphs using Commonsense Reasoning and Knowledge arXiv_CV arXiv_CV Image_Caption Knowledge Caption Detection
2015-10-19 Mon. Sequence to Sequence -- Video to Text arXiv_CV arXiv_CV Image_Caption Video_Caption Caption RNN Language_Model
2015-10-17 Sat. A Critical Review of Recurrent Neural Networks for Sequence Learning arXiv_CV arXiv_CV Image_Caption Review Caption Survey Optimization RNN Prediction Recognition
2015-10-14 Wed. Language Models for Image Captioning: The Quirks and What Works arXiv_CV arXiv_CV Image_Caption Caption CNN RNN Language_Model
2015-10-02 Fri. Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images arXiv_CV arXiv_CV Image_Caption Caption RNN
2015-09-23 Wed. Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption Inference RNN Prediction
2015-09-16 Wed. Guiding Long-Short Term Memory for Image Caption Generation arXiv_CV arXiv_CV Image_Caption Caption RNN
2015-08-27 Thu. SentenceRacer: A Game with a Purpose for Image Sentence Annotation arXiv_CV arXiv_CV Image_Caption Caption
2015-08-21 Fri. A large annotated corpus for learning natural language inference arXiv_CV arXiv_CV Image_Caption Caption Inference
2015-08-20 Thu. Sequence-to-Sequence Neural Net Models for Grapheme-to-Phoneme Conversion arXiv_CV arXiv_CV Image_Caption Caption RNN Language_Model
2015-08-09 Sun. Image Representations and New Domains in Neural Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN Language_Model
2015-07-13 Mon. Scalable Bayesian Optimization Using Deep Neural Networks arXiv_CV arXiv_CV Image_Caption Caption CNN Optimization Language_Model Recognition
2015-07-04 Sat. Describing Multimedia Content using Attention-based Encoder--Decoder Networks arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption CNN RNN Classification Recognition
2015-06-24 Wed. Attention-Based Models for Speech Recognition arXiv_CV arXiv_CV Image_Caption Attention Speech_Recognition Caption Recognition
2015-06-20 Sat. Aligning where to see and what to tell: image caption with region-based attention and scene factorization arXiv_CV arXiv_CV Image_Caption Salient Attention Caption Language_Model
2015-06-12 Fri. Technical Report: Image Captioning with Semantically Similar Images arXiv_CV arXiv_CV Image_Caption Caption Embedding CNN
2015-06-11 Thu. Deep Captioning with Multimodal Recurrent Neural Networks arXiv_CV arXiv_CV Image_Caption Caption CNN RNN
2015-06-04 Thu. The Long-Short Story of Movie Description arXiv_CV arXiv_CV Image_Caption Caption RNN
2015-05-17 Sun. Exploring Nearest Neighbor Approaches for Image Captioning arXiv_CV arXiv_CV Image_Caption Caption
2015-04-14 Tue. From Captions to Visual Concepts and Back arXiv_CV arXiv_CV Image_Caption Object_Detection Caption Language_Model Detection
2015-04-11 Sat. Simple Image Description Generator via a Linear Phrase-Based Approach arXiv_CV arXiv_CV Image_Caption Caption CNN Language_Model
2015-04-09 Thu. Phrase-based Image Captioning arXiv_CV arXiv_CV Image_Caption Caption CNN Language_Model
2015-03-17 Tue. 3D Object Class Detection in the Wild arXiv_CV arXiv_CV Image_Caption Object_Detection Detection
2015-02-19 Thu. Recurrent Neural Network Regularization arXiv_CV arXiv_CV Image_Caption Regularization Speech_Recognition Caption RNN Language_Model Recognition
2014-11-20 Thu. Learning a Recurrent Visual Representation for Image Caption Generation arXiv_CV arXiv_CV Image_Caption Image_Retrieval Caption Embedding
2014-06-14 Sat. Detection Bank: An Object Detection Based Video Representation for Multimedia Event Recognition arXiv_CV arXiv_CV Image_Caption Object_Detection Classification Detection Recognition
2012-01-31 Tue. Fast and Exact Top-k Search for Random Walk with Restart arXiv_CV arXiv_CV Image_Caption Sparse Caption Prediction Recommendation

Video_Caption

2019-05-30 Thu. AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures arXiv_CV arXiv_CV Image_Caption Video_Caption CNN
2019-05-25 Sat. Exploring Temporal Information for Improved Video Understanding arXiv_CV arXiv_CV Video_Caption Segmentation Face Action_Recognition Semantic_Segmentation Video_Classification Inference Classification Prediction Recognition
2019-05-21 Tue. Lightweight Network Architecture for Real-Time Action Recognition arXiv_AI arXiv_AI Video_Caption Action_Recognition Inference Recognition
2019-05-17 Fri. Neural Message Passing on Hybrid Spatio-Temporal Visual and Symbolic Graphs for Video Understanding arXiv_CV arXiv_CV Video_Caption Segmentation Classification Deep_Learning Detection Relation
2019-05-12 Sun. Video Instance Segmentation arXiv_CV arXiv_CV Video_Caption Segmentation Tracking Detection
2019-05-12 Sun. On Flow Profile Image for Video Representation arXiv_CV arXiv_CV Video_Caption Caption Optimization Video_Classification Classification Recognition
2019-05-10 Fri. Memory-Attended Recurrent Network for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption
2019-05-08 Wed. Multimodal Semantic Attention Network for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption RNN Classification
2019-05-06 Mon. Dynamic Graph Modules for Modeling Object-Object Interactions in Activity Recognition arXiv_CV arXiv_CV Video_Caption Attention Action_Recognition Relation Recognition
2019-05-03 Fri. Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption CNN Optimization RNN Relation
2019-04-28 Sun. Hierarchical Recurrent Neural Network for Video Summarization arXiv_CV arXiv_CV Video_Caption Summarization Caption RNN Classification
2019-04-25 Thu. Holistic Large Scale Video Understanding arXiv_CV arXiv_CV Video_Caption GAN Action_Recognition Recognition
2019-04-17 Wed. Long-Term Feature Banks for Detailed Video Understanding arXiv_CV arXiv_CV Video_Caption CNN
2019-04-11 Thu. Recurrent Space-time Graphs for Video Understanding arXiv_CV arXiv_CV Video_Caption
2019-04-11 Thu. Membership Inference Attacks on Sequence-to-Sequence Models arXiv_CL arXiv_CL Video_Caption Caption Inference
2019-04-08 Mon. Streamlined Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2019-04-06 Sat. VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research arXiv_CV arXiv_CV Video_Caption Caption
2019-04-04 Thu. An End-to-End Baseline for Video Captioning arXiv_AI arXiv_AI Video_Caption Attention Caption Action_Recognition CNN RNN Recognition
2019-04-04 Thu. Self-Supervised Spatiotemporal Feature Learning via Video Rotation Prediction arXiv_CV arXiv_CV Video_Caption Action_Recognition Prediction Recognition
2019-04-03 Wed. VideoBERT: A Joint Model for Video and Language Representation Learning arXiv_CV arXiv_CV Video_Caption Speech_Recognition Caption Represenation_Learning Classification Language_Model Quantitative Recognition
2019-04-01 Mon. Constructing Hierarchical Q&A Datasets for Video Story Understanding arXiv_AI arXiv_AI Video_Caption Knowledge
2019-03-28 Thu. TSM: Temporal Shift Module for Efficient Video Understanding arXiv_CV arXiv_CV Video_Caption Relation Recognition
2019-03-04 Mon. M-VAD Names: a Dataset for Video Captioning with Naming arXiv_CV arXiv_CV Video_Caption Caption
2019-02-27 Wed. Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning arXiv_CV arXiv_CV Video_Caption Object_Detection Caption CNN RNN Language_Model Detection
2019-01-26 Sat. 4D Generic Video Object Proposals arXiv_CV arXiv_CV Video_Caption Segmentation
2019-01-11 Fri. DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition arXiv_CV arXiv_CV Adversarial Video_Caption Action_Recognition Inference Classification Recognition
2019-01-04 Fri. Amortized Context Vector Inference for Sequence-to-Sequence Networks arXiv_CV arXiv_CV Video_Caption Attention Summarization Caption Inference
2019-01-01 Tue. End-to-End Video Captioning with Multitask Reinforcement Learning arXiv_CV arXiv_CV Video_Caption Knowledge Reinforcement_Learning Caption CNN RNN
2019-01-01 Tue. Not All Words are Equal: Video-specific Information Loss for Video Captioning arXiv_CV arXiv_CV Salient Video_Caption Attention Caption Relation Recognition
2018-12-26 Wed. Hierarchical LSTMs with Adaptive Attention for Visual Captioning arXiv_CV arXiv_CV Image_Caption Video_Caption Attention Caption RNN Language_Model
2018-12-25 Tue. Joint Event Detection and Description in Continuous Video Streams arXiv_CV arXiv_CV Video_Caption Caption CNN Detection Relation
2018-12-13 Thu. Adversarial Inference for Multi-Sentence Video Description arXiv_CV arXiv_CV Image_Caption Adversarial Video_Caption GAN Caption Inference
2018-12-07 Fri. An Attempt towards Interpretable Audio-Visual Video Captioning arXiv_CV arXiv_CV Video_Caption Caption CNN
2018-11-27 Tue. Integrated Object Detection and Tracking with Tracklet-Conditioned Detection arXiv_CV arXiv_CV Video_Caption Object_Detection Tracking Detection
2018-11-23 Fri. Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning arXiv_CV arXiv_CV Video_Caption Knowledge Caption Embedding
2018-10-28 Sun. Middle-Out Decoding arXiv_CV arXiv_CV Video_Caption Attention Caption
2018-10-22 Mon. Image-to-Video Person Re-Identification by Reusing Cross-modal Embeddings arXiv_CV arXiv_CV Image_Caption Re-identification Video_Caption Person_Re-identification Caption Embedding RNN
2018-10-16 Tue. Cross-Modal and Hierarchical Modeling of Video and Text arXiv_CV arXiv_CV Video_Caption Caption Action_Recognition Embedding Recognition
2018-09-27 Thu. Vector Learning for Cross Domain Representations arXiv_CV arXiv_CV Image_Caption Adversarial Video_Caption GAN Caption
2018-09-19 Wed. MTLE: A Multitask Learning Encoder of Visual Feature Representations for Video and Movie Description arXiv_CV arXiv_CV Video_Caption Knowledge Caption RNN
2018-09-04 Tue. Hierarchical Video Understanding arXiv_CV arXiv_CV Video_Caption Caption
2018-08-16 Thu. NMT-Keras: a Very Flexible Toolkit with a Focus on Interactive NMT and Online Learning arXiv_CV arXiv_CV Video_Caption Caption NMT Classification Deep_Learning VQA
2018-07-26 Thu. Move Forward and Tell: A Progressive Generator of Video Descriptions arXiv_CV arXiv_CV Video_Caption Caption Embedding
2018-07-14 Sat. Predicting Visual Features from Text for Image and Video Caption Retrieval arXiv_CV arXiv_CV Video_Caption Caption Embedding CNN
2018-07-08 Sun. Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction arXiv_CV arXiv_CV Video_Caption Attention Caption RNN Language_Model Prediction
2018-06-25 Mon. Best Vision Technologies Submission to ActivityNet Challenge 2018-Task: Dense-Captioning Events in Videos arXiv_CV arXiv_CV Video_Caption Attention Caption Inference RNN
2018-06-22 Fri. RUC+CMU: System Report for Dense Captioning Events in Videos arXiv_CV arXiv_CV Video_Caption Caption
2018-05-07 Mon. ECO: Efficient Convolutional Network for Online Video Understanding arXiv_CV arXiv_CV Video_Caption Caption CNN Classification Relation
2018-04-30 Mon. Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos arXiv_CV arXiv_CV Video_Caption Caption Video_Classification Classification
2018-04-23 Mon. Jointly Localizing and Describing Events for Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Caption Optimization Detection
2018-04-15 Sun. Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption
2018-04-03 Tue. Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Caption Prediction
2018-04-03 Tue. End-to-End Dense Video Captioning with Masked Transformer arXiv_CV arXiv_CV Video_Caption Attention Caption
2018-03-30 Fri. Reconstruction Network for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption
2018-03-29 Thu. Video Captioning via Hierarchical Reinforcement Learning arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2018-03-20 Tue. Attend and Interact: Higher-Order Object Interactions for Video Understanding arXiv_CV arXiv_CV Video_Caption Knowledge Caption Action_Recognition Detection Relation Recognition
2018-03-08 Thu. Excitation Backprop for RNNs arXiv_CV arXiv_CV Salient Video_Caption Caption Action_Recognition RNN Classification Prediction Recognition
2018-03-05 Mon. Less Is More: Picking Informative Frames for Video Captioning arXiv_CV arXiv_CV Salient Video_Caption Attention Caption
2017-12-27 Wed. Consensus-based Sequence Training for Video Captioning arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2017-12-15 Fri. Kill Two Birds With One Stone: Boosting Both Object Detection Accuracy and Speed With adaptive Patch-of-Interest Composition arXiv_CV arXiv_CV Video_Caption Object_Detection Detection
2017-12-09 Sat. Integrating both Visual and Audio Cues for Enhanced Video Caption arXiv_CV arXiv_CV Video_Caption Caption Inference
2017-11-21 Tue. Towards Automatic Learning of Procedures from Web Instructional Videos arXiv_CV arXiv_CV Video_Caption Segmentation Caption
2017-11-17 Fri. Adaptive Feature Abstraction for Translating Video to Text arXiv_CV arXiv_CV Video_Caption Attention Caption CNN Quantitative
2017-11-16 Thu. Grounded Objects and Interactions for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption
2017-10-29 Sun. Evaluation of Automatic Video Captioning Using Direct Assessment arXiv_CV arXiv_CV Video_Caption Caption
2017-10-20 Fri. From Deterministic to Generative: Multi-Modal Stochastic RNNs for Video Captioning arXiv_CV arXiv_CV Video_Caption Caption RNN
2017-09-04 Mon. Generating Video Descriptions with Topic Guidance arXiv_CV arXiv_CV Image_Caption Video_Caption Caption Prediction
2017-09-02 Sat. Video Captioning with Guidance of Multimodal Latent Topics arXiv_CV arXiv_CV Video_Caption Caption Prediction
2017-08-08 Tue. Multi-Task Video Captioning with Video and Entailment Generation arXiv_CV arXiv_CV Video_Caption Knowledge Caption Prediction
2017-08-07 Mon. Reinforced Video Captioning with Entailment Rewards arXiv_CV arXiv_CV Video_Caption Reinforcement_Learning Caption
2017-07-19 Wed. Supervising Neural Attention Models for Video Captioning by Human Gaze Data arXiv_CV arXiv_CV Video_Caption Attention Tracking Caption Prediction
2017-06-16 Fri. VideoMCC: a New Benchmark for Video Comprehension arXiv_CV arXiv_CV Video_Caption GAN Caption Quantitative
2017-06-05 Mon. Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption RNN Language_Model
2017-04-14 Fri. Temporal Tessellation: A Unified Approach for Video Analysis arXiv_CV arXiv_CV Video_Caption Summarization Caption Prediction Detection
2017-04-12 Wed. Top-down Visual Saliency Guided by Captions arXiv_CV arXiv_CV Salient Video_Caption Attention Caption Classification
2017-04-10 Mon. Hierarchical Boundary-Aware Neural Encoder for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption RNN
2017-04-05 Wed. Weakly Supervised Dense Video Captioning arXiv_CV arXiv_CV Video_Caption Weakly_Supervised Caption CNN Language_Model
2017-03-30 Thu. Improving Interpretability of Deep Neural Networks with Semantic Information arXiv_CV arXiv_CV Video_Caption Caption Action_Recognition Prediction Recognition
2017-03-23 Thu. Recurrent Memory Addressing for describing videos arXiv_CV arXiv_CV Video_Caption Attention Caption Embedding Memory_Networks
2016-12-19 Mon. Leveraging Video Descriptions to Learn Video Question Answering arXiv_CV arXiv_CV Video_Caption QA VQA
2016-12-01 Thu. Video Captioning with Multi-Faceted Attention arXiv_CV arXiv_CV Salient Video_Caption Attention Face Caption RNN
2016-11-28 Mon. Bidirectional Multirate Reconstruction for Temporal Modeling in Videos arXiv_CV arXiv_CV Video_Caption Caption Detection
2016-11-23 Wed. Video Captioning with Transferred Semantic Attributes arXiv_CV arXiv_CV Video_Caption Caption CNN RNN
2016-11-17 Thu. Multimodal Memory Modelling for Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption CNN RNN Deep_Learning
2016-10-18 Tue. Spatio-Temporal Attention Models for Grounded Video Captioning arXiv_CV arXiv_CV Video_Caption Attention Caption Image_Classification Classification Recognition
2016-09-22 Thu. Deep Learning for Video Classification and Captioning arXiv_CV arXiv_CV Review Video_Caption Caption Video_Classification Classification Deep_Learning
2016-09-14 Wed. Oracle performance for visual captioning arXiv_CV arXiv_CV Video_Caption Attention Caption Language_Model
2016-09-08 Thu. Title Generation for User Generated Videos arXiv_CV arXiv_CV Salient Video_Caption Object_Detection Attention Caption Prediction Detection
2016-08-17 Wed. Frame- and Segment-Level Features and Candidate Pool Evaluation for Video Caption Generation arXiv_CV arXiv_CV Video_Caption Caption
2016-06-15 Wed. Bidirectional Long-Short Term Memory for Video Description arXiv_CV arXiv_CV Video_Caption Sparse Knowledge Attention Caption CNN RNN Language_Model
2016-06-02 Thu. Storytelling of Photo Stream with Bidirectional Multi-thread Recurrent Neural Network arXiv_CV arXiv_CV Video_Caption Caption RNN
2016-05-18 Wed. Beyond Caption To Narrative: Video Captioning With Multiple Sentences arXiv_CV arXiv_CV Image_Caption Video_Caption Caption
2016-04-27 Wed. Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data arXiv_CV arXiv_CV Image_Caption Video_Caption Knowledge Caption Recognition
2016-04-06 Wed. Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks arXiv_CV arXiv_CV Video_Caption Attention Caption Embedding RNN
2016-03-01 Tue. Delving Deeper into Convolutional Networks for Learning Video Representations arXiv_CV arXiv_CV Video_Caption Sparse Caption Action_Recognition CNN Recognition
2015-12-16 Wed. A Restricted Visual Turing Test for Deep Scene and Event Understanding arXiv_CV arXiv_CV Video_Caption Knowledge Face Ontology Caption Inference VQA
2015-12-09 Wed. Video captioning with recurrent networks based on frame- and video-level features and visual content classification arXiv_CV arXiv_CV Image_Caption Video_Caption Caption RNN Classification Language_Model
2015-11-11 Wed. Hierarchical Recurrent Neural Encoder for Video Representation with Application to Captioning arXiv_CV arXiv_CV Video_Caption Caption CNN Image_Classification Inference Classification Deep_Learning
2015-10-19 Mon. Sequence to Sequence -- Video to Text arXiv_CV arXiv_CV Image_Caption Video_Caption Caption RNN Language_Model

Content

Caption (587)
Image_Caption (444)
Video_Caption (99)