7月28日,阿里巴巴的“NASA大脑”iDST(Institute of Data Science Technology)表示,《Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding》入选2017年国际计算机视觉大会ICCV,即计算机视觉领域的顶级会议之一。

这也是阿里巴巴本月内第三次公布论文入选国际顶级学术会议的好消息。

据了解,这篇论文涉及的是计算机视觉(Vision)和自然语言处理(Language)两个独立领域结合的学术研究,提出了对图像(或图像显著区域)更为细致精确的描述,显示出阿里巴巴在Vision

该论文通过创新的多模态、层次化的递归神经网络(Hierarchical Multimodal LSTM)方法,可以将整个句子、句子中的短语、整幅图像及图像中的显著区域同时嵌入语义空间,并且自动学习出“句子-图像”及“短语-图像区域”间的对应关系,生成包含更多形容词的稠密语义空间,对图像或图像区域进行更详细和生动的描述。

阿里巴巴论文入选计算机视觉顶级会议

也就是说,计算机以后不仅能说“一只鸟站在树枝上”,还能说出“一只羽翼未丰的小鸟站在春天抽芽的树枝上”、“一只张嘴乞食的小鸟”、“一只小鸟站在抽芽的树枝上,扑腾翅膀学习飞翔”这样更为生动复杂的句子。

阿里巴巴论文入选计算机视觉顶级会议1

论文作者介绍,这一研究将被用于“看图说话(Image Captioning)”任务及其他颇有意义的应用场景。如应用于自动导盲系统,将拍摄的图像转换成文字和语音,以便提示盲人避障。

此外,还能用于“跨模态检索(Cross-media Retrieval)”任务,当用户在电商搜索引擎中输入一段描述性文字如“夏季宽松波西米亚大摆沙滩裙”,系统就能为用户提供最相关的商品。

ICCV全称为IEEE International Conference on Computer Vision,与CVPR(计算机视觉模式识别会议)和ECCV(欧洲计算机视觉会议)并称计算机视觉方向的三大顶级会议。

在本月早些时候,阿里巴巴先后发布三篇论文入选国际多媒体会议ACM MM,四篇论文入选国际计算机视觉与模式识别会议CVPR的消息。

今年3月,阿里巴巴宣布启动NASA计划,要为未来20年研发核心科技。在这一计划的号召下,阿里正在人工智能领域全面发力,在机器学习、视觉识别等领域不断追赶世界顶尖的学术水平。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-07-26 10:28:08
云资讯 阿里巴巴张勇发布股东信:明确消费、云计算和全球化三大战略
过去一个财年,阿里云计算业务继续在中国市场保持领先地位,并实现了阿里云创立 13 年来的首次全年盈利。 <详情>
2020-06-29 16:46:35
国内资讯 IDC:未来5年AI复合增长达39.0%,计算机视觉占比过半
近日,国际调研机构IDC发布最新《中国人工智能软件及应用市场半年度研究报告(2019H2)》报告。报告显示,到2024年,中国人工智能市场规模将达到127.5亿美金,2018-2024年复 <详情>
2018-01-24 16:37:33
云资讯 计算机视觉Pass云平台极视角完成数千万A+轮融资
近日,深圳一家计算机视觉与云端服务提供商极视角完成了由华润创新股权投资基金领投,中洲金控和朴素资本跟投的A+轮数千万人民币融资。 <详情>
2017-09-29 10:03:00
云资讯 谷歌云发布自然语言处理新功能:自动分类内容、解析情绪
谷歌于去年推出了云自然语言(Cloud Natural Language)API接口,让开发人员将谷歌的自然语言处理技术整合到自己的应用中。近日,谷歌发布了两款全新的云自然语言功能,旨 <详情>