首页 > 文库 > Google 研究员推出处理文本图像新框架 TReCS
Google 研究员推出处理文本图像新框架 TReCS
作者:csdn  2021-01-30 10:25:56  共1553人围观
  • https://arxiv.org/pdf/2011.03775.pdf

为创建一种能够在任何语言之间进行翻译的通用神经机器翻译系统,Google 研究人员研发了一种新框架,即 TReCS(Tag-Retrieve-Compose Synthesize system)。通过改进图像元素的唤起方式以及迹线如何通知其位置,从而显着增强图像生成过程。该系统接受了超过 250 亿个示例的培训,具有处理 103 种语言的潜力。其功能使鼠标轨迹与文本描述对齐,并为提供的短语创建可视标签。

image.png

https://arxiv.org/pdf/2011.03775.pdf

该框架利用可控的鼠标轨迹作为细粒度的视觉基础,根据用户的叙述生成高质量图像。标记器被用来预测短语中每个单词的对象标签。

文本到图像的双重编码器使用语义相关的掩码检索图像。对于每个迹线序列,选择一个遮罩以最大化空间重叠,从而克服了真实的文本到对象信息和更好的地面描述。

选定的蒙版根据跟踪顺序组成,并为背景和前景对象使用单独的画布。将前景蒙版放置在背景蒙版上以创建完整的场景分割。

最后,通过将整个分割输入到蒙版到图像的转换模型中来合成逼真的图像。


文章列表

关于We AI school


We AI school 中国人工智能学校,是一个人工智能/AI学习分享网站,平台收录了人工智能领域的新闻资讯,以及技术文章分享给大家,让更多的人了解人工智能行业。
联系方式:13817964035(微信同号)合作邮箱:171920374@qq.com
地址:中国上海市青浦区徐泾东盈港东路1529弄18号

微信公众号

扫码关注
©2021 思南领氪网络工作室 黔ICP备2021000736号