基于深度生成建模的数字墨水可编辑化研究(DeepWriting: Making Digital Ink Editable via Deep Generative Modeling)

数字墨水有望结合手写的灵活性和美感,并且可以处理、搜索和编辑数字文本。在已有的工作中,字符识别将手写文本转换为数字表示,这将会损失个性化特征。同样的文字在不同人的笔触下会产生不同的结果,这些结果蕴含了用户的书写风格。此工作提出了一种新的神经网络架构,将内容和风格进行分离。从而使得书写结果可以在机器上得到编辑:包括改变书写风格或者内容。

对一个手工书写可以分解为两部分,内容和风格。如上图所示,手工书写表示成为x,可以分解成为风格z和内容π,如果可以对其进行划分,就可以将一个书写的风格和另一个书写的内容相结合构成新的书写。这样就达到的可编辑的目的。

但如何对风格进行定义在此是一个粗糙的概念。需要更细致地对书写进行划分,如下图所示:这是一个书写,书写的过程可以看成是笔画构成,笔画可以看成是断续的时序序列,其中序列中的每个节点是二维坐标。这些点之间联成一个书写。但这还不足够,一个书写具有多个层次如词语、和字母,词语之间有较长的留白而字母之间有间断。因此加入标签来表示词语的开始(begin of word, bow)和字母的结束(end of character, eoc)。除此之外,还有一个标签用以表示当前的点所在的字母的真实内容,如在下图中所有的“e”上的点的标签都是“e”。由此我们得到一个时序数列。

本文提供了一中方法对风格和内容进行分离。首先总体架构是一个循环神经网络架构。循环神经有助于处理时序序列。在本任务中下一时间节点的坐标正是由上一时间节点及之前的时间节点组成。

本文的关键在于,将风格和内容的分离。风格随着时间的变化,在不同的时间节点之间的变化巨大,它是和时间相关的。而内容是相对与时间无关的,内容针对数量较少的字母表。这些字母在空间上的分布可以看成是高斯分布。每个字母在分布中都是一个各项同性的二维高斯表达。如下图所示。

除了这些高斯分布之外,将风格也隐式表达。每次更新隐层内容,都是由本节点的输入和对应的风格及字母的高斯分布组成。但隐层结果在使用过程中仅仅更新风格值。获取的输出是下一时间节点的坐标。除此之外,本模型在输入中引入了循环神经网络单元,这在输入层次提高了其对时间的编码能力。

这项工作通过几种方式验证有效性:

  • 通过将内容和风格进行组合,生成该内容在相应风格下的书写。
  • 通过将两个书写综合,取其中一个书写的内容,另一个书写的风格组合生成新的书写。
  • 通过对一个书写的内容进行识别后修改,然后再生成修改后的内容在相应风格下的书写,这其实是上述两者的综合。

这项研究在这几个方面验证了有效性。其对风格转移的探索具有借鉴意义,对机器学习内部的模型有一定的改进及解释。

参考文献:

[1] Aksan, Emre, Fabrizio Pece, and Otmar Hilliges. “DeepWriting: Making Digital Ink Editable via Deep Generative Modeling.” Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems. ACM, 2018.

 

 

 

评论关闭。