简历信息提取论文笔记Information Extraction from Resume Documents in PDF Format

德彪稳坐倒骑驴

2024-05-08 帮助1人

标题：Information Extraction from Resume Documents in PDF Format

下载地址：https://library.imaging.org/ei/articles/28/17/art00013

长度：8页

发表时间：2016

引用量cite=27

（1）文章的实现流程及实现难度

从谷歌搜索上收集PDF格式的简历，把非英文的简历剔除、把无法恰当解析的简历剔除discard,最终有400份有效的简历。每一份简历都将被手动标注，标注的东西包括tokens和blocks。其中3/4的是训练集，1/4的是测试集。采用四折交叉验证Four-fold cross-validation。

Step1 PreProcessing预处理

这一步其实就是分词segmentation。分词以前，每个英文单词叫做character。分词以后，一个词或几个词组成的一个语义块，被称为token。下面这个分词的过程，就是在merge characters into tokens的过程。

先把简历文件resume document中的每个文字字符解析parses出来放到一个文字列表character list中。然后，我们从左到右遍历每一个字符，按照下面这两个准则进行分词。

-1- 如果连续的两段字符successive characters之间的具备以下几个特性，我们将把他们拆开split。（1）字号不同或者字体不同font style（2）两个字符character之间的空gap大于某个阈值fixed threshhold

-2- 如果遍历的当前字符是一个标点符号punctuations（比如双引号，括号，冒号，逗号），那么就把这个标点和这个标点以前的字符,标点之后的字符拆开separate。但是注意，下面这两个情况不做分词，不切开（1）如果这个标点是破折号，就不要做拆分（2）如果current character是一个period(英文句号那个小点)，比如 Ph.D., Dr., Prof.，这些都不要拆开。

针对文章的layout布局排版信息也进行记录：像字体名字font name、字号大小font size、方框bounding box

这一步预处理以后,为了避免打错标签mis-tagging，我们会使用heuristic rules去merge合并tokens或者split拆分tokens

Step2 Block Segmenting and Classifying

2.1 Segmenting

我猜测这一步就是把上一步的切好的语义块token，再次进行合并，组成一个个block。这一步其实就是特征工程，这一步，分好block，为后面的信息提取information extraction步骤提供尽可能好的特征

根据前面定义好的简历hierarchical logical structure层次逻辑结构（什么叫hierarchical层次的？），整个文件document会被分割成一个个blocks。分割好的这一个个block对都应逻辑结构logic structure的一个高层次块high-level block.（也没看懂，具体是怎么做的）

使用的方法是递归自下而上算法recursively bottom-up algorithm.以把行与行之间空当大小作为标准，对他们进行排序。小的block被merge进更大的block里面。（没懂什么意思）

一些基于文件布局排版document layout segmentation的信息会被用来阻止prevent错误分割mis-segmenting和分割的过多over-segmenting了.layout information包括 font size, font style, blank space,alignment。举个例子说明，比如说有简历中有一段text是被加粗的，那么这段被加粗的字可能是这个block的title。那么这个title就不应该和之间的preceding block进行合并，而是应该单独拿出来。

这里注意一个block里面应该有多少个词组成，这个词数block size是一个超参数。后面我们会做实验展示这个把这个超参数调小或者调大，最终performance score是多少，从而带着你找到一个最优的block size的数字。

2.2 Block classification using a SVM model

用SVM判断每个block是属于什么pre-defined category的，多分类任务。训练分类任务用的dataset是label过的。工具用的是libSVM。

2.3 Feature Extraction

根据启发式规则heuristic rules（什么是启发式规则？）来把一页纸的内容分割成多个blocks（什么启发式算法你讲出来）。分割是根据内容content和排版布局layout来划分

捕捉两种特征，content-based features， layout-based features

Block keywords:一个block是否包含下列关键词，教育、荣誉称号、联系方式、出版论文，等等。通过这些单词，可以很容易的把这个block进行分类。

Special patterns：一个block是否包含类似下面写格式的东西，比如e-mail,住址，网站域名。我们可以用正则表达式和一些预先定义好的字典（key和value的一个一个地对应格式）来识别这些特定格式。

在一个block中，字号最大那些单词：这些往往是这个section的topic

block中第一行的单词

Geometrical information:block的维度，相对位置，areas of the blocks（每个blocks的面积？）

Step3 Detailed Information Extraction

我们将detailed information extraction这个问题，转化成了打一系列标签的问题。打标签的分类方法使用的是条件随机场，实际执行用的这个工具, CRFsuite。（条件随机场确实有点复杂，不太懂）

只有教育背景和个人信息这两个block被单独挑出来用打标签的方式进行信息提取。其他的block都是用其他方法进行信息抽取。

CRF使用的特征有下面两类（1）Content-based features （2）layout-based features ，这两类特征都是从每个 token中把信息抽取出来的。content-based features表示tokens的语言学信息和语法信息。layout features是PDF文件的structure和format信息。

Content Based Features	Orthographic Case拼写是否正确：每个句子开头是否大写，mixed with uppercases and lower cases大小写混用？（啥意思？），all cases are uppercases（什么case？）。单独大写字母？（single uppercaseletter)）（什么意思？）
	Punctuation：（1） quote, dash, comma逗号,semicolon分号, period句号（拿这些标点做为特征是吧，依据这些特征对于block进行tagging，最终把信息抽取来。tag的个数和名字是事先定义好的对吧？）（2）一个token带着一个punctuation，比如一个带着句号的单词，数字带着一个井号标签比如#1
	Number：年份1900-2100; 4digit, 3digit, 2digit, 1digit,4 digits tocke包括只有digits位数，和位数的长度不超过四个（啥意思？），hasDigit（有没有数字？是这个意思吗？(the token contains digits and othersymbols)），noDigit(是否没有数字)
	Dictionary。单词是否在 pre-defined keywords dictionaries。这个词典里有你是否隶属于某学校、某企业的信息，以及地址信息
	Domain Specific（领域特定语言，术语）下面有个表格单独将这个包括什么。
	conjunction连接词 & preposition介词
	Special Item特殊项目。是否是E-mail格式和URL地址，用正则表达式判断
Layout Based Features	Leftmost Token：是否这个token是在一行的最左边
	Long Gap 这个token和前面的token是之间的距离大小是否超过某个预先设定好的阈值，大于这个阈值是1，小于就是0
	Font size：先计算出整个document的字体大小作为main font，如果说一个token的字体大小大于 main font，那么这个token的 font这个feature就被命名为Bigger,等于就Normal，小于就Smaller
	Font Format 字体格式： bold加粗, italic斜体
	Vertical Alignment纵向对齐方式，比如几个tab,是否这个token和其他token纵向对齐。
	Horizontal Alignment横向对齐方式：是否和其他token横向上是对齐的（举个例子解释一下，我不懂）
	Single line：current token是否和之前的preceding token在相同的一行，但是单独一行？
	Format Change:现在的这个token是否和之前的token使用的相同的font format(字体名字，font style,字号)

Domain Specific里面包括的词语

Domain	Definition
Name list	性和名
University list	大学的名字
University list	A list of US Zip Codes, State, City andCounty
Degree list	博士、硕士、本科
Month list	一年12个月的名字和缩写

Step4 Post Processing

好像没怎么讲这一步

第一层： high-level blocks.

第二层：低层块的相关细节信息relevant detailed information in low-level blocks

Evaluation Measures

Precision,Recall F1-score

整个模型的效果：the average F1-score of the hierarchical extraction model = 72.78%, which is 25 percent higher thanthe flat model

layout-based features这一特征，使得平均F1 score提高了22%。

（3）读完本文的疑问

a hierarchical extraction method，分层如何体现？什么叫分层模型？

hierarchical logical structure这是什么？层次逻辑结构？

本文的最后是不是就是拿到这些表格里，这些维度的信息是标签里哪一个,然后就结束了。可是拿到这些信息又有什么用呢？比如字体是否加粗了，又比如是不是横向对齐、纵向对齐的，又比如使用了什么连词介词。

Step3 将information extraction的转化成labeling，最终打的是什么标签呢？这是教育背景，这是冗余奖项这样的类别标签，还是这个人在这个层面是否优秀的标签呢？

文中多次提到heuristic rule,这个启发式算法体现在什么地方？

这篇好文章是转载于：学新通技术网

简历信息提取论文笔记Information Extraction from Resume Documents in PDF Format

（1）文章的实现流程及实现难度

Step1 PreProcessing预处理

Step2 Block Segmenting and Classifying

2.1 Segmenting

2.2 Block classification using a SVM model

2.3 Feature Extraction

Step3 Detailed Information Extraction

Step4 Post Processing

Evaluation Measures

（3）读完本文的疑问

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

Android 11 保存文件到外部存储，并分享文件

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开