• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

简历信息提取论文笔记Information Extraction from Resume Documents in PDF Format

武飞扬头像
德彪稳坐倒骑驴
帮助1

标题:Information Extraction from Resume Documents in PDF Format

下载地址:https://library.imaging.org/ei/articles/28/17/art00013

长度:8页

发表时间:2016

引用量cite=27

(1)文章的实现流程及实现难度

学新通

从谷歌搜索上收集PDF格式的简历,把非英文的简历剔除、把无法恰当解析的简历剔除discard,最终有400份有效的简历。每一份简历都将被手动标注,标注的东西包括tokens和blocks。其中3/4的是训练集,1/4的是测试集。采用四折交叉验证Four-fold cross-validation。

Step1 PreProcessing预处理

这一步其实就是分词segmentation。分词以前,每个英文单词叫做character。分词以后,一个词或几个词组成的一个语义块,被称为token。下面这个分词的过程,就是在merge characters into tokens的过程。

先把简历文件resume document中的每个文字字符解析parses出来放到一个文字列表character list中。然后,我们从左到右遍历每一个字符,按照下面这两个准则进行分词。

-1- 如果连续的两段字符successive characters之间的具备以下几个特性,我们将把他们拆开split。(1)字号不同或者字体不同font style(2)两个字符character之间的空gap大于某个阈值fixed threshhold

-2- 如果遍历的当前字符是一个标点符号punctuations(比如双引号,括号,冒号,逗号),那么就把这个标点和这个标点以前的字符,标点之后的字符拆开separate。但是注意,下面这两个情况不做分词,不切开(1)如果这个标点是破折号,就不要做拆分(2)如果current character是一个period(英文句号那个小点),比如 Ph.D., Dr., Prof.,这些都不要拆开。

针对文章的layout布局排版信息也进行记录:像字体名字font name、字号大小font size、方框bounding box

这一步预处理以后,为了避免打错标签mis-tagging,我们会使用heuristic rules去merge合并tokens或者split拆分tokens

Step2 Block Segmenting and Classifying

2.1 Segmenting

我猜测这一步就是把上一步的切好的语义块token,再次进行合并,组成一个个block。这一步其实就是特征工程,这一步,分好block,为后面的信息提取information extraction步骤提供尽可能好的特征

根据前面定义好的简历hierarchical logical structure层次逻辑结构(什么叫hierarchical层次的?),整个文件document会被分割成一个个blocks。分割好的这一个个block对都应逻辑结构logic structure的一个高层次块high-level block.(也没看懂,具体是怎么做的)

使用的方法是递归自下而上算法recursively bottom-up algorithm.以把行与行之间空当大小作为标准,对他们进行排序。小的block被merge进更大的block里面。(没懂什么意思

一些基于文件布局排版document layout segmentation的信息会被用来阻止prevent错误分割mis-segmenting和分割的过多over-segmenting了.layout information包括 font size, font style, blank space,alignment。举个例子说明,比如说有简历中有一段text是被加粗的,那么这段被加粗的字可能是这个block的title。那么这个title就不应该和之间的preceding block进行合并,而是应该单独拿出来。

这里注意一个block里面应该有多少个词组成,这个词数block size是一个超参数。后面我们会做实验展示这个把这个超参数调小或者调大,最终performance score是多少,从而带着你找到一个最优的block size的数字。

2.2 Block classification using a SVM model

用SVM判断每个block是属于什么pre-defined category的,多分类任务。训练分类任务用的dataset是label过的。工具用的是libSVM。

2.3 Feature Extraction

根据启发式规则heuristic rules(什么是启发式规则?)来把一页纸的内容分割成多个blocks(什么启发式算法你讲出来)。分割是根据内容content和排版布局layout来划分

捕捉两种特征,content-based features, layout-based features

Block keywords:一个block是否包含下列关键词,教育、荣誉称号、联系方式、出版论文,等等。通过这些单词,可以很容易的把这个block进行分类。

Special patterns:一个block是否包含类似下面写格式的东西,比如e-mail,住址,网站域名。我们可以用正则表达式和一些预先定义好的字典(key和value的一个一个地对应格式)来识别这些特定格式。

在一个block中,字号最大那些单词:这些往往是这个section的topic

block中第一行的单词

Geometrical information:block的维度,相对位置,areas of the blocks(每个blocks的面积?

Step3 Detailed Information Extraction

我们将detailed information extraction这个问题,转化成了打一系列标签的问题。打标签的分类方法使用的是条件随机场,实际执行用的这个工具, CRFsuite。(条件随机场确实有点复杂,不太懂

只有教育背景和个人信息这两个block被单独挑出来用打标签的方式进行信息提取。其他的block都是用其他方法进行信息抽取。

CRF使用的特征有下面两类(1)Content-based features (2)layout-based features ,这两类特征都是从每个 token中把信息抽取出来的。content-based features表示tokens的语言学信息和语法信息。layout features是PDF文件的structure和format信息。

Content

Based Features

Orthographic Case拼写是否正确:每个句子开头是否大写,mixed with uppercases and lower cases大小写混用?(啥意思?),all cases are uppercases(什么case?)。单独大写字母?(single uppercaseletter))(什么意思?

Punctuation:(1) quote, dash, comma逗号,semicolon分号, period句号(拿这些标点做为特征是吧,依据这些特征对于block进行tagging,最终把信息抽取来。tag的个数和名字是事先定义好的对吧?)(2)一个token带着一个punctuation,比如一个带着句号的单词,数字带着一个井号标签 比如#1

Number:年份1900-2100; 4digit, 3digit, 2digit, 1digit,4 digits tocke包括只有digits位数,和位数的长度不超过四个(啥意思?),hasDigit(有没有数字?是这个意思吗?(the token contains digits and othersymbols)),noDigit(是否没有数字)

Dictionary。单词是否在 pre-defined keywords dictionaries。这个词典里有你是否隶属于某学校、某企业的信息,以及地址信息

Domain Specific(领域特定语言,术语)下面有个表格单独将这个包括什么。

conjunction连接词 & preposition介词

Special Item特殊项目。是否是E-mail格式和URL地址,用正则表达式判断

Layout

Based

Features

Leftmost Token:是否这个token是在一行的最左边

Long Gap 这个token和前面的token是之间的距离大小是否超过某个预先设定好的阈值,大于这个阈值是1,小于就是0

Font size:先计算出整个document的字体大小作为main font,如果说一个token的字体大小大于 main font,那么这个token的 font这个feature就被命名为Bigger,等于就Normal,小于就Smaller

Font Format 字体格式: bold加粗, italic斜体

Vertical Alignment纵向对齐方式,比如几个tab,是否这个token和其他token纵向对齐。

Horizontal Alignment横向对齐方式:是否和其他token横向上是对齐的(举个例子解释一下,我不懂

Single line:current token是否和之前的preceding token在相同的一行,但是单独一行?

Format Change:现在的这个token是否和之前的token使用的相同的font format(字体名字,font style,字号)

Domain Specific里面包括的词语

Domain

Definition

Name list

性和名

University list

大学的名字

University list

A list of US Zip Codes, State, City andCounty

Degree list

博士、硕士、本科

Month list

一年12个月的名字和缩写

Step4 Post Processing

好像没怎么讲这一步

第一层: high-level blocks.

第二层:低层块的相关细节信息relevant detailed information in low-level blocks

Evaluation Measures

Precision,Recall F1-score

整个模型的效果:the average F1-score of the hierarchical extraction model = 72.78%, which is 25 percent higher thanthe flat model

layout-based features这一特征,使得平均F1 score提高了22%。

(3)读完本文的疑问

a hierarchical extraction method,分层如何体现?什么叫分层模型?

hierarchical logical structure这是什么?层次逻辑结构?

本文的最后是不是就是拿到这些表格里,这些维度的信息是标签里哪一个,然后就结束了。可是拿到这些信息又有什么用呢?比如字体是否加粗了,又比如是不是横向对齐、纵向对齐的,又比如使用了什么连词介词。

Step3 将information extraction的转化成labeling,最终打的是什么标签呢?这是教育背景,这是冗余奖项这样的类别标签,还是这个人在这个层面是否优秀的标签呢?

文中多次提到heuristic rule,这个启发式算法体现在什么地方?

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgkjhac
系列文章
更多 icon
同类精品
更多 icon
继续加载