Notice
Recent Posts
Recent Comments
Link
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Archives
Today
Total
관리 메뉴

CODENAVY

NLP Subtask 알아보기 (1) - Named Entity Recognition (NER) 본문

NLP

NLP Subtask 알아보기 (1) - Named Entity Recognition (NER)

codenavy 2022. 2. 21. 10:53

1. 문제 정의: task가 해결하고자 하는 문제는?

 

개체명 인식(Named Entity Recognition)은 문서 내에서 사람 이름, 장소명, 기관명, 날짜 등 특정한 의미를 지니는 단어 또는 어구를 개체(entity)로 인식하고, 이러한 개체들의 의미적 범주를 분류하는 것을 목표로 한다. 전형적으로 BIO notation이 사용되는데, 하나의 개체가 두 개 이상의 토큰으로 이루어져 있다고 했을 때, 시작하는 토큰을 B로, 이어지는 토큰을 I로, 그리고 엔티티가 아닌 토큰을 O로 표기하는 것이다. 개체가 한 개의 토큰으로 이루어져 있을 경우, 해당 토큰은 B로 표기한다.

 

Mark   Watney  visited  Mars

B-PER   I-PER       O    B-LOC

 

위 예시 문장에서와 같이, Mark Watney는 사람 이름(PER)이라는 범주로 분류하고, Mars는 장소명(LOC), visited는 동사이므로 엔티티가 아님을 나타내는 O로 분류한다.

 

2. 데이터 소개

1) NER task를 해결하기 위해 사용할 수 있는 데이터

 

영어/독일어 NER task에 사용할 수 있는 대표적인 데이터셋은 CoNLL-2003이다. CoNLL-2003은 영어와 독일어 데이터 두 가지로 구성되어 있으며, 영어 데이터는 1996년 8월~1997년 8월 사이의 Reuters 뉴스 기사, 독일어 데이터는 ECI Multilingual Text Corpus에 포함되어 있는 Frankfurter Rundshau 뉴스기사에 대해 개체를 태깅한 것이다.

 

2) 데이터 구조

 

CoNLL-2003의 영어 데이터(.TXT 파일)는 아래와 같은 구조로 되어 있다.

 

CoNLL-2003 영어 데이터셋 샘플

 

4개의 컬럼이 single space로 구분되어 있으며, 각 행은 <토큰--해당 토큰의 품사정보(POS)--통사정보(syntactic chunk)--개체명 태그정보(named entity tag)>로 이루어져 있고, 통사정보와 개체명 태그정보는 BIO notation을 따르고 있다.

 

3. SOTA 모델 소개

1) NER의 SOTA 모델

 

2022년 2월 21일 기준으로, 영어 NER task에 대해 가장 좋은 성능을 보이고 있는 SOTA 모델은 Wang et al. (2021)의 ACE + document-context 모델이다.

 

2) 해당 모델 논문의 요약에서의 주요 키워드

 

논문 정보: Wang et al. (2021) Automated Concatenation of Embeddings for Structured Prediction. ACL 2021.

 

Pretrained contextualized embeddings are powerful word representations for structured prediction tasks. Recent work found that better word representations can be obtained by concatenating different types of embeddings. However, the selection of embeddings to form the best concatenated representation usually varies depending on the task and the collection of candidate embeddings, and the ever-increasing number of embedding types makes it a more difficult problem. In this paper, we propose Automated Concatenation of Embeddings (ACE) to automate the process of finding better concatenations of embeddings for structured prediction tasks, based on a formulation inspired by recent progress on neural architecture search. Specifically, a controller alternately samples a concatenation of embeddings, according to its current belief of the effectiveness of individual embedding types in consideration for a task, and updates the belief based on a reward. We follow strategies in reinforcement learning to optimize the parameters of the controller and compute the reward based on the accuracy of a task model, which is fed with the sampled concatenation as input and trained on a task dataset. Empirical results on 6 tasks and 21 datasets show that our approach outperforms strong baselines and achieves state-of-the-art performance with fine-tuned embeddings in all the evaluations.

 

주요 키워드

Pretrained contextualized embeddings, Automated Concatenation of Embeddings (ACE), concatenations of embeddings, controller, reinforcement learning