목록전체 글 (8)
CODENAVY
NLP 쪽 일을 하다보면 데이터셋 구축의 필요성과 자주 마주하게 된다. 그러나 많은 양의 데이터셋을 구축하기 위해서는 사람의 시간과 노력이 많이 필요하기 때문에, 이번에 DS(Distant Supervision) 방법을 통해 데이터셋을 구축하게 되었다. Distant Supervision이란? DS는 문장에 포함된 엔티티(개체)들 간의 관계가 무엇인지 알아내야 하는데, 이를 일일이 손으로 태깅할 수 없는 경우 사용할 수 있는 방법이다. deepdive.stanford.edu에서는 아래와 같이 설명하고 있다. In distant supervision, we make use of an already existing database, such as Freebase or a domain-specific data..
https://wikidocs.net/book/2155 * 퍼셉트론(Perceptron) 다수의 입력을 받아 하나의 출력을 내보내는 초기 형태의 인공 신경망 * 단층 퍼셉트론(Single-Layer Perceptron) 입력층(input layer), 출력층(output layer)으로만 이루어져 있는 인공 신경망. XOR 게이트 문제를 해결할 수 없다는 문제를 가지고 있었고, 이에 대한 문제를 해결하기 위해 다층 퍼셉트론 개념이 탄생했다. * 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 입력층과 출력층 사이에 은닉층(hidden layer)을 1개 이상 포함하는 인공 신경망. 은닉층이 2개 이상이면 심층 신경망(DNN: Deep Neural Network..
LSTM의 미분 연산에 대해 공부하다가, 'Hadamard Product'이라는 단어를 듣게 되어 찾아보았다. Hadamard Product는 Element-wise Product라는 이름으로도 잘 알려져 있다. 즉, 크기가 같은 행렬 A와 B가 있다고 했을 때, 동일한 (i, j) 위치의 원소끼리 곱해 A, B와 동일한 크기의 행렬 C를 만들어내는 연산이다. Numpy에서는 a*b는 Hadamard 곱을, a@b는 matrix 곱을 return하게 된다.
1. 문제 정의: task가 해결하고자 하는 문제는? 개체명 인식(Named Entity Recognition)은 문서 내에서 사람 이름, 장소명, 기관명, 날짜 등 특정한 의미를 지니는 단어 또는 어구를 개체(entity)로 인식하고, 이러한 개체들의 의미적 범주를 분류하는 것을 목표로 한다. 전형적으로 BIO notation이 사용되는데, 하나의 개체가 두 개 이상의 토큰으로 이루어져 있다고 했을 때, 시작하는 토큰을 B로, 이어지는 토큰을 I로, 그리고 엔티티가 아닌 토큰을 O로 표기하는 것이다. 개체가 한 개의 토큰으로 이루어져 있을 경우, 해당 토큰은 B로 표기한다. Mark Watney visited Mars B-PER I-PER O B-LOC 위 예시 문장에서와 같이, Mark Watney는..
VS code로 테스트서버 접속 > health_prediction_django 폴더 1. runserver manage.py로 테스트페이지 구동 python runserver manage.py 구글 크롬에서 아래 url로 api test view page 확인 http://127.0.0.1:8000/api/v1/mets
Workflow 1) 웹페이지에서 소스 코드를 다운로드 받는다. (requests 모듈 사용) 2) 소스 코드 중에서 특정 태그를 찾는다. (bs4의 BeautifulSoup 모듈 사용) 3) 태그가 저장하고 있는 정보를 추출한다. 태그는 시작 태그와 끝 태그로 구성되어 있으며, 일반적으로 text는 이 사이에 저장되어 있다. (태그 중에서 끝 태그가 없는 경우도 있음. ex: meta 태그) ex) 역사란 무엇인가 Chapter 1. 소스코드 다운받기 url = http://www.yes24.com/Product/goods/61385099 import requests r = requests.get(url) r.text # 소스코드가 저장되어 있음 print(r.text) Chapter 2. 원하는 정보..
* 본 내용은 패스트캠퍼스 김기현 강사님의 '처음부터 시작하는 딥러닝 유치원 Online'을 수강하면서 정리하기 위해 작성한 글입니다. 머신러닝과 딥러닝의 목표: 최종 목표는 결국 x(독립변수), y(종속변수)간의 관계를 제일 잘 설명하는 함수 y = f(x)를 도출하는 것이다. '관계를 제일 잘 설명한다'는 것은 오차를 최소화하는 optimal parameters를 찾는다는 말과 동일한 의미를 가진다. WORKFLOW: 1. 문제 정의 - 신경망을 사용한 함수에 사용할 x(독립변수)는 무엇인지, 그리고 도출할 최종값 y(종속변수)가 무엇인지 정의한다. 2. 데이터 수집 - 풀고자 하는 문제가 무엇인지에 따라 crawling, 실제 데이터 수집 등으로 수집 방법이 상이할 수 있다. - 필요에 따라 구한 ..
우리가 가지고 있는 데이터 전체를 total data라고 할 때, total data로 모델을 학습시키지 않고, total data의 일부만 가지고 학습시킨 뒤, 나머지 일부 data를 가지고 모델의 성능을 평가하게 된다. 모델을 학습시킬 때 사용되는 데이터(또는 데이터셋)를 training dataset, 그리고 평가에 사용되는 데이터를 testing dataset이라고 한다. 1. 학습데이터(Training Dataset) 피쳐(X_train)와 정답(y_train)이 모두 존재하며, 학습을 위해 사용되는 데이터 2. 평가데이터(Testing Dataset) 피쳐(X_test)와 정답(y_test)이 있지만, 모델은 학습된 모형을 바탕으로 피쳐(X_test)로부터 예측값을 도출한다. 즉, 정답(y_t..