[텍스트 분석을 위한 정규식부터 NLTK, KoNLPy 패키지 사용까지]
텍스트마이닝은 큰 범주에서 텍스트분석을 통해 여러 의미있는 정보를 도출해내는 과정이라고 말할 수 있습니다. 해당 과정에서 정규식의 사용, 자연 발생한 데이터의 수집, 영어와 한국어 각각을 다루는 패키지 사용에 대한 노하우가 필요합니다.
본 과정은 텍스트마이닝을 위한 기초 이론부터, 실제 영어와 한국어의 텍스트마이닝을 위한 패키지 활용까지 다뤄보고 있습니다.
자세한 강의 내용은 아래와 같습니다.
<목차>
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.1 텍스트분석을 위한 정규식 re 1
과정개요 및 미니 테스트
선수학습과 과정목표
소스코드 전문 편집기 설치하기
소스코드 전문 편집기 옵션 설정하기
노트패드 플러그인 설치 및 테마 디자인과 여러 환경설정 바꿔주기
re 모듈을 이용한 패턴 검색
re 모듈을 이용한 검색시 원하는 값만 추출하기
re 모듈의 match 함수 3번째 인자 - re.I
re 모듈의 함수 3번째 인자 - re.S
Group 메서드와 인덱스를 사용하여 각 그룹별 문자열 반환하기
re 모듈의 다양한 함수 - match, findall, search
정규식 특수문자와 메타문자의 사용법 및 의미 파악
re 모듈을 이용한 정규식의 기초
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.1 텍스트분석을 위한 정규식 re 2
r 선언 유무에 따른 패턴 생성 차이와 group 메서드 출력의 차이점 비교하기
문자열내에서의 역슬래시d와 차이점
문자열내에서 숫자만 검색하기 및 패턴명 자체 검색하기
메타 문자(Meta Character) 사용법
정규식 사용시 많이 헤갈리는 특수문자 역슬래시 b와 B
다양한 메타 문자와 역슬래시b 문자열 패턴
문자열내에서 특정 단어가 들어간 문자열 모두를 찾는 패턴
주어진 텍스트내에서 영문자가 3개 또는 5개로 구성된거 다 찾기
주어진 텍스트내에서 영어만 검색하기 및 처음과 끝을 표시하기
주어진 텍스트내에서 영문 세글자 이상만 검색하기
영문 소문자 세글자 이상짜리 단어만 검색하려면
caaaat 에서 aaaa만 매칭시키고 싶다면
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.1 텍스트분석을 위한 정규식 re 3
특정 단어가 들어간(포함된) 문자열을 모두 매치하려면
특정 단어가 들어간 문자열 찾기 - 문자열 함수로 처리하기
이름과 전화번호가 들어있는 텍스트에서 전화번호가 맞는지 검증하여 출력하시오
공백, 점, 밑줄 등 다양한 구분자 매치하기 및 출력시 문자열로 출력하기
매치 결과물에 대한 그루핑
조인(join) 함수를 사용한 문자열 합치기시 주의사항
그루핑된 문자열을 sub 메서드 사용해서 다른 문자열로 바꾸기
re.sub 메서드로 문자열 치환시 카운트 사용하기
연습문제
강좌를 마무리하며
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.4_데이터수집 1
강의개요 및 권장 학습순서와 requests 라이브러리 설치
requests 라이브러리란
requests GET 방식 POST 방식 및 응답 상태 코드란
requests 실습(1) - GET 방식으로 서버에 요청넣고 응답받기
requests 실습(2) - POST 방식으로 서버에 요청넣고 응답받기
종합실습
응답 상태 코드에 따른 조건 처리
requests 테스트사이트 실습
브라우저를 통한 헤더 정보 보기
헤더정보에서 특정한 것만 보기
httpbin 테스트사이트를 통한 요청과 응답
종합실습
클라이언트에서 서버로 데이터를 전송할 때, 서로 다른 Content-Type 설정값으로 보내기
파일로 저장하기
바이트 타입으로 리턴받아 파일로 저장하기
Beautiful soup이란 무엇이고 사용해야 하는 이유와 설치하기
크롤링을 하기 위한 Beautiful soup의 다양한 검색 방법 익히기(1)
크롤링을 하기 위한 Beautiful soup의 다양한 검색 방법 익히기(2)
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.4_데이터수집 2
크롤링을 하기 위한 Beautiful soup의 다양한 검색 방법 익히기(3)
크롤링을 하기 위한 Beautiful soup의 다양한 검색 방법 익히기(4)
웹사이트 HTML 내용 wb 모드로 파일 저장한 후 불러들여서 분석하기
포털 사이트에서 뉴스 기사 크롤링 실습
실시간 포털 사이트 뉴스 기사 가져오기(크롤링 실습)
실시간 포털 사이트 뉴스 기사 수집한 내용들 파일로 저장하기
수집된 텍스트데이터 파일 저장시 필요한 시간 모듈 time, datetime 알아보기
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.2 영어를 위한 NLTK 1
강의개요 및 권장 학습순서와 NLTK 설치하기
corpus(말뭉치)란 무엇인가
nltk gutenberg corpus 다운로드 및 텍스트 내용 출력하기
nltk gutenberg corpus 여러가지 값 출력
nltk tokenization - sent_tokenize
word_tokeniz() 함수를 사용한 토큰화 vs gutenberg.words() 함수를 사용한 토큰화 비교
각 토큰당 평균 문자 수
브라운 코퍼스를 활용한 여러가지 메서드
FreqDist() 함수로 단어 빈도 수 체크시 대소문자 문제
특정 단어의 빈도 수 체크
특정 단어의 빈도 수 체크 - list comprehension 사용
세익스피어는 비극 햄릿을 쓸 때 한 문장당 평균 몇개의 단어를 사용해서 썼을까 - 기초학습
전부 소문자로 바꾼 후 중복되는 것 없이 단어 수 체크
세익스피어는 비극 햄릿을 쓸 때 한 문장당 평균 몇개의 단어를 사용해서 썼을까 - 최종 통계 구하기
브라운 코퍼스 장르별 원하는 단어 수 세기 - ConditionalFreqDist() 사용법
cfd 출력시 pair로 구성해서 출력하기
브라운 코퍼스 카테고리별 단어 수 체크시 배열 변수 만들어서 이중 for문으로 구성하기
n-gram이란 무엇이고 bigram, trigram 등이 검색 예측에 어떻게 활용되어지는가
nltk 패키지내 ngrams를 활용하여 bigram, trigram 구하기 실습
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.2 영어를 위한 NLTK 2
파이썬 코드로 n-gram 구현하기
nltk stopwords를 활용한 불용어 제거하기
한국어 불용어 제거하기
Stemming(스테밍)이란 무엇이고 왜 필요한가
Stemmer를 사용한 어간 추출
PorterStemmer vs LancasterStemmer 어간 추출 비교
주어진 텍스트로 부터 Stemming 처리하기
lemmatization이란 무엇이고 단어의 기본형 또는 원형복원을 하는 방법
WordNetLemmatizer를 사용하여 단어의 기본형(표제어, 원형복원) 추출하기
WordNetLemmatizer에서 제대로 처리하지 못하는 단어들
품사 정보를 제공하여 기본형(표제어) 추출
정규식 토크나이저(RegexpTokenizer)를 활용한 토큰화 처리
구두점 제거 및 텍스트에서 비문자 빼고 문자만 출력하기
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.3 한국어를 위한 KoNLPy 1
강의개요 및 권장 학습순서와 한국어 분석 KoNLPY
품사 분석을 통한 텍스트분석의 의미와 다양한 KoNLPY 형태소 분석기들
NLTK 패키지내 품사 분류표 - 암기하자
KoNLPY 설치시 필요한 것과 내pc에 설치하기
konlpy 형태소 분석기를 활용한 한국어 형태소 분석하기
한국어 형태소 분석의 어려움 및 자립형태소와 의존형태소 구분하기
KoNLPy에서 기본적으로 제공하는 말뭉치들 - kolaw, kobill
KoNLPy 말뭉치(corpus) 순회하면서 단어 수 및 중복제거한 명사 개수 구하기
KoNLPy내 kobill 말뭉치 10개 텍스트파일별 품사 부착하기 - pos 태깅
한국어 동사 원형을 복원시켜서 출력하기 - stem
[하늘을 나는 종이비행기] 를 각 한국어 형태소 분석기는 어떻게 분석할까
문재인 대통령 취임사 연설문 분석하기
Counter() 함수를 이용하여 단어 빈도 수 계산하기
단어구름(wordcloud)으로 출력 및 저장하기
KoNLPy corpus(말뭉치)를 NLTK 패키지로 분석해보기(1)
[HD]쉽게 배우는 텍스트 마이닝(Text Mining) Part.3 한국어를 위한 KoNLPy 2
KoNLPy corpus(말뭉치)를 NLTK 패키지로 분석해보기(2)
KoNLPy corpus(말뭉치)를 NLTK 패키지로 분석해보기(3)
KoNLPy 형태소 분석기별 품사 분류표 데이터프레임으로 변환 출력
단어주머니란 무엇인가 - Bag of words
빈도 수 기반의 핵심어 추출
TF-IDF 어휘 빈도 문서 역빈도
자연어 처리를 위한 텍스트 수치화 작업 - BoW 구현하기
사이킷런 BoW 구현
CountVectorizer 파라미터 옵션
TfidfVectorizer 기반의 자연어 텍스트 수치화 작업