티스토리 뷰

IT/파이썬

[파이콘] 키노트 - 박은정

useful-jang 2019. 8. 17. 10:11

 

 

국회의원 데이터 공유 깃

- TeamPOPONG

- pokr.kr

 

프로젝트를 통해 좋은 개발 문화배웠다.

  • 문서화가 중요
  • 좋은 프랙티스는 어거다 매너.
  • 새로운 프레임워크 활용 : 새로운 서비스를 만들어보면서 익숙해지는게 좋을 듯
  • 아이디어는 프로토타입으로. 탁상공론 방지
  • 타인의 저작물을 존중하는 자세

 

 

세상을 바꾸는 것에서 '나와 내 주변을 바꾸는 것'으로

모르는 것은 배우면 된다, 

 

 

 

옛날 이야기 둘 : NoNLPy

필요가 탄생시킨 라이브러리

 

 

- 전공과 상관없는 데이터마이닝

- 그런데 학교 프로젝트 중 텍스트 분석이 필요

- 토크나이징이 필요한데 어떻게 해야 할까?

 

그래서 나온것인 KoNLPy. 그러다 파이콘 소식을 들음.

이걸 공유하면 좋지 않을까 고민. 패키징 해서 공개해보자.

 

 

그러면 왜 사용했을까?

- 초보자는 사용하기 쉬워서, 학생은 보고 따라할 예시가 있어서, 이후 파이썬이 인기를 끌어서

 

내가 필요한 도구는 내가 만들어서 공유한다. 그러면 생각지 못한 도움을 받을 수 있다.

 

 

----

 

이듬해 두번째 파이콘

 

국내 파이썬 큐뮤니티에 소개할까 했라고 패키징을 만듬

주어진 영화평을 보고 긍정, 부정을 분류하는 걸 만듬

 

 

내가 가진 기술이 대단하지 않아도 기여할 수 있다. 

 

 

 

-----

 

 

마지막으로 한국어 오픈 데이터 이야기

 

사람들이 한글 NLP를 많이 하는데, 한글은 한국어가 아니다. 

한글은 문자이고 한국어가 언어. 그래서 Korean NLP

 

 

혹시 한국어 오픈 데이터 찾아본 적 없나? 

좋은 라이브러리가 굉장히 많다.

 

----

 

좋은 사례

2018년 LG에서 KorQUAD

- 충분한 양의 데이터, 리더보드도 공개

- 라이센스는 공유가 되지 않아 아쉽

 

 

 

KSS 

- 초최의 음성 오픈데이터

- 제법 많은 분량

- 라이센스가 뚜렷히 명시

 

-----

 

왜 오픈데이터가 중요할까?

 

1. 벤치마크가 될 수 있기 때문에

- 지표가 같아야 비교 가능

- 비교하면 기술 발전

2. 누구나 분석이나 모델링 가능

- 종종 경계의 대상이 되듯

- 모두가 데이터 취득과 정제를 할 필요 없다

 

데이터 공개시 확인할 점

1. 바로 다운로드해서 사용가능?

- 가급적이면 회원가입, 이용동의는 없으면

2. 원문에 개인정보 저작권이 없나?

- 개인정보와 저작권 또한 존중받아야 함

3. 가급적 라이센스를 명시.

- 이용자와의 별도의 문의 없이 가능한 것을 알리기 위함

 

 

오픈데이터 사용시 확인하면 좋을 점

1. 데이터가 충분한가?

2. 라이세는?

 

 

-----

 

한국어 LNP 같이 발전해요!

- 오픈소스, 오픈데이터

- 파이썬이 아니어도 됨

- 정부, 기업, 학교 모두 장단이 있음

- 다른 재밌는 분야도 있어

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함