2019. 8. 17. 10:11ㆍIT/파이썬
국회의원 데이터 공유 깃
- TeamPOPONG
- pokr.kr
프로젝트를 통해 좋은 개발 문화배웠다.
- 문서화가 중요
- 좋은 프랙티스는 어거다 매너.
- 새로운 프레임워크 활용 : 새로운 서비스를 만들어보면서 익숙해지는게 좋을 듯
- 아이디어는 프로토타입으로. 탁상공론 방지
- 타인의 저작물을 존중하는 자세
세상을 바꾸는 것에서 '나와 내 주변을 바꾸는 것'으로
모르는 것은 배우면 된다,
옛날 이야기 둘 : NoNLPy
필요가 탄생시킨 라이브러리
- 전공과 상관없는 데이터마이닝
- 그런데 학교 프로젝트 중 텍스트 분석이 필요
- 토크나이징이 필요한데 어떻게 해야 할까?
그래서 나온것인 KoNLPy. 그러다 파이콘 소식을 들음.
이걸 공유하면 좋지 않을까 고민. 패키징 해서 공개해보자.
그러면 왜 사용했을까?
- 초보자는 사용하기 쉬워서, 학생은 보고 따라할 예시가 있어서, 이후 파이썬이 인기를 끌어서
내가 필요한 도구는 내가 만들어서 공유한다. 그러면 생각지 못한 도움을 받을 수 있다.
----
이듬해 두번째 파이콘
국내 파이썬 큐뮤니티에 소개할까 했라고 패키징을 만듬
주어진 영화평을 보고 긍정, 부정을 분류하는 걸 만듬
내가 가진 기술이 대단하지 않아도 기여할 수 있다.
-----
마지막으로 한국어 오픈 데이터 이야기
사람들이 한글 NLP를 많이 하는데, 한글은 한국어가 아니다.
한글은 문자이고 한국어가 언어. 그래서 Korean NLP
혹시 한국어 오픈 데이터 찾아본 적 없나?
좋은 라이브러리가 굉장히 많다.
----
좋은 사례
2018년 LG에서 KorQUAD
- 충분한 양의 데이터, 리더보드도 공개
- 라이센스는 공유가 되지 않아 아쉽
KSS
- 초최의 음성 오픈데이터
- 제법 많은 분량
- 라이센스가 뚜렷히 명시
-----
왜 오픈데이터가 중요할까?
1. 벤치마크가 될 수 있기 때문에
- 지표가 같아야 비교 가능
- 비교하면 기술 발전
2. 누구나 분석이나 모델링 가능
- 종종 경계의 대상이 되듯
- 모두가 데이터 취득과 정제를 할 필요 없다
데이터 공개시 확인할 점
1. 바로 다운로드해서 사용가능?
- 가급적이면 회원가입, 이용동의는 없으면
2. 원문에 개인정보 저작권이 없나?
- 개인정보와 저작권 또한 존중받아야 함
3. 가급적 라이센스를 명시.
- 이용자와의 별도의 문의 없이 가능한 것을 알리기 위함
오픈데이터 사용시 확인하면 좋을 점
1. 데이터가 충분한가?
2. 라이세는?
-----
한국어 LNP 같이 발전해요!
- 오픈소스, 오픈데이터
- 파이썬이 아니어도 됨
- 정부, 기업, 학교 모두 장단이 있음
- 다른 재밌는 분야도 있어
'IT > 파이썬' 카테고리의 다른 글
[파이콘] 고득녕 - 엔터프라이즈급 네트워크 운영 관리 (0) | 2019.08.17 |
---|---|
[파이콘] 박종현 - 하나의 Django 코드로 여러 사이트 운영하기 (0) | 2019.08.17 |
[파이콘] 김민중 - 데이터 분석 사례(지하철역 환기실 공조기 고장 감지) (3) | 2019.08.17 |
[파이콘] 키노트 - 캐롤 나슬룬드 윌링 (0) | 2019.08.17 |
[파이콘] 키노트 - 반병현 (0) | 2019.08.17 |