Recent posts

전처리 Part.6

2 minute read

R을 사용하여 교통사고내역 데이터의 사고유형, 연령대 변수를 현재까지 구축한 데이터와 병합한다. 그 후, python으로 사망자, 중상자 ,경상자 수를 gid 격자별로 count하고 병합한다.

Note 324 NoSQL, Mongo DB, Pymongo

6 minute read

SQL은 관계형 데이터베이스로 관계와 구조가 정해져 있기 때문에 스키마를 짜고, 데이터를 입력하는 데에 많은 시간이 소요된다. 하지만, 이미 짜여진 스키마를 토대로 데이터를 읽어오기만 하면 되어서 데이터를 읽어온 후에는 데이터가 어느 정도 정제가 되어 있을 것이다. 데이터베이스는 ...

Note 323 API, HTTP API, REST API

5 minute read

웹 스크레이핑을 하면 html 형식으로 데이터를 받고, 너무 많은 태그와 상속 관계 등이 존재해서 이 데이터를 보기 좋게 정제하는데 오랜 시간이 걸린다. Web API를 사용하면 보통 Json 형식으로 데이터를 리턴 받기 때문에 파이썬의 dictionary 형태로 데이터를 다룰 수...

Note 322 HTML, CSS, Web Scraping

4 minute read

데이터 분석을 할 때 항상 데이터가 주어지는 것은 아니다. 파일이나 DB가 주어지지 않더라도 연구자가 직접 데이터를 수집해야 할 상황이 생길 수 있다. 웹 스크레이핑을 사용하면 데이터가 주어져있지 않더라도, 웹 상에 있는 데이터를 심지어는 과거의 데이터까지 찾아서 데이터를 수집할 ...

전처리 Part.5

6 minute read

전처리 Part.5 에서는 R로 작업했던 날씨 데이터를 불러와서 기존 데이터와 병합한 뒤, 교통 시설물 데이터를 추가했다.