카테고리 없음

steam review crawling

carro1t 2019. 6. 20. 22:20
data = pd.read_excel('11.xlsx', sheet_nmae = '11')
data.head(6) # 데이터 확인

#데이터 리스트 만들기(한 줄 씩 리스트에 담기)
data_list = []
for i in data['review']:
	data_list.append(str(i))
print(len(data_list)) #데이터 리스트 length 확인
print(data_list) # 데이터 리스트에 한줄씩 담겨있는 모습을 볼 수 있다.
df = pd.DataFrame(data_list, columns = ['reviews']) #컬럼이 reviews 인 데이터 파일로 다시 저장
df.to_csv('csv/1122.csv', columns = ['reviews'])
data_list1 = pd.read_csv('csv/1122.csv)

df #정상적인 r&c -> 175rows x 1 columns
df[0:10] #확인

#<데이터 전처리>
#영어, 숫자 특수기호만 남기기
pre_list = []
for i in data_list
	i = str(i)
    text = re.sub('[^a-zA-Z0-9],' ', i).strip()
    text = re.sub('[,]', ' ', text)
    text = re