ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • steam review crawling
    카테고리 없음 2019. 6. 20. 22:20
    data = pd.read_excel('11.xlsx', sheet_nmae = '11')
    data.head(6) # 데이터 확인
    
    #데이터 리스트 만들기(한 줄 씩 리스트에 담기)
    data_list = []
    for i in data['review']:
    	data_list.append(str(i))
    print(len(data_list)) #데이터 리스트 length 확인
    print(data_list) # 데이터 리스트에 한줄씩 담겨있는 모습을 볼 수 있다.
    df = pd.DataFrame(data_list, columns = ['reviews']) #컬럼이 reviews 인 데이터 파일로 다시 저장
    df.to_csv('csv/1122.csv', columns = ['reviews'])
    data_list1 = pd.read_csv('csv/1122.csv)
    
    df #정상적인 r&c -> 175rows x 1 columns
    df[0:10] #확인
    
    #<데이터 전처리>
    #영어, 숫자 특수기호만 남기기
    pre_list = []
    for i in data_list
    	i = str(i)
        text = re.sub('[^a-zA-Z0-9],' ', i).strip()
        text = re.sub('[,]', ' ', text)
        text = re

     

    댓글

Designed by Tistory.