[데이터 입출력/웹에서 가져오기] HTML 웹 페이지에서 표 속성 가져오기

2022. 10. 21. 12:21
pandas.read_html('웹 주소(URL)' 또는 'HTML 파일 경로(이름)')

판다스 read_html() 함수는 HTML 웹 페이지에 있는 <table> 태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다.

표 데이터들은 각각 별도의 데이터프레임으로 변환되기 때문에 여러 개의 데이터프레임을 원소로 갖는 리스트가 반환된다.

 

sample.html

예제로는 실제 웹 페이지 URL 대신 'sample.html' 예제 파일을 사용한다.

 

# 예제 2-4

import pandas as pd

url = 'sample.html'

tables = pd.read_html(url)

print(len(tables))
print('\n')

for i in range(len(tables)):
    print(f'tables[{i}]')
    print(tables[i])
    print('\n')
    
df = tables[1]

df.set_index(['name'], inplace=True)
print(df)

 

예제 2-4 출력 결과

변수 tables에는 2개의 데이터프레임을 원소로 갖는 리스트가 저장된다.

두 번째 표를 인덱싱하여 df 변수에 저장하고 set_index() 메소드를 사용하여 'name' 열을 새로운 행 인덱스로 설정했다.


파이썬 머신러닝 판다스 데이터분석
저자 : 오승환
출판 : 정보문화사
발매 : 2019.06.05

 

BELATED ARTICLES

more