[데이터 입출력/웹에서 가져오기] HTML 웹 페이지에서 표 속성 가져오기
2022. 10. 21. 12:21
pandas.read_html('웹 주소(URL)' 또는 'HTML 파일 경로(이름)')
판다스 read_html() 함수는 HTML 웹 페이지에 있는 <table> 태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다.
표 데이터들은 각각 별도의 데이터프레임으로 변환되기 때문에 여러 개의 데이터프레임을 원소로 갖는 리스트가 반환된다.
예제로는 실제 웹 페이지 URL 대신 'sample.html' 예제 파일을 사용한다.
# 예제 2-4
import pandas as pd
url = 'sample.html'
tables = pd.read_html(url)
print(len(tables))
print('\n')
for i in range(len(tables)):
print(f'tables[{i}]')
print(tables[i])
print('\n')
df = tables[1]
df.set_index(['name'], inplace=True)
print(df)
변수 tables에는 2개의 데이터프레임을 원소로 갖는 리스트가 저장된다.
두 번째 표를 인덱싱하여 df 변수에 저장하고 set_index() 메소드를 사용하여 'name' 열을 새로운 행 인덱스로 설정했다.
![]() |
|
'공부 > 파이썬 머신러닝 판다스 데이터 분석' 카테고리의 다른 글
[데이터 입출력/데이터 저장하기] JSON 파일로 저장 (0) | 2022.10.21 |
---|---|
[데이터 입출력/데이터 저장하기] CSV 파일로 저장 (0) | 2022.10.21 |
[데이터 입출력/외부 파일 읽어오기] JSON 파일 (0) | 2022.10.21 |
[데이터 입출력/외부 파일 읽어오기] Excel 파일 (0) | 2022.10.21 |
[데이터 입출력/외부 파일 읽어오기] CSV 파일 (0) | 2022.10.20 |