1. Hugging Face Hub 내 데이터셋 확인
Hugging Face에서 현재 제공하는 데이터셋의 개수와 정보를 불러옵니다.
from datasets import list_datasets
all_datasets = list_datasets()
print(f'현재 허브에는 {len(all_datasets)}개의 데이터셋이 있습니다.')
print(f'처음 10개 데이터셋: {all_datasets[:10]}')
2. Hugging Face Hub 내 데이터셋 불러오기
특정 데이터셋을 불러오고 싶으면 다음과 같이 작성하면 됩니다.
from datasets import load_dataset
# load_dataset('파일 path')
ag_news = load_dataset('fancyzhx/ag_news')
다음과 같은 파라미터가 있습니다.
3. 내 컴퓨터에 있는 데이터셋 불러오기
from datasets import load_dataset
# 파일명 = load_dataset('file format', data_files='file path')
csv_file = load_dataset('csv', data_files='my_files.csv')
text_file = load_dataset('text', data_files='text_files.text')
json_file = load_dataset('json', data_files='my_files.json')
# sep, column명 지정
csv_file = load_dataset('csv', data_files='my_files.csv', sep=';', names=['userid', 'age', 'label'])
References
1. https://huggingface.co/docs/datasets/package_reference/loading_methods#datasets.load_dataset
2. 루이스 턴스톨 외, ⌜트랜스포머를 활용한 자연어 처리⌟, 2022
728x90
'프로젝트 setup' 카테고리의 다른 글
Tips (0) | 2024.06.15 |
---|---|
zsh 및 oh-my-zsh 설치(vscode) (1) | 2024.01.24 |
requirement.txt 설치 (2) | 2024.01.03 |