1. Hugging Face Hub 내 데이터셋 확인

Hugging Face에서 현재 제공하는 데이터셋의 개수와 정보를 불러옵니다.

from datasets import list_datasets

all_datasets = list_datasets()
print(f'현재 허브에는 {len(all_datasets)}개의 데이터셋이 있습니다.')
print(f'처음 10개 데이터셋: {all_datasets[:10]}')

 

2. Hugging Face Hub 내 데이터셋 불러오기

특정 데이터셋을 불러오고 싶으면 다음과 같이 작성하면 됩니다.

from datasets import load_dataset

# load_dataset('파일 path')
ag_news = load_dataset('fancyzhx/ag_news')

 

다음과 같은 파라미터가 있습니다.

https://huggingface.co/docs/datasets/package_reference/loading_methods#datasets.load_dataset

 

3. 내 컴퓨터에 있는 데이터셋 불러오기

from datasets import load_dataset

# 파일명 = load_dataset('file format', data_files='file path')
csv_file = load_dataset('csv', data_files='my_files.csv')
text_file = load_dataset('text', data_files='text_files.text')
json_file = load_dataset('json', data_files='my_files.json')

# sep, column명 지정
csv_file = load_dataset('csv', data_files='my_files.csv', sep=';', names=['userid', 'age', 'label'])

 

References

1. https://huggingface.co/docs/datasets/package_reference/loading_methods#datasets.load_dataset
2. 루이스 턴스톨 외, 트랜스포머를 활용한 자연어 처리⌟, 2022

728x90

'프로젝트 setup' 카테고리의 다른 글

Tips  (0) 2024.06.15
zsh 및 oh-my-zsh 설치(vscode)  (1) 2024.01.24
requirement.txt 설치  (2) 2024.01.03

+ Recent posts