LLM Course

0. Configurare

1. Modele Transformer

2. Folosirea 🤗 Transformers

3. Fine-tuning unui model preantrenat

4. Partajarea modelelor și a tokenizatoarelor

5. Biblioteca 🤗 Datasets

Introducere Ce fac dacă dataset-ul meu nu este pe Hub?E timpul să tăiem și să analizăm datele Big data? 🤗 Datasets vine în ajutor!Creează propriul tău dataset Căutare semantică cu FAISS 🤗 Datasets, verificare!Quiz de final de capitol

6. Biblioteca 🤗 Tokenizers

7. Sarcini clasice NLP

8. Cum să ceri ajutor

9. Construirea și partajarea demo-urilor

10. Curățați seturi de date de înaltă calitate

11. Fine-tuning pentru modele mari de limbaj

12. Construiește Modele de Raționament new

Evenimente Curs

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Quiz de final de capitol

Acest capitol a acoperit o mulțime de subiecte! Nu vă faceți griji dacă nu ați înțeles toate detaliile; capitolele următoare vă vor ajuta să înțelegeți cum funcționează lucrurile mai aprofundat.

Înainte de a trece mai departe, totuși trebuie să testăm ce ați învățat în acest capitol.

1. Funcția load_dataset() din 🤗 Datasets vă permite să încărcați un dataset din care dintre următoarele locații?

Local, de exemplu pe laptop Hugging Face Hub Un server remote

2. Presupunem că încărcați una dintre sarcinile GLUE astfel:

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

Care dintre următoarele comenzi va produce un exemplu aleatoriu de 50 de elemente din dataset?

dataset.sample(50) dataset.shuffle().select(range(50)) dataset.select(range(50)).shuffle()

3. Presupunem că aveți un set de date despre animale de companie numit pets_dataset , care are o coloană name care denotă numele fiecărui animal de companie. Care dintre următoarele abordări v-ar permite să filtrați setul de date pentru toate animalele de companie ale căror nume încep cu litera “L”?

pets_dataset.filter(lambda x : x['name'].startswith('L')) pets_dataset.filter(lambda x['name'].startswith('L')) Creați o funcție ca def filter_names(x): return x['name'].startswith('L') și rulați pets_dataset.filter(filter_names).

4. Ce este memory mapping?

Mappingul între CPU și GPU RAM Mapping între RAM și stocarea sistemului de fișiere Mapping între două fișiere din cache-ul 🤗 Datasets

5. Care sunt principalele beneficii ale memory-mapping?

Accesarea fișierelor memory-mapped este mai rapid decât citirea de pe disc sau scrierea pe disc. Aplicațiile pot accesa segmente de date dintr-un fișier extrem de mare fără a fi necesar să citească întregul fișier în RAM mai întâi. Acesta consumă mai puțină energie, astfel încât bateria ta ține mai mult.

6. De ce codul următor eșuează?

from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]

Încearcă să facă streaming unui dataset prea mare pentru a încăpea în RAM. Încearcă să acceseze un IterableDataset. Datasetul allocine nu are o un split train.

7. Care sunt principalele beneficii ale creării unui dataset card?

Oferă informații despre utilizarea intenționată și sarcinile susținute ale datasetului, astfel încât ceilalți din comunitate să poată lua o decizie cu privire la utilizarea acestuia. Ajută la sublinierea biasurilor prezente într-un corpus. Îmbunătățește șansele ca ceilalți din comunitate să utilizeze datasetul meu.

8. Ce este căutarea semantică?

Un mod de a căuta pentru a găsi potriviri exacte între cuvintele dintr-un query și documentele dintr-un corpus Un mod de a căuta documente care se potrivesc prin înțelegerea sensului contextual al unui query Un mod de a îmbunătăți acuratețea căutării

9. Pentru căutarea semantică asimetrică, de obicei aveți:

Un query scurt și un paragraf mai lung care răspunde la query Queries și paragrafe care sunt de aproximativ aceeași lungime Un query lung și un paragraf mai scurt care răspunde la query

10. Pot utiliza 🤗 Datasets pentru a încărca date pentru utilizare în alte domenii, cum ar fi speech processing?

Nu Da

Update on GitHub

←🤗 Datasets, verificare!

Next chapter

Quiz de final de capitol 1. Funcția load_dataset() din 🤗 Datasets vă permite să încărcați un dataset din care dintre următoarele locații?2. Presupunem că încărcați una dintre sarcinile GLUE astfel:3. Presupunem că aveți un set de date despre animale de companie numit pets_dataset , care are o coloană name care denotă numele fiecărui animal de companie. Care dintre următoarele abordări v-ar permite să filtrați setul de date pentru toate animalele de companie ale căror nume încep cu litera “L”?4. Ce este memory mapping?5. Care sunt principalele beneficii ale memory-mapping?6. De ce codul următor eșuează?7. Care sunt principalele beneficii ale creării unui dataset card?8. Ce este căutarea semantică?9. Pentru căutarea semantică asimetrică, de obicei aveți:10. Pot utiliza 🤗 Datasets pentru a încărca date pentru utilizare în alte domenii, cum ar fi speech processing?