Przetwarzanie języka naturalnego

PRACA Z TEKSTEM

Opis szkolenia

Szkolenie przedstawiające tajniki przetwarzania języka naturalnego w Python’ie, którego dokładny program jest zawsze ustalany indywidualnie w zależności od poziomu i potrzeb grupy. Może pokrywać tematy od zagadnień wprowadzających aż po najnowsze rozwiązania i techniki przetwarzania języka naturalnego z wykorzystaniem uczenia głębokiego.

Czas trwania: 3-7 dni (w zależności od ustalonego programu)

Plan szkolenia

Akt pierwszy: Wprowadzenie do przetwarzania języka naturalnego

Wczytywanie tekstu (Pandas, API plików Python’a)
Podstawowe operacje na ciągach znaków
Wyrażenia regularne
Podstawy pobierania danych ze stron internetowych (Selenium)

Akt drugi: Wstępne przetwarzanie tekstu

Oczyszczanie tekstu (beautifulsoup)
Normalizacja
- Stemming
- Lematyzacja
- Usuwanie słów bez znaczenia (stop words)
Segmentacja
Tokenizacja
- Z użyciem podstawowych operatorów tekstu
- Z użyciem pakietów NLTK & Spacy
- SentencePiece

Akt trzeci: Wektoryzacja

Bag of words
- Prosta implementacja od zera
- Z wykorzystaniem pakietu scikit-learn
TFIDF
- Prosta implementacja od zera
- Z wykorzystaniem pakietu scikit-learn
Reprezentacja tekstu za pomocą liczb
- word2vec
- doc2vec
- fastText
Reprezentacja kontekstu słowa

Akt czwarty: Modelowanie w oparciu o tekst

Modele oparte o podobieństwo
- Wykrywanie anomalii poprzez klastrowanie
- Przypisywanie kategorii algorytmem najbliższych sąsiadów (k-NN)
Metody deep learningowe w przetwarzaniu tekstu
- MLP + tf-idf
- LSTM/GRU
- CNN
Analiza sentymentu (emocji wypowiedzi)
Oznaczanie części mowy (part of speech tagging)
- Z użyciem gotowych rozwiązań
- Dostosowywanie gotowych rozwiązań pod własne potrzeby
BERT

Technologie użyte na szkoleniu:

Główne: Python, NLTK/Spacy, PyTorch/Keras + TensorFlow
Drugorzędne: Selenium, BeautifulSoup
Opcjonalne: Gensim, Flair, BERT, Polyglot, fastText

Kontakt w sprawie szkolenia zamkniętego