心動~~形動~~~: 1110510台中女中社群AI研習國網中心TWCC 自然語言處理方法介紹

2022年5月10日星期二

1110510台中女中社群AI研習國網中心TWCC 自然語言處理方法介紹

基本功：莫煩Python ( https://mofanpy.com/ )

Machine Learning Crash Course (https://developers.google.com/machine-learning/crash-course)

深度學習專業課程 (https://www.coursera.org/specializations/deep-learning)

Comprehensive Python Cheatsheet，進去 Ctrl+F 搜尋一下可以找任何範例( https://gto76.github.io/python-cheatsheet/ )

自我學習資源 100-Days-Of-ML-Code ( https://github.com/Avik-Jain/100-Days-Of-ML-Code )

機器學習實戰 ( https://github.com/apachecn/AiLearning )

hung-yi lee (李宏毅) (https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ/featured)

Fast.ai: PyTorch作為開發的工具，它先教你建立模型以後，再回頭告訴你為什麼這樣做。 (https://www.fast.ai/)

BERT 科普文(https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html)

林軒田教授( https://www.coursera.org/instructor/htlin )

【Keras 深度學習】#3 建立模型 | HiSKIO 程式語言線上教學 ( https://www.youtube.com/watch?v=JR8bo75U3fc )

TensorFlow Playground( http://playground.tensorflow.org/ )

https://www.openedu.tw/course.jsp?id=876

NCHC 註冊帳號(台灣杉1號: 140.110.148.11)

TWCC 計算簡介(台灣杉3號: lin01.twcc.ai)

利用 putty 連線，pscp 傳輸檔案

利用TWCC來學習 NLP

Jupyter設定py36環境變數，change kernel

利用book資源，進入NLP(Natural Language processing)

學習Word2vec

從台灣杉號3拷貝檔案到台灣杉號1

pscp -r Word2vec @140.110.148.11:/home/todoharp1974

從台灣杉號1到筆電

pscp –r todoharp1974@140.110.148.11:/home/todoharp1974/Word2vec .

https://drive.google.com/drive/u/0/folders/1_xTuQJ-aqToDwYALgi3lPDG9gij_lHkf

https://docs.google.com/presentation/d/1QB9yVHLEuAE6ZKGLrqaqa1W3FXqihfLd/edit?usp=sharing&ouid=101128958688918603466&rtpof=true&sd=true

P70-71

putty

ln01.twcc.ai

帳號

密碼12碼+2

動態碼

https://iservice.nchc.org.tw

module load miniconda3

conda create --name py36 python=3.6

conda activate py36

conda install -c anaconda ipykernel

python -m ipykernel install --user --name=py36

pip install scikit-learn==0.21.3

pip install matplotlib==3.2.2

pip install numpy==1.19.5

pip install pandas==1.1.5

pip install requests==2.23.0

pip install gensim==3.6.0

wget --no-check-certificate https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest

cd Word2Vec 資料夾

python wiki_to_txt.py zhwiki-latest-pages-articles.xml.bz2(wiki xml 轉換成 wiki text)

4.>> python segmentation.py(簡體轉繁體，在進行斷詞並同步過濾停用詞，由於檔案較大故斷詞較久，時間約 30 min)

python train.py(訓練並產生 model ，時間約 3 hours) # Line 17 Error: size ==> vector_size (old version)

python main.py(使用 Model，輸入詞彙)

註:如果在 Windows cmd 下執行 python 時有編碼問題請下以下指令:chcp 65001(使用utf-8)

pip install gensim

pip install jieba

pip install hanziconv

cat README.md

心動形動~

網頁1

2022年5月10日星期二

1110510台中女中社群AI研習國網中心TWCC 自然語言處理方法介紹

沒有留言:

張貼留言

文字雲

標籤雲

網頁1

2022年5月10日 星期二

1110510台中女中社群AI研習國網中心TWCC 自然語言處理方法介紹

沒有留言:

張貼留言

文字雲

標籤雲

2022年5月10日星期二