2022年5月10日 星期二

1110510台中女中社群AI研習國網中心TWCC 自然語言處理方法介紹

 








基本功:莫煩Python ( https://mofanpy.com/ )

Machine Learning Crash Course (https://developers.google.com/machine-learning/crash-course)

深度學習 專業課程 (https://www.coursera.org/specializations/deep-learning)

Comprehensive Python Cheatsheet,進去 Ctrl+F 搜尋一下可以找任何範例( https://gto76.github.io/python-cheatsheet/ )

自我學習資源 100-Days-Of-ML-Code ( https://github.com/Avik-Jain/100-Days-Of-ML-Code )

機器學習實戰 ( https://github.com/apachecn/AiLearning ) 

hung-yi lee (李宏毅) (https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ/featured)

Fast.ai: PyTorch作為開發的工具,它先教你建立模型以後,再回頭告訴你為什麼這樣做。 (https://www.fast.ai/)

BERT 科普文(https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html)

林軒田教授( https://www.coursera.org/instructor/htlin )

【Keras 深度學習】#3 建立模型 | HiSKIO 程式語言線上教學 ( https://www.youtube.com/watch?v=JR8bo75U3fc )

TensorFlow Playground( http://playground.tensorflow.org/ )









NCHC 註冊帳號(台灣杉1號:  140.110.148.11)
TWCC 計算簡介(台灣杉3號: lin01.twcc.ai)
利用 putty 連線,pscp 傳輸檔案
利用TWCC來學習 NLP
Jupyter設定py36環境變數,change kernel
利用book資源,進入NLP(Natural Language processing)
學習Word2vec 







從台灣杉號3拷貝檔案到台灣杉號1
pscp -r Word2vec @140.110.148.11:/home/todoharp1974



從台灣杉號1到筆電
pscp –r todoharp1974@140.110.148.11:/home/todoharp1974/Word2vec .





https://drive.google.com/drive/u/0/folders/1_xTuQJ-aqToDwYALgi3lPDG9gij_lHkf

https://docs.google.com/presentation/d/1QB9yVHLEuAE6ZKGLrqaqa1W3FXqihfLd/edit?usp=sharing&ouid=101128958688918603466&rtpof=true&sd=true

P70-71


putty


ln01.twcc.ai

帳號

密碼12碼+2

動態碼

https://iservice.nchc.org.tw







module load miniconda3


conda create --name py36 python=3.6


conda activate py36


conda install -c anaconda ipykernel


python -m ipykernel install --user --name=py36 




pip install scikit-learn==0.21.3

pip install matplotlib==3.2.2

pip install numpy==1.19.5

pip install pandas==1.1.5

pip install requests==2.23.0

pip install gensim==3.6.0




wget --no-check-certificate https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest


cd Word2Vec 資料夾


python wiki_to_txt.py zhwiki-latest-pages-articles.xml.bz2(wiki xml 轉換成 wiki text)


4.>> python segmentation.py(簡體轉繁體,在進行斷詞並同步過濾停用詞,由於檔案較大故斷詞較久,時間約 30 min)



python train.py(訓練並產生 model ,時間約 3 hours) # Line 17 Error: size ==> vector_size (old version)


python main.py(使用 Model,輸入詞彙) 

註:如果在 Windows cmd 下執行 python 時有編碼問題請下以下指令:chcp 65001(使用utf-8)




pip install gensim

pip install jieba

pip install hanziconv

ls

cat README.md






h









沒有留言:

張貼留言