GPT-2 Chinese 自动生成文章 - 环境准备

Google Colab


Colaboratory 是一个 Google 研究项目,旨在帮助传播机器学习培训和研究成果。它是一个 Jupyter 笔记本环境,不需要进行任何设置就可以使用,并且完全在云端运行。


Colaboratory 笔记本存储在 Google 云端硬盘中,并且可以共享,就如同您使用 Google 文档或表格一样。Colaboratory 可免费使用。利用Colaboratory ,可以方便的使用Keras,TensorFlow,PyTorch等框架进行深度学习应用的开发。


缺点是最多只能运行12小时,时间一到就会清空VM上所有数据。这包括我们安装的软件,包括我们下载的数据,存放的计算结果, 所以最好不要直接在colab上进行文件的修改,以防保存不及时而造成丢失,而且Google Drive只有免费的15G空间,如果训练文件很大的话,需要扩容。


优点 免费! 免费!免费!
**

谷歌云盘


当登录账号进入谷歌云盘时,系统会给予15G免费空间大小。由于Colab需要依靠谷歌云盘,故需要在云盘上新建一个文件夹,来存放你的代码或者数据。


image.png
可以看到上图,我的存储空间几乎快满了,在选择进行扩容的时候呢,则需要国外银行卡和国外支付方式,这一点就有点头痛,但是不要忘记万能的淘宝,最后通过淘宝的,花费20元左右,就升级到了无限空间,这里需要注意一下,升级存储空间的方式是添加一块共享云盘,如下图:

引入Colab


image.png




设置GPU环境


打开colab后,我们要设置运行环境。”修改”—>”笔记本设置”


image.png


挂载和切换工作目录


1
2
3
4
5
6
7
from google.colab import drive
drive.mount('/content/drive')

import os
# os.chdir('/content/drive/My Drive/code/GPT2-Chinese') # 原本Google drive的目录

os.chdir('/content/drive/Shared drives/brentfromchina/code_warehouse/GPT2-Chinese') ## 共享云盘的目录

其中: My Drive 代表你的google网盘根目录

code/GPT2-Chinese 或者 code_warehouse/GPT2-Chinese 代表网盘中你的程序文件目录

在Colab中运行任务

下图是我google drive中的文件结构, 在项目文件中,创建一个.ipynb文件,来执行你的所有操作。

屏幕快照 2020-04-13 下午5.15.46.png

.ipynb文件内容

屏幕快照 2020-04-13 下午5.23.22.png