- 深度学习案例精粹:基于TensorFlow与Keras
- 王晓华
- 223字
- 2023-08-31 19:21:32
1.2.2 第二步:数据的处理
我们遇到的第一个问题就是数据的处理。对于计算机来说,直接的文本文字是计算机所不能理解的,因此一个简单的办法就是将文字转化成数字符号进行替代,之后对每个数字生成一个独一无二的“指纹”,也就是“词嵌入(embedding)”。在这里只需要将其理解成使用一个“指纹”来替代汉字字符。代码处理如下:
(1)创建3个“容器”,对切分出的字符进行存储。
![](https://epubservercos.yuewen.com/D6668D/26581524109221706/epubprivate/OEBPS/Images/Figure-P17_215.jpg?sign=1739683331-aqAK8Xnl5PumjkQRQH9XRo5Is0xbYOph-0-ec9a5f5582739e89c0007d93c77a6bff)
(2)读取字符和文本。
![](https://epubservercos.yuewen.com/D6668D/26581524109221706/epubprivate/OEBPS/Images/Figure-P17_2836.jpg?sign=1739683331-kXc93JVdCHgr4TC1Fdu9zdCTqKLfhbAI-0-44399ea41d5da8bd62c8a3726c4d70dd)
(3)读取字符并获得字符的长度。
![](https://epubservercos.yuewen.com/D6668D/26581524109221706/epubprivate/OEBPS/Images/Figure-P18_224.jpg?sign=1739683331-ihk6g0qhytA5GV75dS4ZNjhhC4sxcd01-0-09752aeeaa291446124a911afb3ad22f)
(4)将文本内容转换成数字符号,并对长度进行填充。
![](https://epubservercos.yuewen.com/D6668D/26581524109221706/epubprivate/OEBPS/Images/Figure-P18_226.jpg?sign=1739683331-rhoUtMt4pxd5kr3xEXPJyuWi4sHcWDTQ-0-3ebd8822fe9a7150e1bc625a510a2caa)