使用7种常见技术的数据科学家的NLP入门指南

我为学习者写一份通讯,称为“强大知识”。每个新问题都包含最佳内容中的链接和关键课程,包括报价,书籍,文章,播客和视频。每个人都专门为学习如何过着更明智,更快乐和更充实的生活而挑选出来。在这里注册

现代组织与大量数据合作。这些数据可以以各种不同的形式出现,包括文档,电子表格,录音,电子邮件,JSON等。记录此类数据的最常见方法之一是通过文本。该文本通常与我们每天使用的自然语言非常相似。

自然语言处理(NLP)是对编程计算机进行处理和分析大量自然文本数据的研究。NLP的知识对于数据科学家来说至关重要,因为文本非常易于使用,并且用于存储数据的常见容器。

面对从文本数据执行分析和构建模型的任务,必须知道如何执行基本数据科学任务。这包括清洁,格式化,解析,分析,可视化和建模文本数据。除了通过原始数字组成的数据时,这些任务的通常方式除了通常完成这些任务之外,还需要一些额外的步骤。

本指南将在数据科学中使用NLP的必需品。我们将介绍您可以用来处理文本数据的7种最常见的技术,包括带有的代码示例NLTKScikit学习

(1)令牌化

令牌化是将文本分割成句子或单词的处理。在此过程中,我们也丢弃标点符号和额外的符号。

这并不像看起来那么简单。例如,上面第一个示例中的“纽约”一词分为两个令牌。但是,纽约是一位代词,在我们的分析中可能非常重要 - 我们最好只保留一个令牌。因此,在此步骤中需要注意。

令牌化的好处是,它将文本变成一种更易于转换为原始数字的格式,实际上可以用于处理。在分析文本数据时,这是自然的第一步。

(2)停止删除单词

象征化后的下一步是停止删除单词。停止单词删除的目标与令牌化类似:将文本数据放入更方便的处理格式。在这种情况下,停止单词删除会删除诸如“和”,“ the”,“ a”等通用语言介词,等等。这样,当我们分析数据时,我们将能够减少噪音,并将重点放在具有实际现实世界中的词语上。

通过删除预定义列表中的单词可以轻松完成停止单词的删除。要注意的一个重要的事情是,没有通用的停止单词列表。因此,该列表通常是从头开始创建的,并根据正在处理的应用程序量身定制。

(3)茎

是清洁文本数据处理的另一种技术。茎是将单词简化为根部形式的过程。这样做的目的是减少由于上下文而拼写略有不同但具有相同含义的单词,以进行处理。例如,考虑在句子中使用“库克”一词。根据上下文,我们可以写很多方法:

所有这些不同形式的库克一词基本相同的定义。因此,理想情况下,当我们进行分析时,我们希望它们都被映射到同一令牌。在这种情况下,我们将所有这些都映射到令牌上,以获取“库克”一词。这大大简化了我们对文本数据的进一步分析。

(4)单词嵌入

现在,从前三种方法清理了我们的数据,我们可以开始将其转换为可以实际处理的格式。

单词嵌入是将单词表示为数字的一种方式,以至于具有相似含义的单词具有相似的表示形式。现代单词嵌入表示单个单词是预定义矢量空间中的实价矢量。

所有单词向量的长度相同,仅具有不同的值。两个单词向量之间的距离代表了两个单词的含义的相似之处。例如,“库克”和“烘烤”一词的向量将相当接近,但是“足球”和“烤”一词的矢量将大不相同。

创建单词嵌入的一种常见方法称为手套,代表“全球向量”。手套捕获了文本语料库的全球统计数据和本地统计信息,以创建单词向量。

手套使用所谓的共发生矩阵。同时出现的矩阵表示每对单词在文本语料库中的频率频率。例如,考虑如何为以下三个句子创建一个共发生矩阵:

  • 我喜欢数据科学。
  • 我喜欢编码。
  • 我应该学习NLP。

该文本语料库的共发生矩阵看起来像这样:

对于现实世界数据集,矩阵将很多,很多更大。好消息是,只需对数据进行一次计算单词嵌入,然后才能将其保存到磁盘。

然后,对手套进行训练,以学习每个单词的固定长度的向量,以使任何两个单词矢量的点产物等于单词的共发生概率的对数,这来自共发生矩阵。这在下面所示的论文的目标函数中表示:

在等式中,X表示位置的共发生矩阵的值(i,j)w’s是要学习的矢量一词。因此,通过使用此目标函数,手套可以最大程度地降低两个字向量和同时存在的点产物之间的差异,从而有效地确保了学到的向量与矩阵中的共发生值相关。

在过去的几年中,由于对单词的含义及其相似性的有效编码,Glove被证明是一种非常强大且多功能的单词嵌入技术。对于数据科学应用程序,这是一种经过战斗的方法,可以将单词变成我们可以处理和分析的格式。

这是一个完整教程关于如何在Python中使用手套!

(5)术语频率段文档频率

术语倒数文档频率,通常称为TF-IDF是通常用于信息检索和文本挖掘等应用中的加权因素。TF-IDF使用统计信息来衡量单词对特定文档的重要性。

  • TF - 期限频率:测量文档中字符串发生的频率。计算为文档中发生的总数除以文档的总长度(用于归一化)。
  • IDF - 逆文档频率:衡量文档中字符串的重要性。例如,某些字符串(例如“ IS”,“”和“ A”)在许多文档中会出现很多次,但并没有真正含义 - 它们不是形容词或动词。因此,IDF根据其重要性加权每个字符串,计算为日志()数据集中的文档总数除以字符串出现在(分母中的+1)以避免划分为零的文档数量)。
  • TF-IDF:TF-IDF的最终计算仅仅是TF和IDF术语的乘法:TF * IDF

TF-IDF非常平衡,考虑到目标单词的本地和全球统计水平。文档中更频繁地发生的单词加权更高,但前提是在整个文档中更罕见。

由于其稳健性,搜索引擎经常使用TF-IDF技术在计分和对文档的相关性进行评分和对关键字输入的相关性中使用。在数据科学中,我们可以使用它来了解哪些单词和相关信息在我们的文本数据中最重要。

(6)主题建模

主题建模在NLP的背景下,是从文本数据或文档集合中提取主要主题的过程。本质上,这是一种形式减少维度由于我们将大量文本数据降低到少数主题。主题建模在许多数据科学方案中很有用。仅举几例:

  • 文本的数据分析 - 提取数据的潜在趋势和主要组成部分
  • 对文本进行分类 - 以相似的方式缩小维度有助于解决经典的机器学习问题,主题建模也有助于这里有帮助,因为我们将文本压缩到关键功能中,在这种情况下,主题
  • 构建建议系统 - 主题建模自动为我们提供一些文本数据的基本分组。它甚至可以充当建立和培训模型的附加功能

主题建模通常是使用称为的技术进行的潜在的dirichlet分配(LDA)。使用LDA,每个文本文档被建模为主题的多项式分布,每个主题都被建模为单词的多项式分布(单个字符串,我们可以从令牌化的组合,停止单词删除和驱动器中获得)。

LDA假设文档是由主题组合生成的。然后,这些主题根据其概率分布生成单词。

首先,我们告诉LDA每个文档应该有多少个主题,以及每个主题的数量由多少个单词组成。给定文档数据集,LDA试图确定主题的组合和分布可以准确地重新创建这些文档以及其中的所有文本。它可以通过构建实际文档来判断哪个主题的作用,其中建筑物是根据所选主题根据单词的概率分布对单词进行采样的。

一旦LDA找到了可以最准确地重新创建所有文档及其内容的主题的分布,那么这些是我们具有适当分布的最终主题。

(7)情绪分析

情感分析是一种NLP技术,试图识别和提取文本数据中包含的主观信息。情感分析以与主题建模相似的方式,可以帮助将非结构化的文本转换为数据中嵌入的信息的基本摘要。

大多数情感分析技术都属于两个水桶之一:基于规则和机器学习方法。基于规则的方法遵循简单的步骤来实现其结果。在执行了一些文本预处理之后,例如令牌化,停止单词删除和Stegming,例如,基于规则的可能会遵循以下步骤:

  1. 定义不同情感的单词列表。例如,如果我们试图确定段落是负面还是正面,我们可能会定义类似的词坏的可怕对于负面情绪,以及伟大的惊人的积极情绪
  2. 浏览文本并计算正词的数量。对否定词做同样的事情。
  3. 如果确定为正的单词的数量大于确定为否定的单词的数量,那么文本的情感是积极的- 反之亦然消极的情绪。

基于规则的方法非常适合对情感分析系统如何工作的一般了解。但是,现代,最先进的系统通常会使用深度学习或至少经典的机器学习技术来自动化这一过程。

通过深度学习技术,情感分析被建模为分类问题。文本数据被编码到嵌入式空间中(类似于上面描述的单词嵌入式) - 这是一种特征提取的形式。然后将这些功能传递给分类模型,其中文本的情感被分类。

这种基于学习的方法很强大,因为我们可以将其自动化为优化问题。我们可以将数据不断地馈送到模型以从中持续改进这一事实也是一个巨大的好处。更多数据可以改善特征提取和情感分类。

关于如何使用各种机器学习模型进行情感分析的一些很棒的教程。这是一些很棒的东西:

喜欢学习吗?

跟着我推特,我在其中发布了有关最新和最伟大的AI,技术和科学的全部内容!与我保持联系LinkedIn也!

获取中型应用betway娱乐官网

一个说“在应用商店上下载”的按钮,如果单击,它将带您到iOS App Store
一个说“获取它,Google Play”的按钮,如果单击它,它将带您到Google Play商店
Baidu