文本分析|小白教程

在信息爆炸的时代,文本数据无处不在,如何从这些海量的文字中提炼出有价值的信息呢?答案就是——文本分析。文本分析,简单来说,就是对文本数据进行深度的研究和分析。它能够从看似普通的文字中,提取出主题、情感等信息,为后续的决策和应用提供有力支持。SPSSAU的文本分析模块可以一站式得到全部的文本分析结果。

一、文本分析软件工具

大学生必备的统计分析工具——SPSSAU在线数据分析软件,可以进行词云分析、文本情感分析、文本聚类分析、社会网络关系图绘制、LDA主题分析、新词发现、管理我的词库等文本分析。

1、如何进入文本分析?

1、SPSSAU搜索框进入

在SPSSAU主系统左上角处进行搜索,比如搜索‘文本’二字时,下拉中会提示文本分析模块,当然搜索其它的潜在关键词,比如情感分析、LDA、文本聚类等均可。
2、SPSSAU界面仪表盘进入

通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。

2、如何上传文本数据?

进入SPSSAU文本分析模块之后,首先需要上传文本数据。上传数据涉及以下内容:

  • 支持直接粘贴文本进行上传数据
  • 支持上传txt或excel格式数据
  • 上传文件最高限制为5M

用户可‘点击上传’自己的文本数据,在弹出对话框中,可实现直接粘贴文本进行上传或者上传txt/excel/csv文件等。如下图所示:

  • 数据格式说明

如果是通过excel格式(包括csv/xls/xlsx格式)时,只需要1列数据,该列数据中包括文本数据,将文本全部放置于A列中,A列不需要有标题信息。每行(即每个单元格)存在1个分析文本。如果是txt文档或者粘贴文本进行上传,那么系统会自动过滤掉空行数据,并且以回车键作为每行(即每个分析文本)标志。类似如下图所示:

3、如何进行分析?

上传文本数据后,接着则需要对该数据(项目)进行分析。点击‘开始分析’按钮,项目则开始进行分析。如果完成分析后,‘开始分析’按钮会展示为‘进入项目’,也会展示‘重新分析’按钮,此时点击‘进入项目’即可查看对应的文本分析分析结果,比如词云分析情况等。类似如下图所示:

【提示】:当前SPSSAU限制周会员及以上用户使用,仅购买1天的会员或者非会员无法使用文本分析模块功能,也无法上传文本数据。如果是购买SPSSAU权益号,那么其分配出来的账号或者会员均享受周会员权益,即可使用文本分析模块功能。

  • 文本分析结果

SPSSAU文本分析结果包括词云分析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库等。接下来分别进行简单介绍。

二、词云分析

文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf

1、词云分析

直观展示文本数据的关键词信息,默认是展示前1000个高频关键词、词频、以及出现行数。词云图默认展示前100个高频词,用户可自主设置该数字,也可修改词云风格和下载该词云图。

2、自定义词云

自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可对词云进行下载,词云风格设置等操作。

3、词定位

词定位可用于展示具体某个关键词在那些地方有过出现,比如本案例中‘城乡建设’这个关键词,研究者希望了解该关键词的具体出处信息等,可直接点击该词,然后查看具体信息。也可直接搜索想要查看的关键词,如下图所示:

4、tf-idf

tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。tf-idf指标及其对应词云图输出结果如下:

二、文本情感分析

SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析

1、按词情感分析

按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示。

情感分析使用情感词典进行情感得分计算,并且经过SPSSAU数据压缩化,将情感得分压缩在-1~1之间。关于情感方向的判断标准具体规则如下表:

SPSSAU输出结果如下:

如果有自定义情感词的需求,可点击‘自定义情感词’,也或者使用点击‘我的词库’-》情感词进行添加或者删除等。

2、按行情感分析

按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。SPSSAU输出结果如下:

三、文本聚类分析

SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类。

1、按词聚类分析


按词聚类分析是指将需要分析的关键词进行聚类分析,并且进行可视化展示,即针对关键词进行聚类,此处关键词可以自由选择。
默认情况下,系统会将词频靠前的20个关键词提取,并且得到其词向量值,并且其于词向量值进行聚类分析(具体为kmeans聚类),接着进行MDS分析,最终渲染出各个关键词的坐标定位信息,可视化展示词之间的聚类信息。
SPSSAU输出结果如下,图中不同的颜色代表不同的类别,其意味着各个关键词之间的类别区分:

2、按行聚类分析

不同于按词聚类分析,按行聚类分析是指以‘行’为单位,针对每行数据进行聚类分析(具体为kmeans聚类),并且计算出各‘行’数据的聚类类别,也可直接进行下载聚类类别信息。SPSSAU分析结果如下图所示:

四、社会网络关系图

社会网络关系图展示关键词之间的关系情况,此处的关系是指‘共词矩阵’,即两个关键词同时出现的频数情况。接下来将分别介绍‘共词矩阵’和‘社会网络关系图’

1、共词矩阵

下图中共10个关键词,第1行和第1列为关键词名称且完全对应。具体数据上,右下三角斜对角线为该词的词频。其它数字为‘共现’次数(每行‘共现’次数之和):

2、社会网络关系图

社会网络关系图将共词矩阵信息进行展示,包括是否有共词关系(共词次数>0则有共词关系,等于0则说明没有同时出现过),共词次数情况等。默认情况下,系统会选中排名前20的关键词进行共词矩阵构建和社会网络关系图呈现,用户也可自由“选择分析词”。

在社会网络关系图时,可使用线条粗细展示共词次数,越粗则表示共词次数越高,当然也可选择颜色深浅或者固定线条大小。如下图所示:

还可通过单击表格中的关键词,查看该关键词与其余分析词之间的共词次数情况,比如选中‘建设’这个关键词后,其出来结果如下,明显地可以看到,建设与‘建设部’、‘城乡’和‘住房’这三个词之间的关系较为紧密。

五、LDA主题分析

LDA主题分析是一种提取出文本数据核心主题的模型,其可将整份数据文档的信息提取成几个主题,并且标题出主题与关键词之间的权重情况,用于识别主题的具体实际意义,除此之外,LDA主题分析涉及到可视化展示和图形交互等。

SPSSAU中呈现LDA主题分析包括如下内容或功能:

SPSSAU输出LDA主题分析结果如下:

六、新词发现&我的词库

1、新词发现

文本分析时,有些词是无法被词典识别到,比如‘元宇宙’这样的新词,以前的词典并没有它。因而可结合新词发现算法提供一些建议。
新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵的意义为衡量某词与其它词组合一起的容易度;互信息的意义为衡量文本组合的紧密程度。

2、我的词库

文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可。SPSSAU操作上为点击‘我的词库’,然后选择即可,如下图:


以上为本期SPSSAU文本分析模块的相关内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/753468.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Git之checkout/reset --hard/clean -f区别(四十二)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

第6章_libmodbus使用

文章目录 第6章 libmodbus使用6.1 libmodbus开发库6.1.1 功能概要6.1.2 源码获取6.1.3 源码阅读1. 新建工程2. 同步文件3.打开工程4. 操作示例5. 快捷键 6.1.4 libmodbus与应用程序的关系 6.2 libmodbus源代码解析6.2.1 核心函数6.2.2 框架分析与数据结构6.2.3 情景分析1. 初始…

Springboot 整合 DolphinScheduler(一):初识海豚调度

目录 一、什么是 DolphinScheduler 二、DolphinScheduler 的特性 三、DolphinScheduler 核心架构 四、单机环境部署流程 1、下载安装包 2、上传至服务器,解压缩 3、单机启动 4、登录 dolphinscheduler UI 5、配置数据库【非必需】 (1&#xff…

新风口不再是直播,云微客带你领略短视频矩阵的魅力

只要你细心观察,就能发现很多品牌都在做短视频矩阵,正是凭借大量的短视频矩阵账号带来的流量曝光,这些品牌才能覆盖数以万计的客户人群,才能每天不断地产生新订单。 有很多人觉得矩阵不就是多注册账号吗?其实短视频矩阵…

20240629 每日AI必读资讯

🚀 Google 深夜突袭,Gemma 2 狂卷 Llama 3 - Gemma2性能超越Llama3,提供9B和27B版本,性能接近70B模型但大小仅为其40% - Gemma2支持高效推理,单个GPU即可实现全精度推理,广泛的硬件支持 - Gemma2兼容多种…

ImageMasking-对图片做随机遮掩/块遮掩

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言从ipynb文件入手带注释的python文件modulesmask.pyutils.py 前言 1.可以去github直接下载这个项目,这样下载得到的是比较干净的版本,我把有注释的按…

pgsql的套接字文件不存在

问题:psql: error: connection to server on socket "/tmp/.s.PGSQL.5432" failed: No such file or directory 解决方式: 检查 postgresql.conf 文件中的 unix_socket_directories 设置,确保它包含 /tmp 或者你期望的目录。 重…

Hadoop3:MapReduce中的Reduce Join和Map Join

一、概念说明 学过MySQL的都知道,join和left join 这里的join含义和MySQL的join含义一样 就是对两张表的数据,进行关联查询 Hadoop的MapReduce阶段,分为2个阶段 一个Map,一个Reduce 那么,join逻辑,就可以…

卸载 ubuntu-wsl2-systemd-script,使用 WSLg 图形用户界面

目录 全新安装 - 以前没有安装 WSL现有 WSL 安装卸载 ubuntu-wsl2-systemd-script使用 Linux GUI参考链接在 Windows 上使用 Linux 开发环境,最好的做法是使用 WSL2。在 WSL 和早期的 WSL2 版本中,并不支持图形用户界面。因此如果想要使用 GUI 程序,需要自行解决。具体方法可…

游戏AI的创造思路-技术基础-深度学习(3)

继续填坑,本篇介绍深度学习中的长短期记忆网络~~~~ 目录 3.3. 长短期记忆网络(LSTM) 3.3.1. 什么是长短期记忆网络 3.3.2. 形成过程与运行原理 3.3.2.1. 细胞状态与门结构 3.3.2.2. 遗忘门 3.3.2.3. 输入门 3.3.2.4. 细胞状态更新 3.…

一个分析电路图的好助手

GPT。 最进分析电路图的时候发现GPT支持读取图片功能: 还别说,分析的很有道理。 此外,它还可以分析芯片的引脚功能,辅助电路分析: AB胶:粘的非常牢固,需要A和B两种胶混合使用。

有兄弟对这类区域比较感兴趣,也引起我的好奇,我提取出来给大家看看

要说这类地区,亚洲泰国排第二估计没人敢说第一吧,所以我就提取泰国的数据给大家看看! 如图:这些特殊服务地区主要集中在曼谷和芭提雅地区,芭提雅最多!看来管理还是不错的,限制在一定范围&#x…

php composer 报错

引用文章: Composer设置国内镜像_composer 国内源-CSDN博客 php composer.phar require --prefer-dist yiidoc/yii2-redactor "*" A connection timeout was encountered. If you intend to run Composer without connecting to the internet, run the …

汉江师范学院2024年成人高等继续教育招生简章

汉江师范学院,这所承载着深厚文化底蕴和学术积淀的高等学府,即将在2024年迎来新一季的成人高等继续教育招生。这不仅是一次知识的盛宴,更是对每一位怀揣梦想、追求进步的成年人的诚挚邀请。 汉江师范学院,以其严谨的教学态度、卓…

老师如何发布学校分班情况?

随着新学期的临近,许多老师可能都会回想起过去那些忙碌的日子,他们不得不面对一堆学生名单,手动进行班级分配,然后逐一通知家长和学生,这种工作不仅繁琐而且容易出错,让人倍感压力。 然而,今天我…

真正的IDEA在线版有多好用

前言 在上一篇文章使用过TitanIDE的VS Code在线版以后,尝到了不少甜头,紧接着又去使用了他的在线版IntelliJ IDEA,同样非常惊艳,不需要任何时间去适应这款云原生开发工具,事不宜迟,马上开整 这才是真正的VS Code在线版…

9种慢慢被淘汰的编程语言...【送源码】

技术不断进步,我们使用的编程语言也不例外。 随着人工智能的兴起以及对编程语言使用的影响,我们更加关注哪些语言将在未来继续流行,哪些会被淘汰。 Python、Java 和 JavaScript 等多功能编程语言正在主导市场,而其他一些语言则逐…

第 1 章SwiftUI 简介

在 2019 年的 WWDC 上,Apple 宣布推出一款名为 SwiftUI 的全新框架,令开发者们大吃一惊。该框架不仅改变了开发 iOS 应用的方式,还代表了自 Swift 首次亮相以来 Apple 开发者生态系统最重大的转变。SwiftUI 适用于所有 Apple 平台,包括 iPadOS、macOS、tvOS 和 watchOS,这…

REST API 中的 HTTP 请求参数

当我们在谈论现代 Web 开发时,REST API (Representational State Transfer Application Programming Interface) 扮演着至关重要的角色。它允许不同的系统以一种简洁且高效的方式进行通信。HTTP 请求参数是控制此通信流程中数据如何被发送和接收的重要组成部分。 H…

加密教程:pdf怎么加密?7个pdf加密技巧任你选(图文详解)

pdf作为一种便携式文档,是展示内容的首选格式,目前也已广泛应用于交换和分享重要等温,例如内部报告、人力资源文件,以及商业提案等包含敏感信息的文档。然而,在如今的数字化时代,随着越来越多的企业将其文档…