我们可以使用tidytext R软件包中的unnest_tokens()函数来获取数据框中的单个单词。下面是使用unnest_tokens()函数的示例代码:
library(tidytext)
library(dplyr)
# 创建一个数据框
text <- data.frame(text = c("这是一个句子", "这是另一个句子"))
# 使用unnest_tokens()函数来获取单个单词
unigrams <- text %>%
unnest_tokens(word, text)
# 打印输出结果
print(unigrams)
输出:
text word
1 这是一个句子 这
2 这是一个句子 是
3 这是一个句子 一个
4 这是一个句子 句子
5 这是另一个句子 这
6 这是另一个句子 是
7 这是另一个句子 另一个
8 这是另一个句子 句子
通过上面的代码,我们可以获得数据框中每个句子的单个单词,并将它们存储在一个新的数据框unigrams
中。