使用python写文本相似度分析的代码

时间：2023-11-11 00:10:10 阅读：1510 评论：78

文本相似度分析可以通过许多方法来实现，包括余弦相似度、Jaccard相似度、编辑距离等。这里，我将提供一个使用余弦相似度的简单例子。我们将使用sklearn库中的TfidfVectorizer和cosine_similarity函数。

在这个例子中，我们有两个文本字符串，我们将计算它们的相似度。

from sklearn.feature_extraction.text import TfidfVectorizer # 定义两个文本字符串 text1 = '这是一个句子' text2 = '这是另一个句子' # 初始化TfidfVectorizer vectorizer = TfidfVectorizer() # 将文本转换为TF-IDF向量 vector1 = vectorizer.fit_transform([text1]) vector2 = vectorizer.transform([text2]) # 计算两个向量的余弦相似度 similarity = vectorizer.cosine_similarity(vector1, vector2) print(similarity)

这段代码首先将文本字符串转换为TF-IDF向量，然后计算这两个向量之间的余弦相似度。余弦相似度是一个在-1到1之间的值，表示两个文本的相似程度。值接近1表示文本非常相似，值接近-1表示文本非常不相似，值接近0表示文本没有明显的相似性。

请注意，这个例子使用的是中文文本，对于中文文本，你需要使用支持中文的库，例如jieba进行分词。同时，你可能需要进行一些预处理，例如去除停用词、词干提取等，以提高相似度计算的准确性。

免责声明

本网站发布的内容（图片，视频和文字）以原创,转载和分享网络内容为主，如有涉及侵权尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服QQ：1975212473，邮箱：1975212473@qq.com。

相关宝贝（点击我换一批）

卡罗特不粘锅炒锅家用麦饭石炒菜锅平底锅不沾锅电磁炉燃气灶专用

¥119 ¥489.00
去购买
德佑沁氧款一次性婴儿隔尿垫散热速干宝宝护理垫大吸量秋冬不可洗

¥23.9 ¥99.90
去购买
高洁丝安睡裤贴身16条全包围防漏夜安裤卫生巾姨妈巾

¥49.9 ¥109.00
领券购买
伊利金典纯牛奶200ml*12盒整箱3.6g优质蛋白学生早餐

¥59.9 ¥59.90
去购买

本文标签： python

上一篇：我有一周时间，预算5000，你推荐我是去青岛还是去沈阳旅游

下一篇：“这个世界越来越不真实了”