为您找到搜索结果:1727个
python自然语言处理(一)
自言语言处理基础知识参考:https://blog.csdn.net/meihao5/article/details/79592667英文资料: http://github.com/lovesoft5/ml一、自然语言处理概述 1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。 2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。 3)研究问题(主要): &nb...
自然语言处理NLTK
...
深度学习方法(九):自然语言处理中的Attention Model注意力模型
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.NET/xbinworld。技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。上一篇博文深度学习方法(八):Encoder-Decoder模型,基本SequencetoSequence模型描述了基本的Encoder-Decoder模型,在作为翻译模型的时候,这种基本的Encoder-Decoder模型有较大缺点,就是Encoder部分每一个输入对Decoder部分每一个输出的贡献都是一样的。下面先看一个例子[1],输入的是英文句子:TomchaseJerry,Encoder-Decoder生成:“汤姆”,“追逐”,“杰瑞”。在基本模型中,每一个英文单词对杰瑞都是一样的贡献,这似乎是不太合理的;也就是说没有引入注意力的模型在输入句子比较短的时候估计问题不大,但是如果输入句子比较长,此时所有语义完全通过一个中间语义向量来表示,单词自身的信息已经消失,可想而知会丢失很多细节信息,这也是为何要引入注意力模型的重要原因。如果引入AM模型的话,应该在翻译“杰瑞”的时候,体现出英文单词对于翻译当前中文单词不同的影响程度...
深度学习方法(八):自然语言处理中的Encoder-Decoder模型,基本Sequence to Sequence模型
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的;比如这两年比较热的imagecaption的应用,就是CNN-RNN的编码-解码框架;再比如神经网络机器翻译NMT模型,往往就是LSTM-LSTM的编码-解码框架。因此,准确的说,Encoder-Decoder并不是一个具体的模型,而是一类框架。Encoder和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以采用CNN,RNN,BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder,我们可以设计出各种各样的应用算法。Encoder-Decoder框架有一个最显著的特征就是它是一个End-to-End学习的算法;本文将以文本-文本的例子作为介绍,这样的模型往往用在机器翻译中,比如将法语翻译成英语。这样的模型也被叫做SequencetoSeq...
转:资源 | 我爱自然语言处理
转自:http://www.52nlp.cn/resources这里提供一些52nlp博客的一些系列文章以及收集的自然语言处理相关书籍及其他资源的下载,陆续整理中!如有不妥,我会做删除处理!特别推荐系列:1、HMM学习最佳范例全文文档,百度网盘链接:http://pan.baidu.com/s/1pJoMA2B密码:f7az2、无约束最优化全文文档-by@朱鉴 ,百度网盘链接:链接:http://pan.baidu.com/s/1hqEJtT6密码:qng03、PYTHON自然语言处理中文翻译-NLTKNaturalLanguageProcessingwithPython中文版,陈涛sean无偿翻译。链接:http://pan.baidu.com/s/1i3DvwFV密码:oxne4、正态分布的前世今生(pdf版)–by@rickjin5、LDA-math-汇总LDA数学八卦–by@rickjin6、如何计算两个文档的相似度全文文档7、中文分词入门之字标注法全文文档一、书籍:1、《自然语言处理综论》英文版第二版2、《统计自然语言处理基础》英文版3、《用...
【转载】 深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1
版权声明:本文为博主原创文章,未经博主允许不得转载。原文地址http://blog.csdn.net/longxinchen_ml/article/details/51567960 目录(?)[-]自然语言处理简介词向量基于SVD的方法1词-文档矩阵2基于窗口的共现矩阵X基于迭代的方法1语言模型1-gram2-gram等等2连续词袋模型CBOM3Skip-Gram模型4负面抽样NegativeSampling 作者:寒小阳 && 龙心尘 时间:2016年6月 出处: http://blog.csdn.net/han_xiaoyang/article/details/51567822 http://blog.csdn.net/longxinchen_ml/article/details/51567960 声明:版权所有,转载请联系作者并注明出处说明:本文为斯坦福大学CS224d课程的中文版内容笔记,已得到斯坦福大学课程@RichardSocher教授的授权翻译与发表特别鸣谢:@Fan...
推荐《用Python进行自然语言处理》中文翻译-NLTK配套书
NLTK配套书《用Python进行自然语言处理》(NaturalLanguageProcessingwithPython)已经出版好几年了,但是国内一直没有翻译的中文版,虽然读英文原版是最好的选择,但是对于多数读者,如果有中文版,一定是不错的。下午在微博上看到陈涛sean 同学提供了NLTK配套书的中译本下载,就追问了一下,之后译者和我私信联系,并交流了一下,才发现是作者无偿翻译的,并且没有出版计划的。翻译是个很苦的差事,向译者致敬,另外译者说里面有一些错误,希望能得到nlper们的指正,大家一起来修正这个珍贵的NLTK中文版吧。另外译者希望在“52nlp”上做个推荐,这事是造福nlper的好事,我已经在“资源”里更新了本书的链接,以下是书的下载地址:PYTHON自然语言处理中文翻译-NLTKNaturalLanguageProcessingwithPython中文版 翻看了一下翻译版,且不说翻译质量,单看排版就让人觉得向一本正式的翻译书籍,说明译者是非常有心的。以下是从翻译版中摘录的“译者的话”:...
吴裕雄--天生自然神经网络与深度学习实战Python+Keras+TensorFlow:使用TensorFlow和Keras开发高级自然语言处理系统——LSTM网络原理以及使用LSTM实现人机问答系统
!mkdir'/content/gdrive/MyDrive/conversation''''将文本句子分解成单词,并构建词库'''path='/content/gdrive/MyDrive/conversation/'withopen(path+'question.txt','r')asfopen:text_question=fopen.read().lower().split('')withopen(path+'answer.txt','r')asfopen:text_answer=fopen.read().lower().split('')concat_question=''.join(text_question).split()vocabulary_size_question=len(list(set(concat_question)))data_question,count_question,dictionary_question,rev_dictionary_question=build_dataset(concat_question,vocabulary_size_que...
吴裕雄--天生自然神经网络与深度学习实战Python+Keras+TensorFlow:使用TensorFlow和Keras开发高级自然语言处理系统——RNN网络原理与实现
!pipinstallutils!pipinstallsklearn!mkdir'/content/gdrive/MyDrive/moviereview'!mkdir'/content/gdrive/MyDrive/moviereview/good/'!mkdir'/content/gdrive/MyDrive/moviereview/bad/'fromutilsimport*importtensorflowastfimportsklearnfromsklearnimportdatasetsfromsklearn.model_selectionimporttrain_test_splitimporttimeimportreimportnumpyasnpdefclearstring(string):#只选择包含字母和数字的字符串string=re.sub('[^A-Za-z0-9]+','',string)#把句子分割成多个单词合成的队列string=string.split('')string=filter(None,string)#消除单词首尾空格string=[y.strip()f...
吴裕雄--天生自然神经网络与深度学习实战Python+Keras+TensorFlow:使用TensorFlow和Keras开发高级自然语言处理系统——Skip-Gram算法实现
fromgoogle.colabimportdrivedrive.mount('/content/gdrive')!mkdir'/content/gdrive/MyDrive/dataset'path='/content/gdrive/MyDrive/dataset/text8'withopen(path)asft_:full_text=ft_.read()deftext_processing(ft8_text):'''替换掉标点符号'''ft8_text=ft8_text.lower()ft8_text=ft8_text.replace('.','<period>')ft8_text=ft8_text.replace(',','<comma>')ft8_text=ft8_text.replace('"','<quotation>')ft8_text=ft8_text.replace(';','<semicolon>')ft8_text=ft8_text.replace('!','<exclamation>')ft8_text...
吴裕雄--天生自然神经网络与深度学习实战Python+Keras+TensorFlow:自然语言处理Word Embedding 单词向量化
importnumpyasnpsamples=['Thecatjumpoverthedog','Thedogatemyhomework']#我们先将每个单词放置到一个哈希表中token_index={}forsampleinsamples:#将一个句子分解成多个单词forwordinsample.split():ifwordnotintoken_index:token_index[word]=len(token_index)+1#设置句子的最大长度max_length=10results=np.zeros((len(samples),max_length,max(token_index.values())+1))fori,sampleinenumerate(samples):forj,wordinlist(enumerate(sample.split()))[:max_length]:index=token_index.get(word)results[i,j,index]=1.print("{0}->{1}".format(word,results[i,j]))fromkera...
吴裕雄--天生自然 pythonTensorFlow自然语言处理:Attention模型--测试
importsysimportcodecsimporttensorflowastf#1.参数设置。#读取checkpoint的路径。9000表示是训练程序在第9000步保存的checkpoint。CHECKPOINT_PATH="F:\temp\attention_ckpt-9000"#模型参数。必须与训练时的模型参数保持一致。HIDDEN_SIZE=1024#LSTM的隐藏层规模。DECODER_LAYERS=2#解码器中LSTM结构的层数。SRC_VOCAB_SIZE=10000#源语言词汇表大小。TRG_VOCAB_SIZE=4000#目标语言词汇表大小。SHARE_EMB_AND_SOFTMAX=True#在Softmax层和词向量层之间共享参数。#词汇表文件SRC_VOCAB="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\en.vocab"TRG_VOCAB="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\z...
吴裕雄--天生自然 pythonTensorFlow自然语言处理:Attention模型--训练
importtensorflowastf#1.参数设置。#假设输入数据已经转换成了单词编号的格式。SRC_TRAIN_DATA="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\train.en"#源语言输入文件。TRG_TRAIN_DATA="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\train.zh"#目标语言输入文件。CHECKPOINT_PATH="F:\temp\attention_ckpt"#checkpoint保存路径。HIDDEN_SIZE=1024#LSTM的隐藏层规模。DECODER_LAYERS=2#解码器中LSTM结构的层数。这个例子中编码器固定使用单层的双向LSTM。SRC_VOCAB_SIZE=10000#源语言词汇表大小。TRG_VOCAB_SIZE=4000#目标语言词汇表大小。BATCH_SIZE=100#训练数据batch的大小。NUM_EPOCH=5#使用训练数据的轮数。KEEP_...
吴裕雄--天生自然 pythonTensorFlow自然语言处理:Seq2Seq模型--测试
importsysimportcodecsimporttensorflowastf#1.参数设置。#读取checkpoint的路径。9000表示是训练程序在第9000步保存的checkpoint。CHECKPOINT_PATH="F:\temp\seq2seq_ckpt-9000"#模型参数。必须与训练时的模型参数保持一致。HIDDEN_SIZE=1024#LSTM的隐藏层规模。NUM_LAYERS=2#深层循环神经网络中LSTM结构的层数。SRC_VOCAB_SIZE=10000#源语言词汇表大小。TRG_VOCAB_SIZE=4000#目标语言词汇表大小。SHARE_EMB_AND_SOFTMAX=True#在Softmax层和词向量层之间共享参数。#词汇表文件SRC_VOCAB="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\en.vocab"TRG_VOCAB="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\zh...
吴裕雄--天生自然 pythonTensorFlow自然语言处理:Seq2Seq模型--训练
importtensorflowastf#1.参数设置。#假设输入数据已经用9.2.1小节中的方法转换成了单词编号的格式。SRC_TRAIN_DATA="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\train.en"#源语言输入文件。TRG_TRAIN_DATA="F:\TensorFlowGoogle\201806-github\TensorFlowGoogleCode\Chapter09\train.zh"#目标语言输入文件。CHECKPOINT_PATH="F:\temp\seq2seq_ckpt"#checkpoint保存路径。HIDDEN_SIZE=1024#LSTM的隐藏层规模。NUM_LAYERS=2#深层循环神经网络中LSTM结构的层数。SRC_VOCAB_SIZE=10000#源语言词汇表大小。TRG_VOCAB_SIZE=4000#目标语言词汇表大小。BATCH_SIZE=100#训练数据batch的大小。NUM_EPOCH=5#使用训练数据的轮数。KEEP_PROB=0.8#节点...