同类图书

Similar books 换一批
  • 区域特色农产品加工产业集群的培育与提升:产业链视域下对达州的审视

    作者:傅忠贤

    本书综合运用经济学、社会学等多学科知识,以“产业链”和“产业集群”为研究视角,以推动农产品加工业实现从粗放发展向集约发展转变、从总量扩张向提档升级转变、从分散无序向集聚发展转变“三个转变”,推动达州经济发展实现从资源优势到产业优势到竞争优势再到经济优势的转化为目标,分析研究达州培育和提升特色农产品加工产业集群的问题。本书对区域农产品加工产业集群的培育和地方党委政府的科学决策具有参考价值。

  • 李达思想研究

    作者:苏志宏

    本书是研究李达相关思想的形成和发展过程的。第一,界定了李达思想的历史地位和当代意义。第二,本书所涉及的研究李达思想的内容、述评、结论、大都是能发前人所未发的创新性论述。第三,描述了马克思主义哲学中国化的80多年来的基本逻辑线索,构成了本书区别于其他相关著述的最基本的特征。

  • 广义计划学──建筑业持续健康发展的关键理论与实践

    作者:李百毅 郑敏 李百战

    本书是作者近17年来积累的研究与实践成果,包括十大章节,前六章主要是广义计划学相关的理论,第一章主要阐述了城市新区建设与重大工程项目中关于目标、控制与计划的逻辑与框架;第二章主要阐述计划的过程论;第三章主要阐述计划的技术论,通过总结归纳了不同时期的主要计划技术;第四章主要阐述了广义计划学的理论框架与动态协同计划的方法;第五章阐述了广义计划过程模型的创建方法、过程以及成果;第六、七、八、九章主要阐述了广义计划学在城市新区建设、大型综合体,中型商业广场以及高新园区的应用案例;第十章,是总结章节,指出了广义计划学未来的发展方向与研究应用重点。

图书分类

Book classification
  1. 本书为专著,以藏文文本处理为核心任务,从理论到实践阐述了大数据环境下藏文文本类型数据的分析方法,探讨了当前主流的文本挖掘技术以及这些技术在藏文文本分析处理中的具体应用。书中阐述了藏文字符处理、词汇分析、句法分析、藏文文本表示、藏文文本分类、藏文文本聚类、藏文信息抽取等藏文文本分析与文本挖掘方面的理论与方法;书中提出的相关技术方法可以直接用于解决藏文文本分析与文本挖掘的问题。本书可作为高校藏文信息处...查看更多
  2. 随着大数据时代的到来,用户可获得的信息也越来越丰富和多样化,但是这些信息中超过80%是非结构化的,基本上都是以自然语言文本的形式表现出来的,如书籍、新闻报道、研究文章等社交媒体信息和网页,这些来源不一的文本数据构成了一个异常庞大的、具有异构性和开放性等特点的大型分布式数据库。针对这些非结构化的数据,如何有效分析并挖掘出这些数据中所隐含的内容对于信息的理解和数据之间潜在关系的寻找都具有重要的意义。因此,社会各界对于文本信息的分析和挖掘的需求非常强烈,针对文本数据的分析与挖掘理论方法的研究和应用也成为当前自然语言处理方面研究的前沿与热点问题,且应用前景广阔。文本分析与文本挖掘就是把文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从自然语言文本中挖掘用户所感兴趣的模式和知识的方法技术,这种模式和知识对用户而言是新颖的,具有潜在价值。这类研究的最大挑战在于对非结构化自然语言文本内容的分析和理解。这种挑战表现在两个方面:一是文本内容几乎都是非结构化的,而不像数据库和数据仓库,都是结构化的;二是文本内容是由自然语言描述的,而不是纯用数据描述的,通常也不考虑图形图像等其他非文字形式。因此,文本分析与文本挖掘的研究与多个研究领域有密切的关系,如信息检索、信息过滤、自动摘要、文本自动聚类、文本自动分类、计算语言学、数据挖掘、人工智能、统计学等,其所涉及的技术内容也是与自然语言处理、模式分类和机器学习等相关技术密切结合的一项综合性技术。
    本书正是在这样一个背景下,针对当前藏文信息处理方面的发展情况,系统性地介绍了藏文文本分析与文本挖掘的基本理论和知识框架,内容涵盖了藏文文本分析挖掘处理的多方面内容。本书一共分为8章,1~4章由陈小莹编写,5~8章由艾金勇编写。其中第1章对于藏文文字、藏文文法、藏文文本特征、藏文编码和藏文文本挖掘进行了总体性介绍,也为后面内容说明提供了前期的理论基础;第2章主要介绍藏文字符处理技术,分别针对藏文文字的结构特征、输入技术、规范化处理和结构识别方面进行了讨论;第3章从藏文词法分析方面出发,主要介绍了当前研究较多的藏文自动分词和词性标注的基本理论,并在后面列举了一些比较有代表性的研究内容;第4章主要是藏文句法分析,从藏文句法分析的主要任务出发,再结合藏文句子特点和类别特征,重点介绍了几种不同技术对于藏文句法分析的实例;第5章是藏文文本表示模型研究,重点关注了当前文本特征表示的方法,并在此基础上列举了一些藏文文本表示的研究实例;第6章是藏文文本分类算法的研究,通过对文本分类的流程、文本特征项的提取方法、文本分类算法和算法性能评价等理论知识的介绍,讨论了当前各种藏文分类算法的研究情况;第7章在藏文文本聚类算法研究中,主要考虑从其与藏文文本分类的对比介绍,通过聚类概念、任务和相关的几个重点问题的理论介绍,重点说明了文本聚类的一些特殊方法,并且列举了藏文文本聚类算法的研究实例;第8章为藏文web文本挖掘方法,主要针对web文本这一特殊类型的文本,也是当前产生最多的文本的具体处理方法的探讨,并提出了藏文web文本处理的具体方法。
    本书的出版是在西藏民族大学重点实验室“藏语语言资源建设研究中心”资助下完成的。本书也是西藏自治区哲学社会科学专项资金项目“基于小字符集的现代藏文音节的自动标音方法研究”(批准号:13BYY001)、西藏自治区高校青年教师创新支持计划“基于藏文web文本的关联知识挖掘方法研究”(批准号:QCZ2016-44)、西藏自治区科学技术厅自然科学基金项目“基于语义的藏文百科知识问答系统关键技术的研究”(批准号:2016ZR-MY-04)和“面向知识发现的藏文文献知识关联揭示方法研究”(批准号:XZ2017ZRG-56)等项目资助下所完成的项目成果之一。
    本书在编写过程中,更登磋和索郎朋措为本书的藏文翻译提出了许多宝贵的意见,此外,本书的编写出版也得到了项目组、研究中心成员以及西南交大出版社编辑老师们的帮助和支持,在此一并表示衷心的感谢!
    由于编著人员水平有限,加之时间仓促、可参考资源相对较少,书中难免存在不妥之处,恳请广大读者批评指正!
    作  者
    2020年7月
    ...查看更多
  1. 第1章  绪  论 1
    1.1  藏文概述 1
    1.1.1  藏文文字的性质 1
    1.1.2  藏文文法的主要内容 2
    1.2  藏文文本特征 5
    1.2.1  藏文文字特征 5
    1.2.2  ;藏文词语特征 6
    1.2.3  藏文句子特征 8
    1.3  藏文编码标准情况 9
    1.3.1  ASCII码 9
    1.3.2  中文字符的编码 10
    1.3.3  藏文字符编码国家标准 11
    1.3.4  国际字符编码UNICODE及藏文字符编码国际标准 13
    1.4  藏文文本挖掘 15
    1.4.1  文本挖掘基本概念 15
    1.4.2  文本挖掘主要技术 16
    1.4.3  文本挖掘的一般过程 18
    1.4.4  文本挖掘面临的困难 19
    第2章  藏文字符处理 22
    2.1  藏字的结构 22
    2.1.1  藏字的结构分析 22
    2.1.2  藏字的构件 23
    2.2  藏文字符输入技术 24
    2.2.1  藏文字符键盘编码理论 24
    2.2.2  藏文字符键盘设计分析 25
    2.2.3  藏文字符键盘布局国家标准 26
    2.2.4  Windows藏文字符键盘输入技术 31
    2.3  藏文文字的规范化处理 32
    2.3.1  特殊符号的归一化 32
    2.3.2  外借词的藏文化处理 33
    2.3.3  黏着语的规范化处理 35
    2.4  藏文文字的结构识别 38
    2.4.1  小字符集编码的藏文音节结构 38
    2.4.2  现代藏文音节正字法知识 39
    2.4.3  藏文文字结构的辨识 39
    2.4.4  藏文音节构件的确定算法 41
    第3章  藏文词法分析 43
    3.1  藏文词法分析概述 43
    3.1.1  藏文词法分析研究的问题 43
    3.1.2  词法分析研究面临的困难 44
    3.1.3  一体化藏文词法分析框架 44
    3.1.4  藏文词法分析的意义与作用 46
    3.1.5  藏文词法分析的目标 47
    3.2  藏文自动分词 47
    3.2.1  藏文自动分词概述 47
    3.2.2  藏文分词的方法 51
    3.2.3  基于条件随机场的藏文分词方法 56
    3.2.4  藏文未登录词的处理方法 58
    3.3  藏文词性标注 59
    3.3.1  藏文词类标记集 60
    3.3.2  基于最大熵模型的藏文词性标注 62
    3.4  藏族人名识别 64
    3.4.1  藏族人名的结构 64
    3.4.2  藏族人名的特点 65
    3.4.3  藏族人名的识别策略 65
    3.4.4  基于词位的藏族人名识别方法 66
    3.4.5  基于条件随机场的藏族人名识别 68
    3.5  藏文词处理方法测评 68
    3.5.1  黄金标准 68
    3.5.2  评价指标 69
    第4章  藏文句法分析 70
    4.1  句法分析概述 70
    4.1.1  句法分析概念 70
    4.1.2  句法分析基本策略 70
    4.2  藏文句子概述 71
    4.2.1  藏文句子概念 71
    4.2.2  藏文句子特点 72
    4.2.3  藏文句尾词性特征分析 73
    4.3  藏文句子类别 74
    4.3.1  藏文句子分类 74
    4.3.2  藏文句子基本结构 74
    4.3.3  藏文句型分类 74
    4.3.4  藏文句型功能特征分析 76
    4.4  藏文句法分析 77
    4.4.1  句法分析概述 77
    4.4.2  基于概率上下文无关文法的藏语句法分析 80
    4.4.3  藏文依存句法分析 82
    第5章  藏文文本表示模型研究 86
    5.1  文本表示概述 86
    5.2  文本特征项 86
    5.3  文本特征表示方法 87
    5.3.1  基于字的特征表示法 88
    5.3.2  基于词的特征表示法 88
    5.3.3  基于短语的特征表示法 93
    5.3.4  基于概念的特征表示法 95
    5.4  藏文文本表示方法研究 100
    第6章  藏文文本分类算法研究 103
    6.1  文本分类概述 103
    6.1.1  文本分类定义 103
    6.1.2  自动文本分类 104
    6.1.3  文本分类的基本流程 105
    6.1.4  文本分类的应用领域 106
    6.2  文本特征提取方法 107
    6.2.1  频率统计法 107
    6.2.2  互信息法 108
    6.2.3  信息增益法 108
    6.2.4  卡方检验法 109
    6.2.5  其他方法 109
    6.3  文本分类算法 110
    6.3.1  朴素贝叶斯模型 110
    6.3.2  支持向量机算法 111
    6.3.3  KNN算法 113
    6.3.4  神经网络算法 114
    6.4  算法性能评价 117
    6.4.1  二元分类评价 117
    6.4.2  多类问题评价 118
    6.5  藏文文本分类算法研究 119
    6.5.1  基于朴素贝叶斯的藏文文本分类研究 119
    6.5.2  基于KNN模型的藏文文本分类研究 123
    6.5.3  基于SVM的藏文文本分类研究 124
    第7章  藏文文本聚类算法研究 126
    7.1  文本聚类概述 126
    7.1.1  文本聚类的概念 126
    7.1.2  文本聚类的任务 126
    7.1.3  文本分类的应用领域 127
    7.2  文本聚类分析的常用特征表示 128
    7.3  文本相似性度量 129
    7.3.1  样本间的相似性 130
    7.3.2  簇间的相似性 132
    7.3.3  样本与簇间的相似性 133
    7.4  文本聚类方法 133
    7.4.1  划分聚类方法 133
    7.4.2  层次聚类方法 136
    7.4.3  密度聚类方法 137
    7.4.4  基于模型的聚类 139
    7.4.5  竞争聚类类型 141
    7.5  聚类算法性能评估 142
    7.6  藏文文本聚类方法 144
    第8章  藏文web文本挖掘方法研究 146
    8.1  web文本挖掘概述 146
    8.1.1  web文本数据应用及特点 146
    8.1.2  web文本挖掘及挖掘类型 147
    8.1.3  web文本挖掘过程 148
    8.2  网页结构特点 151
    8.2.1  网页特征 152
    8.2.2  网页结构 152
    8.2.3  网页架构 152
    8.3  web文本信息获取方式 153
    8.3.1  网络爬虫 153
    8.3.2  其他web信息程序获取方式 157
    8.3.3  web文本信息抽取 157
    8.3.4  自然语言文本结构化信息抽取 158
    8.4  web信息文本抽取相关知识 159
    8.4.1  XPath技术 159
    8.4.2  解析模板以及解析模板的生成技术 161
    8.5  藏文网页文本主题信息抽取算法实现 161
    8.5.1  藏文网页规范化处理 161
    8.5.2  藏文网页标签的线性重构 162
    8.5.3  藏文网页正文抽取算法实现 163
    8.5.4  藏文网页主题抽取算法实现 164
    参考文献 167
    ...查看更多
  2. 艾金勇,西藏民族大学副教授;研究方向为藏文信息处理、数字图书馆技术;近年来参与多项国家级和西藏自治区级项目,主持西藏自治区级项目2项;发表论文30余篇,其中核心期刊论文7篇;陈小莹,西藏民族大学讲师

评论

0/500