[转帖]印度对自然语言处理的独特挑战_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 3747 | 回复: 0

主题： [转帖]印度对自然语言处理的独特挑战

liuliying930406

注册用户

等级：中校
经验：2027
发帖：210
精华：0
注册：2018-10-9
状态：离线
发送短消息息给liuliying930406

加好友发送短消息息给liuliying930406

发消息

发表于：

2018-10-16 10:19:01 | [全部帖] [楼主帖]

楼主

转自公众号息息生活

在开发实用程序应用程序方面备受关注，这些应用程序依赖于对语言的理解，在呼叫中心，客户服务，搜索，虚拟代理等方面充当机器人。

在世界上快速增长的经济体和人口第二大的经济体中，印度市场引起了相当大的兴趣，并且受到互联网和软件公司的关注。在开发实用程序应用程序方面备受关注，这些应用程序依赖于语言的理解，在呼叫中心，客户服务，搜索，虚拟代理等多个渠道（包括语音，网络和社交）中充当机器人。

印度对自然语言处理的独特挑战

Bain＆Company的广泛报道“为Bharat解锁数字”估计印度目前有3.9亿互联网用户，其中五分之一拥有智能手机。但它也认识到需要根据本地需求和行为创建解决方案，这对于提高用户参与度至关重要。由于在线用户倾向于年轻，男性，城市人口，因此大部分人口仍未受到在线访问的影响。自然语言处理（NLP）有可能扩大在线访问印度人口的更广泛份额。

由于高计算GPU机器，广泛的互联网可用性和速度以及移动设备的普及，NLP技术的发展显着增长。现在是印度接受这个的时候了吗？围绕文本到语音和语音到文本的新服务将极大地帮助低收入，视觉挑战和不同能力成为数字印度革命的一部分。作为GoogleNext Billion计划的一部分，语音搜索已经推出了八种印度语言，使消费者能够使用他们的语音进行搜索查询。

根据最近的调查- 聊天机器人如何重塑在线体验- 消费者指出的机器人的好处是能够获得24小时服务（64％），然后获得即时回复查询（55％），并获得答案简单的问题（55％）。但那就是事情变得复杂的地方。

语言歧义和复杂性

尽管英语是我们的官方语言，但只有10％的印度人说英语。百分之九十讲印度语，马拉地语，古吉拉特语，孟加拉语，卡纳达语，泰卢固语，泰米尔语等语言，仅举几例在印度使用的29种主要语言。

NLP是人工智能技术的一部分，是理解和操纵人类语言的关键。理解一种语言意味着知道单词，短语，句法形式和概念，并且知道如何以有意义的方式将这些概念联系在一起。这需要有关语言的广泛知识和解释它的能力。NLP当然提供有用的功能，例如词性标注，词形还原，短语提取，文本分类，实体提取，主题提取和解析。

NLP的当前方法主要由计算统计驱动。这些方法不会尝试理解文本，而是将文本转换为数据，然后尝试从该数据中学习模式。因此，机器很难理解人类语言，因为它伴随着依赖于背景和非显性信息的细微差别和意义。因此，解释印度语有许多额外的挑战。印度语不使用拉丁字母，而是使用从Brahmic脚本派生的字母。这不是NLP最容易理解的语言集。

某些时候某些词语存在歧义，其中语言中的同一个词在不同时间由不同的人发音不同，并且可能具有不同的含义，具体取决于语境，心态和地理位置。NLP算法必须弄清楚这些差异。

举个例子：

Accha！- 好极了！或者很好！和同一个词（Accha？）意味着- 真的吗？

Kya baat hai！- 太棒了！和（Kya baat hai？）的意思是- 什么事？

解决这些歧义并且需要词汇资源和工具来开发消歧技术是一项非常复杂的任务。

缺乏语言语法，文献和文件标准

今天最艰巨的挑战之一是尽管有数百万以英语为母语的人使用这些语言，但缺乏有关文学和语法的资源。在没有基本词汇资源的情况下构建NLP算法非常具有挑战性。有一些基于规则的方法是特定于语言的，但它们容易出错。电子和信息技术部已率先在所有这些努力中代表Unicode标准中22种宪法承认的语言。

难以获得数据

大多数NLP算法需要足够大的文本集合，其中包含所有可能的排列和意义组合。发现这些基于单词的模式揭示了文本中的智能，提供了更好的NLP性能。除此之外，法律合同，新闻文章，研究报告等文档经常使用特定领域的话语模型，这些文档也需要纳入NLP算法以提高其性能。

不幸的是，与主要西方语言相比，大多数印度语言的数据集规模都很小。

翻译工作

随着深度学习的进步，翻译服务比以前更加快速和准确。因此，另一种方法是将非英语语言翻译成英语，通过基于英语的NLP引擎传递，收集答案，然后将其翻译成非英语语言。虽然这是一种方法，但这是一个繁琐的过程，在翻译成语和口语时仍然很困难。

取得进展

但是有进展。C-DAC基于图形和智能的脚本技术（GIST）实验室和印度语言技术开发（TDIL）已经引领了创建语言语料库，词典和工具的计划。IIT（印度理工学院）孟买成立了印度语言技术中心（CFILT），获得了信息技术部（DIT）的资助，以促进NLP研究和开发，并建立了印地语，马拉地语和梵语WordNet。

NitiAyog在其#AIforall计划中致力于利用人工智能促进经济增长和社会发展。该计划将支持基于人工智能的语音识别，自然语言处理研究，开发和创建各种新应用程序。换句话说，我们有一些最好的大脑致力于解决印度的NLP挑战。

我们当然可以期待在未来看到NLP驱动的会话机器人，到达印度的各个角落及其多样化的语言。这比我们希望的时间要长一点。