百度翻译em,百度翻译在线拍照扫一扫翻译

不少人都想知道关于百度翻译em和百度翻译在线拍照扫一扫翻译,接下来让小编详细讲解吧!

百度翻译em

起源DataFunTalk

本文长度为6500字,倡议阅览10+分钟

本文推荐自然语言疑转成数据库可操纵的SQL查语句的使用了。

[ 导读 ]语义剖析 ( Semantic Parsing ) 是自然语言处置技能的焦点任-务之一,触及语言学.盘算语言学.机械进修和认知言语等多个学科,在近几年中获取了普遍关心,语义剖析任-务有助于推进机器语言领会的迅速进展拉。

本文重点推荐语义剖析技能中的Text-to-SQL任-务,让机械主动将用户输出的自然语言疑转成数据库可操纵的SQL查语句,完成基于数据库的主动才能拉。

任-务推荐及钻研念头

现在,批量信息存储在结构化和半结构化知识库中,如数据库拉。关于这类数据的剖析和获得须要经过SQL等编程语言与数据库举行交互操纵,SQL的运用困难制约了非技术用户,给数据分析和运用带莱了较高的门坎呀。人们迫切需要技能或者器械完结自然语言与数据库的交互,因而降生了Text-to-SQL任-务呢。

咋们经过图1中的实例来推荐一下Text-to-SQL任-务呢。该任-务包罗二部-分Text-to-SQL解析器和SQL执行器呢。

解析器的输出是给定的数据库和针对该数据库的疑,输入是疑对应的SQL查语句,如图中血色箭头标示呢。SQL执行器在数据库上完结该查语句的施行,及给出疑的最后谜底,如图中绿色箭头标示拉。

SQL执行器有许多成熟的体系,如MySQL,SQLite等,该部-分不-是本文重点啦。本文重要推荐解析器,学术界中Text-to-SQL任-务默许为Text-to-SQL剖析模子拉。

图1

一开始的时候,咋们推荐一下术语“数据库”和“SQL查语句”

1. 数据库由一张或者多张表格组成,表格之中的干系经过外键给出呢。在该实例中,数据库由表 “祖国都市”和“2018年宜居城市” 组成,两张表经过外键“祖国都市”的“称号”列和“2018年宜居城市”的“称号”列失去联系;

2. SQL是数据库查询语言,其组成来源3部-分数据库(如实例SQL查语句中蓝色标注的成份).疑(如实例SQL查语句血色标注的成份).SQL关键词(如实例SQL查语句中的Select.From.Where等)呀。

次要,咋们推荐一下Text-to-SQL剖析模子呀。依照SQL的组成,解析器须要完结2个任-务,即“疑与数据库的映照”和“SQL变成”呀。

在疑与数据库的映照中,须要找到疑依附的表格和详细的列,如图1实例中,疑“绿化率前5的都市有哪一些,分-别隶属于哪一些省呀?”依附的数据库内容包罗表格“祖国都市”,详细的列“称号”.“所属省”.“绿化率”(SQL查语句蓝色标注成份)呀。

在SQL变成中,联合第一步辨认结局和疑包罗信息,变成知足语法的SQL查语句,如实例中的“Select 称号,所属省 From 祖国都市 Where 绿化率 > 30%”拉。

Text-to-SQL研究进展

Text-to-SQL技能可以或许有用地辅佐人们对海量的数据库举行查,因其有适用的使用场景,引发了学术界和工业界的普遍关心拉。咋们接下来将从相干数据集和模子二方方面面推荐该技能的研究进展拉。

1. 数据集推荐

图2给出了Text-to-SQL数据集发展趋势,代表数据集拜见表1呢。

图2

这个里面术语推荐


依照包罗行业数目,数据集分为单行业和多行业呀。
依照每一个数据库包罗表的数目,数据集分为单表和多表形式了。在多表形式中,SQL变成触及到表格的抉择拉。
依照疑复杂度,数据集分为简易疑和繁杂疑形式,这个里面疑复杂度由SQL查语句触及到的关键词数目.嵌套条理.子句数目等肯定了。
依照完全SQL变成所需轮数,数据集分为单轮和多轮呀。
若SQL变成融进渐进式对话,则数据集增添“联合对话”记号啦。现在唯有CoSQL数据集是融进对话的数据集呢。

表1

由图2和表1可知,现在潮流数据集都是多行业的,这就请求Text-to-SQL剖析模子除知足疑没有关系外,还要知足行业没有关系啦。

2. 模子推荐

SQL查语句是一位吻合语法.有思维构造的序列,其组成来源三部-分数据库.疑.SQL关键词啦。

在现在深度进修钻研布景下,Text-to-SQL任-务可被看做是一位相似于神经机器翻译的序列到序列的变成任-务,重要选用Seq2Seq模子框架了。基线Seq2Seq模子参加注意力.拷贝等机制后,在单行业数据集上能够到达80%以上的准确率,但在多行业数据集上功效很差,准确率均低于25%呀。

从编码和解码2个方方面面举行缘故原由剖析啦。

在编码阶段,疑与数据库之中须要造成很好的对齐或者映照干系,即疑中触及了哪一些表格中的哪一些元素(包罗列名和表格元素值);同时间,疑与SQL语法也须要举行映照,即疑中词语触发了哪一些关键词操纵(如Group.Order.Select.Where等).聚合操纵(如Min.Max.Count等)等;最终,疑表明的思维构造须要表现并反应到变成的SQL查语句上,思维构造包罗嵌套.多子句等了。

在解码阶段,SQL言语是1种有思维构造的言语,须要确保其语法合理性和可执行性啦。平凡的Seq2Seq框架并不具有建模这一些信息的才能啦。

现在基于Seq2Seq框架,重要有如下几种改良啦。

1)基于Pointer Network的改良

一开始的时候,SQL构成来源三部-分数据库中元素(如表名.列名.表格元素值).疑中辞汇. SQL关键字拉。次要,现在公然的多行业数据集为了检验模子数据库没有关系,在区分练习集和尝试集时请求数据库无交织,这类区分方法致使尝试集数据库中太大含量的元素属于未登录词呀。传统的Seq2Seq模子是处理不佳这类疑的了。

Pointer Network很好地解决了这一疑,其输入所用到的词表是随输出而转变的啦。具体做法是使用注意力机制,直-接从输出序列中采取单词作-为输入呢。在Text-to-SQL任-务中,将疑中辞汇.SQL关键词.对应数据库的一切元素作-为输出序列,使用Pointer Network从输出序列中拷贝单词作-为最后变成SQL的构成元素呢。

因为Pointer Network能够较好的知足详细数据库没有关系这一请求,在多行业数据集上的模子大多运用该互联网,如Seq2SQL[1].STAMP[8].Coarse2Fine[9] .IRNet[16]等模子拉。

2)基于Sequence-to-set的改良

在简易疑对应的数据汇合上,其SQL查语句情势简易(仅包罗Select和Where关键词),为了处理Seq2Seq模子中顺着规律差错带莱的影响(如“前提1 And 前提2”,预料为“前提2 And 前提1”,属于顺着规律差错,但对应的SQL是准确的),SQLNet[10]提出了Sequence-to-set模子,基于全部的列预料其属于哪一个关键词(即属于Select仍然Where,在SQLNet模子中仅预料是不是属于Where),针对SQL 中每一一位关键词挑选几率最高的前K个列呢。

该形式实用于SQL情势简易的数据集,在WikiSQL和NL2SQL这2个数据汇合上运用较多,且衍生出许多相干模子,如TypeSQL[11].SQLova[12].X-SQL[13]等了。

图3 Sequence-to-Set

3)基于TRANX(自顶向下文法变成)的改良

繁杂疑对应的SQL查语句情势也繁杂,触及到多关键词组合.嵌套.多子句等了。而且,尝试汇合中的某些SQL查语句情势在练习汇合中有无见过,这就请求模子不单对新数据库拥有泛化才能,对新SQL查语句情势也要有泛化才能拉。

针对这类情形,须要更多关心变成SQL的思维构造呀。为了确保SQL变成历程中语法恰当,一些模子最先摸索及运用语法树变成的办法了。

TRANX[14]框架鉴戒了AST[15]论文想法,依照目标语言的语法构建规约文法,基于该文法能够将变成目的表现为语法树(须要确保变成目的与语法树表现一一对应),随后完成了自顶向下的语法树变成体系,图4给出了该体系流程呢。

咋们简易推荐一下基于该体系完成Text-to-SQL任-务呢。

一开始的时候,依照SQL语法制订规约文(对应图4中的ASDL Grammar),须要确保每一一条SQL查语句均可由该文法产出了。

次要,策画动-作汇合用于转移体系(图4中的Transition System),基于该转移体系挑选恰当的规约文法变成语法树,该转移体系将语法树的变成转成动-作序列的变成,即转成一系列文法的挑选序列,文法在挑选历程中确保了合理性(即儿子节点文法均在父节点应的文法范畴内);该动-作序列的变成可基于Seq2Seq等框架举行呢。

该框架在代码生成.SQL变成等任-务上都已检验过,在Text-to-SQL任-务上的模子包罗IRNet[16].Global GNN[17].RATSQL[18]等了。

图4基于TRANX的code变成

4)其余改良

在多表数据汇合上,一些模子参加图互联网来加强数据库的表现,如Global GNN[17].RATSQL[18]等呀。在WikiSQL数据汇合上,因为该数据集给出了SQL施行体系,部-分模子经过参加履行指点[19]来晋升SQL的可执行性和准确率了。

3. 评估办法

Text-to-SQL任-务的评估办法重要包罗两种准确婚配率(Exact Match, Accqm).履行正确率(Execution Accuracy, Accex)了。

准确婚配率指,预料获得的SQL语句与标-准SQL语句准确婚配成-功的疑占比了。为了处置由成份顺着规律带莱的婚配差错,现在准确婚配评价将预料的SQL语句和标-准SQL语句按着SQL关键词分红多个子句,每一个子句中的成份表现为汇合,当2个子句对应的汇合一样则2个子句一样,当2个SQL一切子句雷同则2个SQL准确婚配成-功;

实行准确指,实行预料的SQL语句,数据库回返准确谜底的疑占比拉。

现在仅WikiSQL数据集支撑Accex,其余数据集仅支撑Accqm了。多数数据集公布了对应的评价脚-本,便利我们在同一个评价标-准下举行算法钻研呢。

接下来,咋们就数据集DuSQL的建立和模子DuParser的构建,向我们推荐百度在Text-to-SQL技能方方面面的钻研,并展现百度在ToB客服营业和搜寻营业中对该技能的使用,同时间也对该技能面对的应战和以后进展举行了一些思索拉。

百度对Text-to-SQL技能的钻研

百度在一些现实营业中须要用到Text-to-SQL技能,好比基于表格的.ToB的客服营业等,因此结合实际使用,在数据集建立及模子构建方方面面作了一些事情,有必定的技能累积拉。

1. 数据集DuSQL

由表1可见,现在Text-to-SQL数据集多数是英文数据集,中文数据集唯有NL2SQL数据集和CSpider数据集拉。

表1

这个里面CSpider数据集是英文数据集Spider的翻译版本,中英文化差异致使疑用语和学上存在差距,好比行政区划相干的数据在Spider数据集上表现为“州.县.市”等,在CSpider数据集上则表现为“省.市.县”等,这类差异性下降了该数据集在现实运用中的价格拉。

NL2SQL数据***的疑对应简易,疑类别为基于单/多前提查婚配的谜底检索,可以或许处理如“3000元如下的手机有哪一些”等简易疑,但没法处理“廉价的手机有哪一些”.“苹果8手机256G比128G贵几多”这个样子较难的疑拉。在现实使用中,后种困难较高的疑占比很高,特别是在商业智能(BI)和购物相干征询的营业中啦。

咋们从现实使用中随机抽取用户疑,就疑处理所须要的操纵对疑类别举行了人-工剖析,结局如表2所示,能够看出触及到盘算.排序.对比等操纵的疑有肯定的占比拉。

表2

为了更好地领会这一些疑类别,咋们枚举了一些疑类别及对应的疑实例(数据库见上篇图1),见表3

表3: 疑类别及实例

为了更好地笼罩现实使用中罕见的疑类别,使构建的数据集在现实使用中发-挥更大的价格,咋们基于现实运用剖析构建了多行业.多表.包罗繁杂疑的数据集DuSQL了。

数据集构建重要分为两大措施数据库构建和<疑,SQL查语句>构建呀。在数据库构建中,要确保数据库笼罩的行业充足普遍,在<疑, SQL查语句>构建中,要确保笼罩现实使用中罕见的疑类别了。

数据库重要来源百科(包罗三元组数据和百科页面中的表格).威望网站(如国家统计局.天眼查.祖国产-业信息网.中关村在线等).各领域年度报告和论坛(如贴吧)等呀。

从这一些网站发掘到表格后,咋们按表格的表头对同类表格举行了聚类,并依照表格中的实体链接等信息构建表格之中的失去联系,最后保存了813张表格,分为200个数据库呢。因为许多表格的内容较敏感,咋们仅运用了表格的表头,对表格内容举行了随机添补,没法确保事实性了。

基于一位半自动计划构建<疑, SQL查语句>,一开始的时候须要基于SQL文法主动变成SQL查语句和对应的伪言语疑描写,随后经过众包方法将伪言语疑描写改写为自然语言疑啦。在主动变成SQL查语句时,咋们策画了笼罩全部常见题类别的SQL规约文法,最后构建了近2.4万的数据呀。

表4展现了DuSQL数据集与其余多行业数据集的比较情形了。这个里面,时候盘算属于常数盘算,引入常量TIME_NOW(表现现在时候),好比数据库Schema为“”,疑为“XX公司建立几多年了”, SQL查语句为“Select TIME_NOW – 建立年份 Where 公司称号=XX”呀。在现实运用中,常数盘算中的时候盘算需要较大,因而咋们构建了相干数据拉。

表4CSpider来源Spider练习集和开拓集的翻译,其统计运用Spider的统计

2. 模子DuParser

基于现实使用,百度研发了1种基于表格元素辨认和文法组合的剖析算法DuParser,请求其在现实运用中可以或许基于用户供应的数据或者反应到达迅速迭代.功效可诠释.可控的请求,剖析算法框架见图5(对应的实例见图6,区别色的箭头表现了流程中各模块对应输入输出)拉。

图5

一开始的时候,“成份映照”模块完结疑中表格相干成份辨认(图6灰色箭头表现的流程),用户供给的数据包罗同义词.运用常见题情势等,该部-分可充分利用用户供给的数据举行成效优化呢。随后对辨认的成份举行SQL关键词辨认(图6紫色箭头表现的流程),该部-分算法基于Sequence-to-set模子改良啦。

前2个历程将疑中被映照成-功的辞汇替换成响应的标记,输出到基于文法组合的剖析算法中,该部-分的交换使以后模块与详细数据库没有关系,这晋升了模子对新数据库的泛化才能啦。

最终,在基于文法组合的语义剖析阶段,经过改良CYK算法,DuParser构建了一位自下向上的剖析框架(图6蓝色箭头表现的流程),而且,在文法组合历程中经过引入SQL片断与对应疑片断类似度婚配来挑选最优文法拉。

图6灰色箭头表现成份映照,紫色表现标签辨认,蓝色表现文法组合

该框架有如下几个好处


一开始的时候,与端到端的神经网络模子比较,她拥有优良的可解释性和功效可控性,简单举行体系调试和针对性功效优化;
次要,他能够充分利用用户供应的数据及反应,在用户任-务上迅速启动且加速迭代优化速率;
最终,该框架能够做成言语没有关系.行业没有关系,有很好的扩大才能了。

该模子在单表数据汇合上举行了功效检验,结局见表5(运用的预练习模子与对应的SOTA相同)拉。

表5

注:

1)NL2SQL数据集的SOTA是开源最棒模子[20]在开拓集上的结局;

2)WikiSQL数据集的SOTA模子是不加施行指点的X-SQL[13]模子;

3)Spider单表来源Spider数据***的单表部-分数据,SOTA模子是IRNet[16],评价了这个里面单表上的准确率(非bert版本);

4)百度使用数据会针对数据集做优化,重点是“同义词”部-分了。

百度对Text-to-SQL技能的使用

Text-to-SQL技能重要的使用场景是基于数据库的拉。在现实的运用中,百度将该技能使用于ToB客服营业和搜寻营业中呢。

关于ToB营业,以UNIT为输入接口,支撑结构化营业(拜见下方链接)拉。支撑的营业使用于车载对话体系.企业智能报表变成体系.通话客服体系等,图7给出落地于车载对话体系中的案例呀。

链接

图7

关于搜寻营业,咋们摸索了搜寻中的盘算类(图8)和企业表格(图9)呀。

图8

图9

现在应战及以后思索

Text-to-SQL技能在现实使用中可直-接运用,但因为现实应用领域笼罩普遍,模子须要知足行业没有关系.言语没有关系.疑没有关系呀。

现在模子在中心表现.树形解码.图互联网建模数据库等方位均有摸索,并获得了必定的效果,但对一些繁杂操纵的处理成效还不足不够好,可拜见Spider数据集标注为“难”和“极难”的数据成效啦。同时间,在现实使用中,还须要思考如下疑


表格的辨认及规范化表现表格默许以第一行动表头,但在现实发掘表格中,有三种情形以第一行动表头,以第一列为表头,或许第一行和第一列一同表现表格;发掘的表格存在信息缺失疑,如表名缺失.表格值不全等;同时间,面临多个表格时缺失表间链接干系呢。
外界常识的使用有一些知识信息不包罗在表格中,如排序操纵的方位判定(列为“出生日期”,疑为“年纪最大的职员”).表格值进制转换(列为“人丁(亿)”,疑为“人丁超5万万的都市”)等,这一些信息须要引入外界常识来配合SQL变成拉。
融进渐进式对话关于用户的歧义表明和隐约表明,须要有“发-反应-再发”的历程,这类疑常常须要经过多轮对话处理,而用户的疑平时是上下文相干的,因而须要模子具有基于上下文的领会和剖析才能了。

今日的分享就到这里,感谢我们呀。

参考文献

[1] Seq2sql: Generating structured queries from natural language using reinforcement learning (Victor Zhong, Caiming Xiong, Richard Socher. CoRR2017)

[2] Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task (Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, etc. EMNLP2018)

[3] A Pilot Study for Chinese SQL Semantic Parsing (Qingkai Min, Yuefeng Shi, Yue Zhang. EMNLP2019)

[4] SParC: Cross-Domain Semantic Parsing in Context (Tao Yu, Rui Zhang, Michihiro Yasunaga, Yi Chern Tan, etc. ACL2019)

[5] CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases (Tao Yu, Rui Zhang, He Yang Er, Suyi Li, Eric Xue, etc. EMNLP2019)

[6] https://tianchi.aliyun.com/markets/tianchi/zhuiyi_cn

[7] Pointer Networks (OriolVinyals, Meire Fortunato, Navdeep Jaitly. NIPS2015)

[8] Semantic Parsing with Syntax- and Table-Aware SQL Generation (Yibo Sun, Duyu Tang, Nan Duan, etc. ACL2018)

[9] Coarse-to-Fine Decoding for Neural Semantic Parsing (Li Dong, Mirella Lapata. ACL2018)

[10] SQLNet: Generating Structured Queries From Natural Language Without Reinforcement Learning (Xiaojun Xu, Chang Liu, DawnSong. CoRR 2018)

[11] TypeSQL: Knowledge-based Type-Aware Neural Text-to-SQL Generation (Tao Yu, Zifan Li, Zilin Zhang, Rui Zhang, Dragomir Radev. NAACL2018)

[12] Achieving 90% accuracy in WikiSQL (Wonseok Hwang, Jinyeong Yim, SeungHyun Park, Mnjoon Seo. CoRR2019)

[13] X-SQL: Reinforce Context Into Schema Representation (Pengcheng He, Yi Mao, Kaushik Chakrabarti, Weizhu Chen. CoRR2019)

[14] TRANX: A Transition-based Neural Abstract Syntax Parser for Semantic Parsing and Code Generation (Pengcheng Yin, Graham Neubig, EMNLP 2018 )

[15] Abstract syntax networks for code generation and semantic parsing (Maxim Rabinovich, Mitchell Stern, Dan Klein. ACL2017)

[16] Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation (Jiaqi Guo, Zecheng Zhan, Yan Gao, Yan Xiao, Jian-Guang Lou, Ting Liu, Dongmei Zhang. ACL2019)

[17] Representing Schema Structure with Graph Neural Networks for Text-to-SQL Parsing (Ben Bogin, Matt Gardner, Jonathan Berant. ACL2019)

[18] RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers (Bailin Wang, Richard Shin, Xiaodong Liu, Oleksandr Polozov, Matthew Richardson. Submitted to ACL2020)

[19] Robust Text-to-SQL Generation with Execution-Guided Decoding (Chenglong Wang, Kedar Tatwawadi, Marc Brockschmidt, Po-Sen Huang, Yi Mao, Oleksandr Polozov, Rishabh Singh. CoRR2018)

[20] https://github.com/beader/tianchi_nl2sql

编写黄继彦

校正林亦霖

—完—

要获取更多数据科-学行业相干动静,诚邀关心清华-青岛数据科-学研究院微信民众“ 数据派THU ”呢。

百度翻译在线拍照扫一扫翻译

咋们在网上查找材料或许阅览书本的时刻,常常会遇到内容是外语的情形拉。手动打字查找翻译就挺耽误时间,有无哪一些在线翻译器能够直-接照相扫瞄直-接翻译呢吧?底下就给小伙伴们说两种方法,一起身看看吧啦。


    咋们能够用手机百度来照相翻译,翻开后点击右上角的相机图标跳转到拍摄界面,挑选下方的翻译选项,随后就能够拍拍拍啦!

    假如以为辨认结局不尽人意或机翻难解决,也能够用其余辨认使用来翻译,翻开后先抉择页面下方的小功效,再点击照相翻译;

跳转到拍摄页面后能够直-接照相,也能够点击导入图片来翻译已有的图片呀。以后记得抉择好翻译的语种,这里我选的是英译中,肯定好了就点击下一步,等辨认结局进去就能够啦呢。

而今您晓得有哪一些在线翻译器能够照相扫瞄了吗吧?假如疑仍未处理能够留言告知我,希望您的复,我们下次见啦!

百度翻译em和一些关于百度翻译在线拍照扫一扫翻译的题,今天就讲到这里了,请持续关注本站。


除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。