Brainmaker

Nanos gigantium humeris insidentes!

自然语言理解技术及其应用探讨(上)

  • July 8, 2010 9:41 pm


(这条文章已经被阅读了1228次) 时间:2001年11月16日 11:29 来源:陆元婕 原创-IT

随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别 是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语 言)的结果。

Terminology

  • July 8, 2010 9:12 pm

P

Part-of-speech tagging (POST) also called grammatical tagging or word-category disambiguation, is the process of marking up the words in a text (corpus) as corresponding to a particular part of speech, based on both its definition, as well as its context —ie. relationship with adjacent and related words in a phrase, sentence, or paragraph. A simplified form of this is commonly taught to school-age children, in the identification of words as nouns, verbs, adjectives, adverbs, etc.

Propositions A proposition is a written or uttered sentence which is declarative and which we agree to view as being either true or false, but not both.

S

Shallow parsing an analysis of a sentence which identifies the constituents (noun groups, verbs, verb groups, etc.), but does not specify their internal structure, nor their role in the main sentence.

July 9 Books to read

  • July 8, 2010 1:48 pm

Jackendoff’s conceptual semantics

  • July 7, 2010 10:46 pm

8.1.1 Concepts and decomposition

Like many semantic theories, Jackendoff claims that a decompositional method is necessary to explore conceptualization.

Bill went into the house.

syntactic structure

[NPBill][VP[Vwent][PP[Pinto][NPthe house]]]]

conceptual sstructure

[EVENTGO([THINGBILL],[PATHTO([PLACEIN([THINGHOUSE])])])]

The square brackets identify the sentence’s conceptual constituents – the actual bits of meaning or semantic content which the sentence expresses. Each of these constituents can be assigned to a major ontolotical category, such as Thing, event, State, Action, Place, Path, Property and Amount, coded in subscript capitals. jackendoff describes these ontological categories as conceptual ‘parts of speech’.

一阶逻辑的不足

  • July 7, 2010 9:21 pm

http://zh.wikipedia.org/zh-tw/%E4%B8%80%E9%98%B6%E9%80%BB%E8%BE%91#.E8.BD.AC.E6.8D.A2.E8.87.AA.E7.84.B6.E8.AF.AD.E8.A8.80.E5.88.B0.E4.B8.80.E9.98.B6.E9.80.BB.E8.BE.91

转换自然语言到一阶逻辑

用自然语言表达的概念必须在一阶逻辑(FOL)可以为为其效力之前必须被转换到FOL,而在这种转换中可能有一些潜在的缺陷。在FOL中,意 味着「要么p要么q要么二者」,就是说它是「包容性」的。在英语中,单词「or」有时是包容性的(比如,「加牛奶或糖?」),有时是排斥性的(比如,「喝 咖啡或茶?」,通常意味着取其中一个或另一个但非二者)。类似的,英语单词「some」可以意味着「至少一个,可能全部」,有时意味着「不是全部,可能没 有」。英语单词「and」有时要按「or」转换(比如,「男人和女人可以申请」)。 [2]

[编辑一阶逻辑的限制

所有数学概念都有它的强项和弱点;下面列出一阶逻辑的一些问题。

[编辑难于表达if-then-else

太奇怪了,(如典型定义的)带有等式的FOL不包含或允许定义if-then-else谓词或函数if(c,a,b),这里的c是表达为公式的条 件,而ab是要么都是项要么都是公式,并且它的结果是a如果c为真,或者b如果它为假。问题在于FOL中,谓词和函数二者只接受(「非布尔类型」)项作 为参数,而条件的明确表达是(「布尔类型」)公式。这是不幸的,因为很多数学函数是依据if-then-else而方便的表达的,而if-then- else是描述大多数计算机程序的基础。

在数学上,有可能重定义匹配公式算子的新函数的完备集合,但是这是非常笨拙的。[3] 谓词if(c,a,b)如果重写为就 可以在FOL中表达,但是如果条件c是复杂的这就是笨拙的。很多人扩展FOL增加特殊情况谓词叫做「if(条件,a, b)」(这里ab是公式)和/或函数「ite(条件,a, b)」(这里的ab是项),它们都接受一个公式作为条件,并且等于a如果条件为真,或b如果条件为假。这些扩展使FOL易于用于某些问题,并使某类自动 定理证明更容易。[4] 其他人进一步扩展FOL使得函数和谓词可以在任何位置接受项和公式二者。

[编辑类型(种类)

除了在公式(「布尔类型」)和项(「非布尔类型」)之间的区别之外,FOL不包括类型(种类)到自身的概念中。 某些人争辩说缺乏类型是巨大优点 [5],而很多其他人发觉了定义和使用类型(种类)的优点,比如帮助拒绝某些错误或不想要的规定 [6]。 想要指示类型的那些人必须使用在FOL中可获得的符号来提供这种信息。这么做使得这种表达更加复杂,并也容易导致错误。

单一参数谓词可以用来在合适的地方实现类型的概念。例如:

谓词Man(x)可以被认为是一类「类型断言」(就是说,x必须是男人)。 谓词还可以同指示类型的「存在」量词一起使用,但这通常应当转而与逻辑合取算子一起来做,比如:

(「存在既是男人又是人类的事物」)

容易写成,但这将等价与 (「存在不是男人的事物或者存在是人类的事物」),这通常不是想要的。类似的,可以做一个类型是另一个类型的子类型的断言,比如:

(「对于所有x,如果x是男人,则x是哺乳动物)

[编辑难于刻画有限性或可数性

主条目:二阶逻辑

Löwenheim–Skolem定理得出在一阶逻辑中不可能刻画有限性或可数性。例如,在一阶逻辑中你不能断言实数的集合的上确界性质,它声称实数的所有有界的、非空集合都有上确界;这就需要二阶逻辑了。

[编辑图可及性不能表达

很多情况可以被建模为节点和有向连接(边)的。 例如,效验很多系统要求展示不能从「好」状态触及到「坏」状态,而状态的相互连接经常可以建模为图。但是,可以证明这种可及性不能用谓词逻辑完全表达。换 句话说,没有谓词逻辑公式f,带有uv作为它的唯一自由变数,而R作为它唯一的(2元)谓词符号,使得f在一个有向图中成立,如果在这个图中存在从关联 于u的节点到关联于v的节点的路径。[7

FOL

  • July 7, 2010 3:37 pm

Whereas propositional logic assumes the world contains facts,
first-order logic (like natural language) assumes the world contains

  • Objects: people, houses, numbers, colors, baseball games, wars, …
  • Relations: red, round, prime, brother of, bigger than, part of, comes between, …
  • Functions: father of, best friend, one more than, plus, …

Syntax of FOL

•Constants  KingJohn, 2, NUS,…
•Predicates  Brother, >,…
•Functions  Sqrt, LeftLegOf,…
•Variables  x, y, a, b,…
•Connectives  Ø, Þ, Ù, Ú, Û
•Equality  =
Quantifiers    “, $

Atomic sentence =  predicate (term1,…,termn)   or term1 = term2

Term              =  function (term1,…,termn)   or constant or variable

•E.g., Brother(KingJohn,RichardTheLionheart) > (Length(LeftLegOf(Richard)), Length(LeftLegOf(KingJohn)))

关于Automatic Semantic annotation的想法

  • July 7, 2010 12:08 am

为什么人能判断出句子成分,而机器却不行:因为

  1. 人知道句子结构有哪些
  2. 人知道词汇的内在含意
  3. 由上面两者推出结构,并一定程度上依据经验(Empirical, probabilistic )

Idea 1: 设计Automatic Semantic annotation时要先有句子结构的模型, 然后参照句子词汇的内在关系,加之概率,得出。

Idea2:这个过程,如果不考虑(Empirical, probabilistic ),那么本身就是一个一阶推导过程:句子结构是rule, 词汇的内在含意是fact,然后由这两者推导出sematic role

Idea3:虽然文献中说,分清了成分结构之后就能回答when, what, how之类的问题,但是否真的需要完全弄清成分才能写成一阶命题呢。如RegisteredAs之类不就是从句法成分来划分,而非句法功能来划分吗?
如果真的是这样,那么要做的重要的事是证明用句法成分与一阶逻辑表达能力的等价性–不是说一阶逻辑无法描述属性之类吗,那成分功能不就包含了这些,那不就说明了semantic role is more than FOL ‘s power 吗

expressive power are equivalent

Survey on Semantic Role Annotation

  • July 6, 2010 10:39 pm

问题方案2

  • July 6, 2010 10:35 pm
  1. 分析出指代结构,然后将一篇文章按句号拆成句子
  2. 分析出Semantic Role, 确定句子逻辑成分
    1. 用parser tree分析出每句的syntactic function(syntactic categories)
    2. 想办法由parser tree映射出semantic role(grammatical function)–目前没有已知的一一映射模型–这个问题称为Semantic Role Annotation
      1. 使用更细致的句式来判断
      2. 使用统计概率来判断
  3. 预选依据English Syntax,生成所有的句法对应的一阶逻辑语句
  4. 用3的规则去生成2中句子的对应fact和rule


有用的书 http://codetopper.com/others/175/reading-plan.html

Syntax:

  • English syntactic structures : functions and categories in sentence analysis / Flor Aarts and Jan Aar
    • Part II: Structure 非常好的句法结构分析

Verb Syntax: 关于predicate部分,以下两本书详细地包含了

  • An empirical grammar of the English verb system / Dieter Mindt
    • The verb system
  • The grammar of English predicate complement constructions [by] Peter S. Rosenbaum       PE1380 .R6 c.2
    • The complement for predicate

Logic & Predicate:谓词逻辑,可能有帮助

  • The semantic foundations of logic / Richard L. Epstein V.1       BC71 .E57 1994
  • Subject and predicate in logic and grammar / P.F. Strawson       B1667.S383 S83 2004

Syntatic Structure

  • July 6, 2010 10:20 pm

One of the difficulties involved in defining sentence functions semantically is that there seems to be no one-to-one correspondence between semantic role and syntactic function.

The same category may realize different functions and the same function may be realized by different categories. What makes the relation between function and realization so complicated is the almost complete absence in English of a one-to-one correspondence between them.

In fact, such a one-to-one correspondence exists only between the function predicator and the verb phrase.


Chapter 7 & Chapter 8 are very useful!