雅虎NCP

[登录] 雅虎首页 NCP首页 帮助中心

都是出来混的

彪悍的人生不需要解释

微软亚洲研究院创始人李开复在演讲(

2007-10-21 21:14:09 | 作者:大家都是出来混的! | 点击:130 | 第1页/共2页 << 上一页 | 下一页 >>

 微软亚洲研究院创始人李开复在演讲(全文)

   新浪科技讯11月5日“二十一世纪的计算-探索计算之源”国际学术研讨会在北京国际会议中心举行,微软公司高级副总裁Rick Rashid博士、菲尔兹奖获得者丘生桐博士、图灵奖获得者Raj Reddy博士、微软亚洲研究院院长兼首席科学家张亚勤博士、微软公司副总裁李开复博士等知名学者做了主题演讲。新浪科技对本会议做了全程独家直播报道。

  以下为微软亚洲研究院创始人李开复演讲全文

我记得在五年前的今天是我们微软亚洲研究院成立的时候,我曾经说过这么一句话身为在软件界工作的人能够在微软工作感觉非常幸运,身为炎黄子孙,我能够在中国工作感到非常幸运,在五年之后的今天,回顾这五年在微软研究院的成就,看到今天多种研究结果辉煌的演示,而且见到这么多中国年轻的朋友、学生,让我感到非常欣慰,而且非常自豪。微软,亚洲研究院我为你们的成功感到自豪,中国,我为你未来的潜力感到自豪,中国的学生,我为能够在中国出一点力量,帮助你们成长,感到自豪。谢谢。我从一个幸运的人变成一个自豪的人,今天我演讲的题目是一个让我工作了20多年,也感觉非常幸运,因为我有非常多好的老师。如果我们从计算机界能够找到两位非常有哲理的计算机教授,他们分别是两位MIT的教授,他们曾经说过这样的话,语音和语言是人类的一个工程,是人类的一个创作。因为在数千年前人类并没有语言和语音这个东西,人创造发明这个东西是希望能够通过语言来做沟通,做人际交流,因为有这样的人际交流这样一个习惯,这样一个工程,希望让机器也能够用同样的方法和我们沟通。计算机界上两位非常有哲理的哲学家,两位非常务实的专家分别是英特尔和Microsoft的创始人,他们认为过去人类为自己人际交流的工具,也将是未来人机最自然、最表达性的用户界面的方式。所以我们可以看到的是过去这五六十年来科幻片里面用的人机的科幻界面用的都是语言和语音,而且我们能够看到微软、苹果等公司对未来技术的展望,作出一些录像让人们对未来的展望非常乐观,这些录像也都是用语音的界面,现在我们来看两个例子,第一个例子是很有名的科幻片。

  这是一个70年代很有名的科幻片,在这里面计算机虽然是有会话式的交流,但是是一个非常邪恶的计算机,最后我们看到这位主人翁被会话性的计算机所谋杀了,这是一个例子。但是并不见得这种用户界面都是邪恶的。我们看另外一个例子,这是苹果公司非常有名的一个例子,它是非常经典的一个会话式用户界面的创作,这里面没有任何一个技术是真的,它只是对未来的展望。

  我就放到这里,但是我们可以看到这是一个教授他在和经过新一代会话式的用户界面他和另外一个教授进行了合作,而他有一个非常聪明得力的助手,随时都有无限而且精确的信息能够帮助他更好地工作。这两个例子都是一个非常长远、非常科幻的甚至是不可达到的一个目标。但是我们可以从这两个例子看出来,为什么这么多人都对这样的未来多么向往,因为我们就可以和机器有很好的沟通,能够自己工作更有效率。所以人们不能避免地都对这个未来的前景非常看好,而且很多人对未来,包括我自己做的一些预测,而这些预测今天并没有达到,但是从1950年MIT的校长就认为说也许十年之后我们就可以做人机的机器翻译,1957年诺贝尔的得主就预测十年之内计算机能够做很多工作,包括人工智能方面的预测。在1969年,这不是一个人,而是一个美国专家协会他们预测在1978年语音的输入和输出将成为一个自然交流的方式。在1993年,很不幸的是我做了一个预测2003年所有语音都会作为一个计算机的功能,虽然现在有很多计算机都有语音的功能,但是几乎没有用户在用它。在1998年美国最受尊敬的在商业方面的一个专家组预测在2003年PC会有语音输入的能力,而且会成为用户界面的一个重点方向。2003年这个预测也没有达到。所以在这些非常乐观的人对未来的前景非常看好,做了一个非常乐观的预测,而今天这一个又一个预测,从1950年到1998年都没有达到,那么今天在此我们是应该对未来感到一份绝望呢?还是应该对未来有一个新的乐观,这就是我今天想要讲的主要的题目。如果我们把会话式的计算机能够拆分出来,比较简单的,刚才舒教授给了比较完整的图片,如果我们简单来看的话有三个部分,语音识别、语音理解和语音合成,这是三个最重要的部分,我们我将介绍这三个部分过去十年的进展,这十年进展有没有给我们一些启示我们应该是乐观还是悲观?

  在介绍完这三个技术之后将探讨是不是十年之后可以达到未来这些非常好的前景还是会有更大的挫折,我很勇敢地将再做一次对十年之后的预测,希望十年之后来到中国能够证明这次预测比上次预测成功。首先我想讲的是语音识别。语音识别在二三十年前更多人是想用专家系统的方式来模拟人听的方式,用专家系统来做一个很好的语音识别。但是在80年代在IBM的工作更证明用下列的方法能够得到更好的结果,基本上概念很简单,如果X是我们讲的音波,W是所有可能的词或者是句子,要做一个语音识别系统就是要搜索所有可能的句子W,挑选一个W把这个值能够做的越大越好,也就是说我听到X这个音波之后,在所有的句子里要挑一个概率最高的。怎么去做这个问题呢?要把这个拆成两各部分,可以得到这个基本上是挑选最大的值,第一个是所有的句子里面能够产生这样一个音波的概率有多大,再乘上每一个句子它出现的概率有多大,如果我们能够做两个模型,能够很好地模拟这两个模型的话,就做成了一个很好的语音识别系统。第一个部分就是作为的音的模型,就是我们要预测对于一个句子对于一个字它将造成每一种音波的概率有多大,而W是任何一串字它出现的概率又有多大。既然这是概率的一个模型所以就用统计的方法来优化它。怎么优化音的模型呢?就先做一个统计的模型能够很好地模拟每个字、每个音,这每个字、每个音可以有非常细腻的细节,但是刚开始可以假设每个音、每个字有自己的模型,针对这个字、这个音会收取非常多的数据。有一句话在语音界非常出名的,就是最多的数据就是最好的数据。我们发现如果你有很好、很平衡而且很是完美的数据,反而部署得到十倍多的数据它不是很完美、很平衡的。所以多的数据能够构成一个很好的模型参数。我们用这个数据训练这个模型,可以再回去这个音已经做得很好了,现在能不能再收十倍的数据,做一个模型收集很多数据,根据这个数据把模型好好训练好,然后做更大的模型,这个时候需要更多的数据,再用更大的数据训练更大的模型,这样源源不止,一步一步地把语音的识别做得更好。

评论:0   好评:0   坏评:0    
最新评论
标题 作者 发布时间
发表评论 [您必须登录后才能发表评论]
  [登录]  新用户?[注册]

广告

广告

关于雅虎|帮助中心|联系我们|诚聘英才|广告服务|搜索竞价|雅虎百业窗|网站联盟|雅虎大全
Copyright ©2008 Yahoo.com.cn 版权所有 不得转载 使用须知著作权声明NCP法律声明