语音技术沙龙

Posted on 2013-03-17 05:18:21 +0900 in 语音语音 趋势 大规模机器学习

1 报告内容

第一次在帝都现场参加技术talk的沙龙，比学校的talk要应用性实际的多。

第一个报告是百度语音部门负责人贾磊，主要讲了百度语音搜索在DNN领域的一些经验。百度成立了第一个研究院，Institute of Deep Learning，简称IDL。由于Deep Learning在语音及多媒体领域面对海量数据的优越性，Google、Miscrosft等公司都开始投入大量的人力、物力做这样一件事情。没带笔记本过去，凭记忆力列几个关键点。

处理流程为客户端编码、上传、服务器端处理、下放
训练样本为10亿级，如考虑抗噪，会到百亿数量级
MS的隐层深度为10层，Google的隐层数目为6层左右，输出层为9000维左右
SGD（随机乱序），异步SGD，利用近似二阶梯度i信息为训练中重要方法
节点间通信的带宽为主要瓶颈
单个GPU核的计算能力相当于未优化的CPU核的400～500倍
Google有chrome，所以可以在浏览器里加入语音的采集模块，百度没有多媒体采集的客户端，很受限制。

第二个报告是IBM中国研究院的秦勇老师。分享了IBM在语音处理方面的进展，主要是大的picture

Itrans（IBM speech transcription server）能够将视频中的语音翻译成文本信息。这个应用在国外的客服领域应用较多，主要是在金融等行业。除此之外，对于很多talk形成文本话非常有意义
讲解了Watson背后的技术DeepQA，虽然Watson目前只应用在娱乐节目上，但是可以将其扩展到如医疗等方向上，因为医学的知识不断的发展，而医生整理知识的工作是可以由Watson代替的
分享了邮件的主题可视化，增加了直观性

提出了几个有意思的点子：

有人在考虑实现如雅思、托福类的口语自动判卷。IBM没有做过商用，但是针对印度的口音做过类似的应用。IBM表示没有考虑语义，看来语义还是很难做的。如果这个效果好，简直可以大赚一笔
可以实现学习如希特勒的说话特征，然后自动的根据特点生成语音。这个略犀利，如果做好了，以后接电话要小心了。
通话质量的可视化

感想：

DNN比拼的简直是工程实现能力，架构才是王道啊，机器+架构实现+数据源是真正的瓶颈
有想法，有技术，敢闯的人在帝都有这种交流的机会真是不错
百度的浏览器、输入法等入口工具都起步太晚，导致了数据上的先天缺陷
技术的交流是必须的，故步自封是要吃苦头的

----------------------------------- 本文内容遵从CC版权协议转载请注明出自kamelzcs -----------------------------------

« 日本大使馆活动见闻 | 初体验 »

语音技术沙龙

Posted on 2013-03-17 05:18:21 +0900 in 语音 语音 趋势 大规模机器学习

1 报告内容

Hide Comments

Posted on 2013-03-17 05:18:21 +0900 in 语音语音趋势大规模机器学习