”文科生要被消灭了“么?

这件事情的起因是这篇博客:
http://yixuan.cos.name/cn/2011/03/text-mining-of-song-poems/

里面讲述了一个很简单很好玩的分词思路:直接把所有单字组合进行穷举,凡是符合自然词的组合,出现的次数肯定就多。这样就可以得到前100高频词这样的东西。简单粗暴,实用价值也不大,但是很有趣,而且实现起来极其容易,不过十行R代码。

有一天我在豆瓣上瞅见了这篇文章,觉得这个思路非常好玩,就转帖到果壳网的这个链接:http://www.guokr.com/post/74433/

由于这个算法对词频进行了排序,于是网友们自然想到了把一个数字序列映射成一首“词”的想法。由于词这种体裁本身对语法的要求很弱,得出的结果竟然还貌似像样。

我觉得,参与玩的果壳网友很多都知道,这离真正的词艺术价值还十万八千里,而离中文自然语言处理的前沿也是十万八千里。这个玩具就像是那些输入姓名、输出一个MD5算出来的结果代码的那种所谓“测试”,只是在玩映射而已。

只是扬子晚报摘了一句网友开玩笑的回应给当成了题目,于是就有点演变成群嘲的架势了。面向理科生和文科生的双向群嘲。

——————————————————

抛开这个荒谬的题目不论,计算机真的写得出宋词吗?

这篇论文应该很有名:《一种宋词自动生成的遗传算法及其机器实现》。

摘一首这个程序的作品:
相逢缥缈,窗外又拂晓.长忆清弦弄浅笑,只恨人间花少. 黄菊不待清尊,相思飘落无痕.风雨重阳又过,登高多少黄昏.

技术细节大家可以自己查阅。这个算是计算机作词的比较高端的成果吧。

——————————————————

这对文学是一种威胁吗?(话说扬子晚报究竟是要多白痴才能把文学和文科等同起来的……)

候世达在《如聆巴赫》中表达了类似的担忧,不过担忧对象是肖邦的钢琴曲。David Cope编制的EMI程序所创造的仿肖邦玛祖卡不但成功地骗过了候世达本人,还骗过了许多音乐系学生。

文中这样表述EMI的基本原理:

” 给定几个输入作品的情况下,EMI 的核心手法是这样的:

(1) 分解;(2) 重组。

当然,有许多重要的原理会限制什么段落可以跟在什么后面,这些原理都被公式化确定下来以保证乐曲的连贯。我可以总结出如下两条规则:

(1) 局部的音调转合模式应类似原作; (2) 全局的片段排布应类似原作。“


实际上这和宋词程序的思想是相通的。一开始那个简陋的分词只是在分解和重组,而那篇论文则满足了后来的原则。

候世达本人对这件事情很悲观,他说:

”这样的景象由 EMI 鲜明而几乎触手可及地展现在了我的面前,令我产生了巨大的担忧,在这样忧闷的情绪下,我悲观地罗列出了下面三个原因:
(1) (比如说) 肖邦要比我想象的浅薄得多。 (2) 音乐要比我想象的浅薄得多。 (3) 人类灵魂/心智要比我想象的浅薄得多。“


————————————————————

目前我们还不清楚计算机艺术创作会走到怎样的地步,也不知道哪一种原因是真的。我个人觉得,至少有一部分已知的艺术作品,是不可能用简单的分解-重组方法来得到的。

但是我们知道,这个分解和重组的创作手法,绝对不是计算机发明的。每一个初学写诗词的人都尝试过堆砌辞藻,甚至有些人终生都只停留在这一步。有些人依靠拼凑和堆磊甚至可以成名、可以发大财、可以成为青春偶像,也许文学界对此忿忿不平,但又没有一个简明有效的办法来告诉大众:这是堆出来的、是浅薄的。

可是我们现在有了计算机程序。不是大家都觉得计算机低人一等吗?那正好,我们用这些低贱的、机械化的程序也能制造出外表华丽、像模像样的文字。对于那些依赖拼凑的文学创作者,还有什么比这个打击更大的呢?还有什么更好的办法来去伪存真呢?把那些用堆砌模仿抄袭来沽名钓誉的人剔除出队伍,留下真正的伟大创新者,这难道不是文学界几千年来的梦想吗?

在这个趋势下,确实会有很多写手被消灭。但是我个人觉得,对于整个文学领域,这更像严冬之后的春天。




———————————
PS:关于这件事情,原作者yixuan写了一篇短文来说明:http://yixuan.cos.name/cn/2011/12/some-notices/

本文由Ent授权(果壳网)发表,文章著作权为原作者所有。
推荐 3人推荐
41条评论

1/3   下一页

  • 1楼
    2011-12-02 23:42 Ekoms

    顶最后一段。

    再说了其实机器人统治人类也没什么不好啊。。求接入matrix。。

    评论
  • 2楼
    2011-12-02 23:43 五月的尾巴

    大浪淘沙,那些快餐读物都会湮没在时间里。

    评论
  • 3楼
    2011-12-02 23:45 Ent
    引用@五月的尾巴不举栗子了 的回应:大浪淘沙,那些快餐读物都会湮没在时间里。

    从文学史上来说,这倒是没错……
    不过那些写手已经大富大贵过了一辈子了,也不在乎后世评价啥的……

    评论
  • 4楼
    2011-12-02 23:46 Amaranth

    铜球接入matrix

    评论
  • 5楼
    2011-12-02 23:52 五月的尾巴
    引用@Ent 的回应:
    从文学史上来说,这倒是没错……
    不过那些写手已经大富大贵过了一辈子了,也不在乎后世评价啥的……

    忽然想到了四姑娘……

    评论
  • 6楼
    2011-12-03 01:21 猪了个去
    引用@Amaranth 的回应:铜球接入matrix

    matrix++

    评论
  • 7楼
    2011-12-03 01:28 PengZoe

    我不相信你消灭不了我们的!!

    评论
  • 8楼
    2011-12-03 01:34 学四三层

    可不能消灭文科生啊...没了文科生得少了多少笑料...日子肿么过啊...

    评论
  • 9楼
    2011-12-03 02:40 路边有棵草

    文科男可以不要。。。可是文科妹子是不可以的!

    评论
  • 10楼
    2011-12-03 02:51 ChanIm
    引用@路边有棵草 的回应:文科男可以不要。。。可是文科妹子是不可以的!

    作为一个文学男内牛满面

    评论
  • 11楼
    2011-12-03 03:28 El0000

    唉~~要真能消灭文科姐提前两年毕业指日可待了啊⋯⋯现实哪有这么美好⋯⋯游山玩水不干活终究只是理想~~~~森森的伤感了⋯⋯

    评论
  • 12楼
    2011-12-03 07:44 猫鱼列传

    有谁和我一样想到的是大刘的<诗云>?

    评论
  • 13楼
    2011-12-03 08:39 darkwild

    我想起来在豆瓣上看到的后现代文章发生器—— http://www.douban.com/group/topic/15784846/
    正是E大说的“对于那些依赖拼凑的文学创作者”惨烈的打击~

    评论
  • 14楼
    2011-12-03 08:40 darkwild

    引:
    假设你是一个胸无点墨的知识欺诈者,但是又有强烈的野心,想在学术生涯上取得成功,得到一小群虔诚的信徒,让全世界的学生把你的作品用荧光记号笔标出来。那么你会选择致力于哪种文风?当然,不能是清晰的那种,因为清晰的文风会暴露出你的无知。或许你会创作出类似于下面这段话的东西:
      我们很明显地看到,视作者的不同,在线性的表意联系或者原书写(archi-writing),以及这种多参考的、多维的机械催化剂之间不存在一一对应的关系。尺度的对称、横向性和它们的扩展的消极非论说的特征:所有这些维度让我们离开了排中律的逻辑,并且加强了我们对此前批评过的本体论二元论的拒绝。
    。。。。。。

    评论
  • 15楼
    2011-12-03 08:46 Ent
    引用@darkwild 的回应:我想起来在豆瓣上看到的后现代文章发生器—— http://www.douban.com/group/topic/15784846/
    正是E大说的“对于那些依赖拼凑的文学创作者”惨烈的打击~

    对!这个例子我都忘了提了……

    评论
  • 16楼
    2011-12-03 08:55 wlnirvana

    最后一段很有号召力呢~

    评论
  • 17楼
    2011-12-03 10:46 c_ghost

    人的创作思维机器应该是可以学习和模仿到的,毕竟是有规律可循,但是人的创新思维机器是无法懂的,这是和人的生理特性有关,毕竟机器是无生命体,无自主创新意识的。

    评论
  • 18楼
    2011-12-03 12:15 大白菜叶
    引用@五月的尾巴不举栗子了 的回应:
    忽然想到了四姑娘……

    我也想到他了,典型代表啊……

    评论
  • 19楼
    2011-12-03 13:41 LJ001

    你们忽视了最重要的一点,那就是机器本身并不知道自己写了什么,是人把有意义的东西识别出来。

    意识——这就是人和机器本质的不同。

    有一种理论认为世界没有“发明”,只有“发现”。人类的发明其实只是一种发现,又或者说文学作品早就存在,只是等待人的发现而已。而发现它的人有命名它的权利(例如莎士比亚只是发现了他的作品)但不要觉得发现就卑微,在这个无法穷尽的世界里,发现一条路径,和发明一样东西是等价的,都是独一无二的。

    人类拥有识别“意义”的意识,也就有了发现这种技能。这是目前的机器无法拥有的(以后不敢说)

    推荐阅读《失控》

    评论
  • 20楼
    2011-12-03 16:46 绛蓝

    其实我觉得四姑娘文笔很过硬,只是人们对于他的抄袭和人品比较怀疑所以才成为嘲笑的对象而已……= =

    评论

你的评论

回复请先登录
Ent 古生物学博士生,科学松鼠会成员 Ent的新浪微博 发表于 2011-12-02 23:20

©果壳网    京ICP证100430号    京网文[2015] 0609-239号    新出发京零字东150005号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区