言語処理100本ノック
言語処理100本ノック 2015の5章のつづき、44「係り受け木の可視化」です。事前に以下でpydotを使えるようにしておきます。azwoo.hatenablog.com プログラム #!/usr/bin/python # -*- coding: utf-8 -*- import sys import re import json import CaboCha im…
42. 係り元と係り先の文節の表示&43. 名詞を含む文節が動詞を含む文節に係るものを抽出 【プログラム】 # coding: utf-8 import sys import re import json f = open('neko.txt.mecab','r') class Morph: def __init__(self,surface,base,pos,pos1): self.s…
www.cl.ecei.tohoku.ac.jp5章難しくてなかなか進まない。プログラムが長くなってしまうので小出しで行きます。 5章で使うCabochaについて CabochaというSupport Vector Machines に基づく日本語係り受け解析器ということで、このモジュールに文章をぶち込…
でた、形態素解析。こんなのも簡単にできちゃう時代。恐ろしや。[以下自分用メモ] Wiki: http://ja.wikipedia.org/wiki/MeCab 公式ページ: http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#呼び出し方 MeCab.Tagger('-Ochasen') MeCab.Tagger('…
いやぁ、流石に難しくなってきた。汚いコードですいません。 20. JSONデータの読み込み 【プログラム】 #!/usr/bin/env python # coding:utf-8 import json temp={} f = open('jawiki-country.json', 'r') i = 0 for line in f: temp[i]=json.loads(line) i+…
やばいおもろすぎる。第2章やってみた。www.cl.ecei.tohoku.ac.jp 10. 行数のカウント 【プログラム】 #!/usr/bin/env python # coding:utf-8 i=0 for line in open('hightemp.txt', 'r'): i+=1 print i【実行&結果】 $ sudo python 10.py 24【確認】 $ wc …
言語処理100本ノック2015の第1章をやってみたので記録。大学の時のこういう授業受けてみたかったなぁ。www.cl.ecei.tohoku.ac.jp#一部ちゃんと前提を読んでおらず、pythonではなく、unixのコマンドでやってしまいました。 00. 文字列の逆順 【実行&結果】 $ …