デイリーポータルZロゴ
このサイトについて
イッツコムロゴ

コネタ


コネタ726
 
文章の自分らしさを判定する

文は人をあらわす、という。

本サイトのウェブマスターの林さんの文章は、書き出しをちょっと読んだだけでも林さんだと分かるし、他のライターの方々の文章もそうだ。

そういう、文章のその人らしさを、自動的に判定することはできないだろうか。
たとえば、ぼくの文章にはちゃんとぼくらしさが出ているのかどうか、調べてみたい。

というわけで今回は、文章のその人らしさを判定する仕組みを作ってみることにしました。

(text by 三土たつお

自分の文章を判定してくれる仕組みを作ろう

その人らしさを判定するための「その人」としては、失礼のないよう、ぼく(三土)自身をえらんでみることにする。

すなわち、ぼくの文章を読んで、それがたしかにぼくの文章である、と判定してくれる仕組みをつくろう。

とはいえ、それを一から作るのはいかにも大変そうだ。すでにある仕組みを利用して、なんとか実現できないだろうか。

 

 

迷惑メールを判定する仕組みが利用できそうだ
まいにち次々と届く迷惑メール。さいきんのは手が込んでますよね。

最近のメールソフトには、迷惑メールとそうでないメールの区別を学習して、迷惑メールを自動的に判別してくれる機能がついているものがある。この機能を利用できるんじゃないだろうか。

こういう判定機能を使うためには、まず迷惑メールとそうでないメールがまじった状態でふつうに受信して、そのうえで、ユーザがメールの内容を目で見て、迷惑メールだけにチェックをするという作業をする必要がある。

するとメールソフトは、迷惑メール(またはそうでないメール)に特徴的に含まれる単語や言い回しを解析して学習し、それ以降にとどくメールが、迷惑メールかそうでないかを自動的に判別してくれるのだ。

だから原理的には、この機能は迷惑メールの判定以外にも使うことができる。今回は、ぼくの文章を判別するように、学習させることにしよう。

 

 

7月分のぜんぶの記事を自分あてにメールする
7月のコネタいちらん。特集記事も含めてぜんぶメールします。

まずは、サンプルとなるデータを、メールソフトに受信させる必要がある。今回は、7月分のコネタと特集の記事、合計77本を使うことにしよう。

ただし、その際には、記事のHTML中に含まれるタグをとり除いたり、記事のタイトルを拾ったりする必要がある。それらをいちいち手でメール送信するのも面倒だ。

というわけで、そのあたりの処理を自動的にやってくれるプログラムを作って、サンプルデータを送信してみた。


このプログラムで記事を整形してメールします。

 

 

届いたメールはこんな感じ
これは安藤さんの記事。

たとえばこれは、7月20日の安藤さんの特集記事(「自分のために壁を塗ろう」)。 いつもながらすてきな文章です。

 

ぼくの文章を迷惑メールとして学習させていく

さて、いよいよぼくの記事を迷惑メールとしてチェックしていこう。以下で、チェックされたメールにはゴミ箱のマークが表示される。


まちの音階をしらべる」(7月29日特集)。迷惑メールとしてチェックする。


献血のゆくえ」(7月15日特集)。これも迷惑メールに。以下同様。


地下鉄の車窓から」(7月8日コネタ)。


土の緩衝作用をためす」(7月22日コネタ)

 

 

では、学習の成果をテストしよう

メールソフトは、ぼくの文章の特徴を覚えてくれただろうか。

6月分のコネタを受信させて、判定の結果を見てみよう。学習の効果が十分なら、ぼくの記事(「数学の文章題を体当たりで解く」)だけに、ゴミ箱のマークが表示されるはずだ。

では、1日の記事から順番に受信していく。


6月前半の記事。
他のライターの方々の記事は迷惑メールとして判定されていない

そしていよいよ6月後半の記事へ・・。うまくいくだろうか。


おー! ちゃんと迷惑メールに判定されている。(「数学の文章題〜」)

 

実験成功

よかったよかった。うまくいった。

メールソフトは、ちゃんとぼくの文章を迷惑メールとして判定してくれている。ということは、ぼくの文章には他のライターの方の文章と区別できるだけの違いは一応ある、ということなのだろう。

単に悪文だ、ということを意味しているだけなのかもしれないけど、それでもうれしい。


ちなみに、くだんの記事の内容はこんな感じです

 

自分の文章のくせも分かる

迷惑メールの特徴を解析したデータを眺めることで、自分の文章のくせを知ることもできる。

たとえば次の画面を見ると、ぼくがこれまでの記事の中で、8回も「というわけで」という言い回しを使っているのが分かる(この記事自身でも、上のほうで3回使っている)。

どうもぼくはこの言い回しを使いすぎるきらいがあるらしい。これからは意識して「というわけで」を使うのを避けていこうと思う。


「というわけで」を使いすぎだ。

自然な自分らしさを目指して

そういうわけで、当初の目的はぶじ達成することができた。自分の文章にもちゃんと自分らしさがある、と言えるのだとすると、素直に嬉しい。

ただし、無理に変な言い回しを使ったり、奇をてらったりしてまで、自分らしさを出したりしないように、気をつけたいと思う。

まずは読みやすく、丁寧な文章をかけるように。精進します。

(なお、今回の迷惑メール判定のため、junnno氏作成による Mozilla Thunderbird に対する日本語化トークンパッチ、および spamdump extension を利用しました。 )


 

▲トップに戻る コネタバックナンバーへ
 
 


個人情報保護ポリシー
©its communications Inc. All rights reserved.