OpenTweenで、色々とTLの情報を仕分けできるので絵文字を正規表現で指定して仕分けした

OpenTweenで、色々とTLの情報を仕分けできるので絵文字を含んだTweetを正規表現で指定して仕分けした。

OpenTweenは、色々とTLの情報を仕分けできるのが好きだ。
Twitterはフォロワーを増やしていくとTLに流れる情報がその数に比例して増えてき、ある程度増えると追い切れなくなる。
TLの情報と雑音の比(S/N比)を上げるためにTLの雑音を減らして少しでも追い切れる情報を増やしたい。
そのためにOpenTweenの振り分け(仕分け)機能をツイートの分類やミュート機能みたいに使っている。
これまでに色々と設定して、短いTweetや、NGワードを含んだTweetや、日本語ハッシュタグを含んだTweetを仕分け設定していた。

さらに最近、絵文字を含んだTweetを仕分けしたいと思った。
正規表現で絵文字を指定して引っかければいいと思うのだけど、どうすればよいだろうか。

絵文字のUnicodeの正規表現ということで探したら、このあたりが参考になりそうだ。
絵文字にマッチする正規表現 Unicode 版
iOSで扱われるUnicode 6.0絵文字の判定をする正規表現
スマホ絵文字の正規表現文字列を作成するscript · GitHub
Unicode6.0の携帯電話の絵文字の一覧 – Wikipedia
絵文字コード対応表

しかし、まじめにやろうとするとかなり面倒な感じだ。

 [\uE000-\uFEFF]

として、乱暴に条件指定して仕分けすることにした。(後ろをFEFFにしたらなぜか余分に絵文字が引っかかった、なぜ?)

あと、短い文字数のTweet仕分けの変形で、pic.twitter.comを含んだものを別の条件で引っかけて文字数の条件を変えて、短文+写真や絵というものを仕分けした。


追記

日本語ハッシュタグは、当初は大喜利みたいなネタTweetが多かったので仕分けしていたのだが、最近はそういう使われ方が減ってきた。
むしろハッシュタグを付けずに大喜利的なネタTweetしているケースが増えてきている。
そういうのを仕分けしたいのだが、うまい方法が思いつかない。
どうすればいいのだろう?

絵文字についても仕分けしたい理由は、ネタTweetとか宣伝Tweetで使われるケースが多いからだったりする。


さらに追記

OpenTweenでの絵文字を引っかける方法について@kim_upsilonさんから助言のreplyを頂いた。(ありがとうございました。)

\p{IsHighSurrogates}

と指定するという方法だ。
試してみたところ、こちらのほうが正しく引っかかってくれた。




コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

Time limit is exhausted. Please reload CAPTCHA.

+ 5 = 6