OpenTweenで、色々とTLの情報を仕分けできるので絵文字を含んだTweetを正規表現で指定して仕分けした。
OpenTweenは、色々とTLの情報を仕分けできるのが好きだ。
Twitterはフォロワーを増やしていくとTLに流れる情報がその数に比例して増えてき、ある程度増えると追い切れなくなる。
TLの情報と雑音の比(S/N比)を上げるためにTLの雑音を減らして少しでも追い切れる情報を増やしたい。
そのためにOpenTweenの振り分け(仕分け)機能をツイートの分類やミュート機能みたいに使っている。
これまでに色々と設定して、短いTweetや、NGワードを含んだTweetや、日本語ハッシュタグを含んだTweetを仕分け設定していた。
さらに最近、絵文字を含んだTweetを仕分けしたいと思った。
正規表現で絵文字を指定して引っかければいいと思うのだけど、どうすればよいだろうか。
絵文字のUnicodeの正規表現ということで探したら、このあたりが参考になりそうだ。
・絵文字にマッチする正規表現 Unicode 版
・iOSで扱われるUnicode 6.0絵文字の判定をする正規表現
・スマホ絵文字の正規表現文字列を作成するscript · GitHub
・Unicode6.0の携帯電話の絵文字の一覧 – Wikipedia
・絵文字コード対応表
しかし、まじめにやろうとするとかなり面倒な感じだ。
[\uE000-\uFEFF]
として、乱暴に条件指定して仕分けすることにした。(後ろをFEFFにしたらなぜか余分に絵文字が引っかかった、なぜ?)
あと、短い文字数のTweet仕分けの変形で、pic.twitter.comを含んだものを別の条件で引っかけて文字数の条件を変えて、短文+写真や絵というものを仕分けした。
—
追記
日本語ハッシュタグは、当初は大喜利みたいなネタTweetが多かったので仕分けしていたのだが、最近はそういう使われ方が減ってきた。
むしろハッシュタグを付けずに大喜利的なネタTweetしているケースが増えてきている。
そういうのを仕分けしたいのだが、うまい方法が思いつかない。
どうすればいいのだろう?
絵文字についても仕分けしたい理由は、ネタTweetとか宣伝Tweetで使われるケースが多いからだったりする。
—
さらに追記
OpenTweenでの絵文字を引っかける方法について@kim_upsilonさんから助言のreplyを頂いた。(ありがとうございました。)
今のところ綺麗な解決策は無いのでかなり雑な方法になりますが、「\p{IsHighSurrogates}」で抽出するとだいたい絵文字のツイートが引っ掛かると思います(Unicodeの追加多言語面に含まれる全ての文字がヒットします)
— upsilon (@kim_upsilon) October 30, 2017
\p{IsHighSurrogates}
と指定するという方法だ。
試してみたところ、こちらのほうが正しく引っかかってくれた。