如何转义emoji表情,让它可以存入utf8的数据库?


unicode emoji是4个字节的,存不进MySQL里,找到一个转义的库 http://code.iamcal.com/php/emoji/ ,但是转为Unicode之后,还是4个字节,一样存不进,应该说根本没转。转为其他格式的emoji又怕以后新增了表情不好做,你们在不改数据库编码的前提下,是怎么弄的?

方法1:base_encode64

这种方法是可以,但是旧数据没有经过 encode 操作,取数据的时候如果统一进行decode的话,旧数据会丢失的。

方法2:urlencode

这个似乎可以,对没有经过encode的数据进行decode也不会有影响,而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗?

=======================
一个发现,微信获取用户基本信息的时候,返回笑哭那个表情的是 \ud83d\ude02 ,而我存储的时候,报错说这个 \xF0\x9F\x98\x82 值不能存储,请问这是怎么回事,自动转码了,转成的这是什么?是微信转码过了吗?微信那个经过unicode解码,可以得到笑哭的表情

php mysql emoji unicode

_HYIII_ 9 years, 5 months ago
linding answered 9 years, 5 months ago

https://github.com/iamcal/php-emoji
我是用这个处理的~

懒趴趴D修也 answered 9 years, 5 months ago

  1. 使用 BOLO 类型

  2. 将数据库编码改为 utf8mb4

七七见奈波 answered 9 years, 5 months ago

因为我的项目中需要对字数有限制的需求,涉及到逐字计数,在这基础上我增加了emoji的功能完美实现。你需要代码的话请再告诉我,我提供给你。

F—U—C—K answered 9 years, 5 months ago

不用更改整个数据库的把。。。create xxx() charset=utf8mb4 单表 utf8mb4就行了把

肉嘎嘎思密达 answered 9 years, 5 months ago

不用转,直接数据库转成utf8mb4, 我以前就是这么干的

桃屋しょう猫 answered 9 years, 5 months ago

我这个刚解决的这个问题(后端是java实现的,数据库Mysql),供参考。
1、修改存储emoji字段编码,例如放在username字段中:


 ALTER TABLE user CHANGE username username VARCHAR(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci default null;

2、java在执行数据库插入、更新操作前,要先执行 sql语句"set names utf8mb4" 语句。

逝去的天空 answered 9 years, 5 months ago

我是这么玩儿的


 <?php
//处理名字的emoji符号
        $tmpStr = json_encode($text); //暴露出unicode
        $tmpStr = preg_replace("#(\\\ue[0-9a-f]{3})#ie","addslashes('\\1')",$tmpStr); //将emoji的unicode留下,其他不动
        $text = json_decode($tmpStr);
        return $text;

am3pm4 answered 9 years, 5 months ago

你试试这个函数,之前弄微信自定义菜单的时候,也接触过Emoji表情,当时看到用的这个函数把Emoji表情的编码给转换了。


 function utf8_bytes($cp) {
    if ($cp > 0x10000){
        # 4 bytes
        return    chr(0xF0 | (($cp & 0x1C0000) >> 18)).
        chr(0x80 | (($cp & 0x3F000) >> 12)).
        chr(0x80 | (($cp & 0xFC0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else if ($cp > 0x800){
        # 3 bytes
        return    chr(0xE0 | (($cp & 0xF000) >> 12)).
        chr(0x80 | (($cp & 0xFC0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else if ($cp > 0x80){
        # 2 bytes
        return    chr(0xC0 | (($cp & 0x7C0) >> 6)).
        chr(0x80 | ($cp & 0x3F));
    }else{
        # 1 byte
        return chr($cp);
    }
}

弋佧詻俟丶戾 answered 9 years, 5 months ago

urldecode
我看了一下 decode 的源码,应该是不会出现问题。

只要没有 % 解码后肯定还是原来的字符(串),有 % 会出现两种情况,一种是解码成功,这个时候肯定就不是原来的字符串了,一种是解码失败,抛出异常(其实这个异常可以作为是否 encode的标准)。

解码还算是比较严格吧,作为用户名的情况下 出现 % 还解码成功的概率比较小吧,对于这部分你可以手动改数据库,应该不会有很多。

牧瀨紅莉栖 answered 9 years, 5 months ago

试试微博或qq里面的那种方式?用简单的编码来映射,比如微笑可以用 [wx] /wx 。不过表情多了之后4个字符不怎么够用。。。

SilenT answered 9 years, 5 months ago

有一种编码叫 utfmb4,支持 4 位长度的 utf8 编码

喏,你的 MySQL 版本必须为 5.5 以上的

钉宫理惠酱 answered 9 years, 5 months ago

我在做微信公众平台开发时遇到过这个问题,微信用户的昵称可以包含表情(坑爹- -!)。于是我就将整个昵称转换成HEX字符串存在MySQL中,目前用户1W+,系统稳定,题主可以参考一下此方案。

MySQL支持hex() and unhex()函数。Java可以使用org.apache.commons.codec.binary.Hex工具类。其他语言也有相应的方法。

图片描述

由比ケ浜結衣 answered 9 years, 5 months ago

Your Answer