MySQL5.6 InnoDB 全文索引 FULLTEXT 中文解决方案 base64

MySQL5.6 InnoDB 全文索引 FULLTEXT 中文解决方案 base64 - NOTEBOOK

PHP / MySQL
Posted on 2023-01-03
摘要 : mysql5.6 innlDB 在CHAR、VARCHAR、TEXT类型的列上可以定义全文索引,但因为无法中文分词所以对中文的支持很差,但从MySQL5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。
在没法升级5.7的情况下,5.6有变通的办法,就是将整句的中文拆分成单个汉字,并按urlencode、区位码、base64、拼音等进行编码使之以"字母+数字"的方式存储于数据库中。

mysql5.6 innlDB 在CHAR、VARCHAR、TEXT类型的列上可以定义全文索引,但因为无法中文分词所以对中文的支持很差,但从MySQL5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。

在没法升级5.7的情况下,5.6有变通的办法,就是将整句的中文拆分成单个汉字,并按urlencode、区位码、base64、拼音等进行编码使之以"字母+数字"的方式存储于数据库中。

存储的是将汉字编码后的结果,用空格连起来,这样就可以使用5.6的全文索引来进行搜索,注意的是要将搜索的内容也先同样编码再进行搜索。

下面给出一种基于base64的汉字变换方式。

/**
* 关键词整理函数(用作mysql的全文索引制作的搜索)
* 1.将字符串全角转半角、去空格、大写转小写、分成单个字符并base64编码、最后用空格连接类,方便mysql索引,做搜索关键字
* 2.将数字转全角做索引区分标识,全角数字为标识专用
**/
function keywords($str){
// 全角转半角
$str = strtr($str,
['１' => '1',
'２' => '2',
'３' => '3',
'４' => '4',
'５' => '5',
'６' => '6',
'７' => '7',
'８' => '8',
'９' => '9',
'０' => '0',
'Ａ' => 'A',
'Ｂ' => 'B',
'Ｃ' => 'C',
'Ｄ' => 'D',
'Ｅ' => 'E',
'Ｆ' => 'F',
'Ｇ' => 'G',
'Ｈ' => 'H',
'Ｉ' => 'I',
'Ｊ' => 'J',
'Ｋ' => 'K',
'Ｌ' => 'L',
'Ｍ' => 'M',
'Ｎ' => 'N',
'Ｏ' => 'O',
'Ｐ' => 'P',
'Ｑ' => 'Q',
'Ｒ' => 'R',
'Ｓ' => 'S',
'Ｔ' => 'T',
'Ｕ' => 'U',
'Ｖ' => 'V',
'Ｗ' => 'W',
'Ｘ' => 'X',
'Ｙ' => 'Y',
'Ｚ' => 'Z',
'ａ' => 'a',
'ｂ' => 'b',
'ｃ' => 'c',
'ｄ' => 'd',
'ｅ' => 'e',
'ｆ' => 'f',
'ｇ' => 'g',
'ｈ' => 'h',
'ｉ' => 'i',
'ｊ' => 'j',
'ｋ' => 'k',
'ｌ' => 'l',
'ｍ' => 'm',
'ｎ' => 'n',
'ｏ' => 'o',
'ｐ' => 'p',
'ｑ' => 'q',
'ｒ' => 'r',
'ｓ' => 's',
'ｔ' => 't',
'ｕ' => 'u',
'ｖ' => 'v',
'ｗ' => 'w',
'ｘ' => 'x',
'ｙ' => 'y',
'ｚ' => 'z',
'～' => '~',
'｀' => '`',
'!' => '!',
'＠' => '@',
'#' => '#',
'＄' => '$',
'%' => '%',
'＾' => '^',
'＆' => '&',
'＊' => '*',
'(' => '(',
')' => ')',
'＿' => '_',
'-' => '-',
'+' => '+',
'=' => '=',
'｛' => '{',
'｝' => '}',
'［' => '[',
'］' => ']',
'｜' => '|',
'＼' => '\\',
':' => ':',
';' => ';',
'＂' => '"',
'＇' => '\'',
'<' => '<',
',' => ',
','>' => '>',
'．' => '.',
'？' => '?',
'／' => '/',
'　' => ' ']
);
// 去空格
$str = str_replace(' ','',$str);
// 大写转小写
$str = strtolower($str);
// 数字统一格式为阿拉伯数字
$str = strtr($str,
[
'零' => 0,
'一' => 1,
'二' => 2,
'三' => 3,
'四' => 4,
'五' => 5,
'六' => 6,
'七' => 7,
'八' => 8,
'九' => 9
]
);
// 分成单个字符并base64编码
$str_len = strlen($str);
// 获取关键字集合
$arr = [];
$str_len = mb_strlen($str);
for($i = 0;$i < $str_len;++ $i){
$keyword = strtr(base64_encode(mb_substr($str,$i,1)),'+/=','abc');
if(!in_array($keyword,$arr)){ // 去除重复的关键字
$arr[] = $keyword;
}
}
return $arr;
}

例如将字符串 '小明小红是朋友' 输入改函数,返回的结果是数组如下

array(6) {[0]=>string(4) "5bCP"[1]=>string(4) "5piO"[2]=>string(4) "57qi"[3]=>string(4) "5piv"[4]=>string(4) "5pyL"[5]=>string(4) "5YaL"
}

分别对应相应的汉字,注意小明和小红都有小这个字,所以去掉重复的字,只有六个编码。
然后用空格将数组连起来

$keywords = implode(' ',keywords($keyword));

将$keywords 存入数据库。

❱ 进阶:

如果匹配的关键词包含一些常用的字,会出现大量的结果。
例如搜索书名霸道总裁,可能会出现,裁缝,总经理,这样的结果
全文搜索是按照相关度从高到底返回的结果,可以只去去前面一些相关度较高的结果。
或者先查询出相关度最高是多少(相关度是一个数值),然后除以二,限定结果的相关度都大于这个最大相关度的一半。

// 通过最大相关度/2过滤一部分无关结果//查询出最大相关度是多少$score = $this->sql('xs.nh')->query('SELECT MATCH(keywords_base) AGAINST (?)as score FROM nh ORDER BY score DESC LIMIT 1',[$keywords]);
//构造查询语句$this->where['MATCH(keywords_base) AGAINST'] = [$keywords,'> '.$score[0]['score'] / 2];

推荐文章:

windows bat 批处理中，变量自增的2种方式 2025-02-17

犯了最愚蠢的错误啊 2025-07-01

windows 批量给文件添加文件名前缀（拖动文件到 bat 批处理） 2025-02-19

将bat批处理放在windows右键的“发送到” 2025-02-25

家用充电桩安装和拆解 2025-07-07

windows bat 批处理中，等待接收用户输入信息 2025-02-17

windows 批量重命名、自动添加递增序号（拖动文件到 bat 批处理） 2025-02-19

右键发送到菜单+批处理实现批量自动化为文件名添加统一的后缀 2025-02-25

windows拖动（多个）文件到 .bat 批处理，获得文件名等信息 2025-02-17

将windows右键改回旧版（展开）风格 2025-02-25

illustrator 绘制藤曼缠绕的效果 2025-02-27

Blender 使用吸附功能将一个物体吸附到另一个物体表面 2025-02-26

Ubuntu 删除缓存、日志 2025-02-27

windows 批量替换文件名中的字符（拖动文件到bat 批处理） 2025-02-19

Blender对齐分布插件：AlignAndDistribute V3.0.1 2025-03-03

Blender 中使用吸附功能实现阵列效果（物体拼接） 2025-03-29

链接:

背单词v3 小学数学入门练习漫画书 3D立体图片特殊符号教程：PHP 教程 - runoob.com Font Awesome 图标 PHP 教程 - w3school.com.cn Github php svg 条形码项目 jQuery 教程 - w3school.com.cn Python 教程 - w3school.com.cn下载：熊猫无损音乐 WAV/MP3 模拟器Rom下载多多软件站 Blender 中国 Blender 4.1 参考手册 Blender 贴图网 mbientcg Blender 贴图网 polyhaven 免费3D模型下载 Free3D 3D模型下载 CGTrader blenderco.cn 布的 - 每天QQ登陆打卡 blender 爱给 -每天QQ登陆打卡设计宝藏 - 丰富2D3D资源 Adobe 全家桶 Veer 素材网觅知素材网昵图网高清壁纸背景图片三维立体画-刘红石作品字体天下免费字体下载字体家工具：免费生成批量SVG条形码免费生成 QR-code 批量条形码标签（barcode label）免费压缩MP4 GIF 等 freeconvert 压缩MP4 TTSmaker - 文本转mp3 mp3转字幕srtAI生图：椒图AI - 每日登录