当前位置: 首页 > news >正文

用Python或C把搜狗细胞词库转成文本文件

翁学天 (Xuetian Weng ),即CS Slayer写了scel2org,是fcitx-tools的一部分。

我把他的.c程序挪了出来,不用装别的,gcc scel2org.c即可编译:

这里〕可下载 scel2org.c utarray.h uthash.h utils.h

然后搞了个Python版(29行)

import sys
f = open(sys.argv[1], 'rb')if f.read(12) != b'\x40\x15\0\0\x44\x43\x53\x01\x01\0\0\0': raise ValueError()
f.seek(0x1540)
if f.read(4) != b'\x9d\x01\0\0': raise ValueError()all_py = []
to_uint16 = lambda bs: int.from_bytes(bs, byteorder='little', signed=False)
dec_utf16 = lambda bs: bs.decode('utf-16')while True:f.read(2)pinyin = dec_utf16(f.read(to_uint16(f.read(2))))all_py.append(pinyin)if pinyin == "zuo": breakwhile True:bs = f.read(2)if len(bs) == 0: breaksymcnt = to_uint16(bs)cnt = to_uint16(f.read(2))bs = f.read(cnt)pyidx = [to_uint16(bs[i:i+2]) for i in range(0, len(bs), 2)]for i in range(symcnt):b = f.read(to_uint16(f.read(2)))print(dec_utf16(b), ' '.join([all_py[i] for i in pyidx]))f.read(to_uint16(f.read(2)))
View Code

Python很方便,fread改f.read :-)

翁学天很强,他现在是fcitx的主要开发者。

小企鹅输入法(Fcitx)最初是由Yuking开发的,最初名为gWuBi,自1.7版改名为Fcitx,基于XIM协议,为Linux在中国的普及做出了重要贡献。

Fcitx: Flexible Input Method Framework 〔详情

http://www.gsyq.cn/news/43379.html

相关文章:

  • AI元人文:理性主体性的理论建构与文明意义
  • 制造业的5种模式:OEM 、ODM、OBM 、JDM、CMT
  • springboot+easyui实现本学院学生去向登记表
  • 2025 年 11 月全自动加袋机厂家推荐排行榜,FFS/25公斤/吨袋/吨包全自动上袋机,肥料/铜精粉全自动吨袋上袋机公司精选
  • powerGrid靶机复盘WP
  • 2025 年 11 月电缆分支箱厂家推荐排行榜,35KV/10KV高压户外电缆分支箱,分接箱,对接箱,欧式光伏风电场用高原型带开关负荷开关隔离开关断路器
  • 2025 年 11 月财税合规服务厂家推荐排行榜,电商/跨境电商/出口退税/公司注销/股权设计/平台报送/海外公司/审计报告全案解决方案
  • 2025 年 11 月预埋件厂家推荐排行榜,幕墙预埋件,热镀锌预埋件,后置预埋件,槽式预埋件,冲压预埋件,焊接预埋件,套芯预埋件,钢结构预埋件,混凝土预埋件公司推荐
  • 2025 年 11 月喷头漏墨维修厂家推荐排行榜,理光喷头漏墨,京瓷喷头漏墨,精工喷头漏墨,喷绘机喷头漏墨维修与粘合修复技术教学
  • 2025 年 11 月铝材厂家推荐排行榜,1060/1070导电铝排,6061/6063合金铝排,6061/6063/6082/2A12/5A06/7075铝棒,5083/2A12铝板公司推荐
  • 11.7日学习笔记
  • java面试八股 redis篇
  • Python + nano-banana API 批量给图片添加文字
  • AI元人文:当一个系统说“我就是一个人”
  • pip install weditor安装出现报错
  • AI大模型应用开发技术架构和技术选型 - 努力-
  • 一个名为 LVGL for Visual Studio 的项目
  • MySQL 基础架构(一):SQL语句的执行之旅
  • 顺序表练习题
  • 关于一种计算递归次数题的思路
  • 前端框架深度解析:Vue 从入门到实战,掌握渐进式开发核心 - 实践
  • 练习上传
  • 重组蛋白表达技术|HEK293细胞蛋白表达|高效重组蛋白生产服务
  • RK3576在智能工程机械中的应用|三屏八摄AI视觉解决方案
  • 做题笔记23
  • 毒盘未转存仅支持在线观看30s
  • AI元人文:理论自省与客观评估
  • 完整教程:《以 Trae 为桥:高效集成豆包 1.6 API 的实践与思考》
  • 从零开始实现简易版Netty(十) MyNetty 通用编解码器解决TCP黏包/拆包问题
  • 【刷题笔记】AT 经典 90 题